Dealer.AI
Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai Habr @Andriljo
نمایش بیشتر4 830مشترکین
-124 ساعت
+77 روز
+19530 روز
- مشترکین
- پوشش پست
- ER - نسبت تعامل
در حال بارگیری داده...
معدل نمو المشتركين
در حال بارگیری داده...
На майские начать с нового листа. Сорева по решению математических задач с LLM обнулилась...
https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/leaderboard
🥴 8
Arctic LLM 🥶 Skip MoE 🤩
Тут уже все обсосали обсудили
жирный 480b Arctic MoE.
Я его уже обозвал SkipMoE. Почему? Обратите внимание на скрин архитектуры ниже. Теперь вместо того, чтобы роутить К экспертов в ffn после multi head attention, мы роутим skip connection эмбы прям после эмб матриц токенов (с учетом эмбов позиций конечно). Те мы делаем доп отображение векторов токенов сразу без MHA и risidual коннектим к выходу блока.
Зачем такое может быть нужно?
Возможно, чтобы лучше сохранять изначальную инфу без MHA отображения по различным "доменам" информации.
Ablation.
А еще есть вот такой постик на medium, чет аля тех репорт. Описанны эксперименты + losses для сетапов с/без MoE, а так же с разными вариантами выбора по частоте и топК экспертов. В работе Arctic используется топ-2 на 128 экспертах, при этом размер ffn на каждый топК уменьшается в М раз и увеличиваем в L число экспертов. Для топ-2 в 2 раза.
Еще интересно исследование числа FFN на MoE в блоках трансформера. Это или на каждый FFN мы даем МоЕ блок или через блок или через каждые N>1.
Крч, народ обмазывается MoE в разных местах архитектуры трансформер опять же.
Snowflake/snowflake-arctic-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤ 6
Apple представил свой вариант кода для обучения LLM, CLIP-like и тп.
https://github.com/apple/corenet
GitHub - apple/corenet: CoreNet: A library for training deep neural networks
CoreNet: A library for training deep neural networks - apple/corenet
👍 4
Полное 3D погружение.🌿
В последнее время все чаще ко мне заходят работодатели и ищут людей с опытом в 3D CV. Даже один мой бывший студент, у которого стартап по Medicine CV забегал. К чему я это?
Сейчас высокий спрос, а значит надо оседлать очередную "волну".
И тут ребята из deepschool как раз подготовили такой курс, а для начала проведут лекцию «Погружение в 3D CV».
На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды.
А еще челики не жадные и подготовили скидки участникам💸
📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК. Регистрируйтесь тут.
Онлайн-лекция"Погружение в 3D CV"
🤪 13👍 4❤ 3🔥 3🤡 1
если кто не понял о чем я и забыл, что такое Alpaca tuning.
Ребзя из тимы Вихря, вероятно, хотят провернуть тоже с 70b LLama3.
👍 7
Repost from Love. Death. Transformers.
Надеплоил llama3 70b, собираем синту под русские инструкт датасеты, приходите тыкаться!
@vikhrbot
🔥 9
Repost from Бэкдор
Пушка: Google выкатила крутейший учебник по промпт-инжинирингу! Гайд огромен — на 45 страницах раскинулись ценнейшие советы для работы в Gemini, которые подойдут и для других нейронок.
Это действительно учебник — понятный, доступный и красиво оформленный. В каждой главе вас ждут примеры использования, лайфхаки и наглядные инструкции.
Выжимаем из нейронок все соки тут.
@whackdoor
👍 19❤ 5😁 2🤔 1