cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Dealer.AI

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai Habr @Andriljo

نمایش بیشتر
Advertising posts
4 830مشترکین
-124 ساعت
+77 روز
+19530 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

На майские начать с нового листа. Сорева по решению математических задач с LLM обнулилась... https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/leaderboard
نمایش همه...
🥴 8
Почему SkipMoe.
نمایش همه...
👍 8 2
Arctic LLM 🥶 Skip MoE 🤩 Тут уже все обсосали обсудили жирный 480b Arctic MoE. Я его уже обозвал SkipMoE. Почему? Обратите внимание на скрин архитектуры ниже. Теперь вместо того, чтобы роутить К экспертов в ffn после multi head attention, мы роутим skip connection эмбы прям после эмб матриц токенов (с учетом эмбов позиций конечно). Те мы делаем доп отображение векторов токенов сразу без MHA и risidual коннектим к выходу блока. Зачем такое может быть нужно? Возможно, чтобы лучше сохранять изначальную инфу без MHA отображения по различным "доменам" информации. Ablation. А еще есть вот такой постик на medium, чет аля тех репорт. Описанны эксперименты + losses для сетапов с/без MoE, а так же с разными вариантами выбора по частоте и топК экспертов. В работе Arctic используется топ-2 на 128 экспертах, при этом размер ffn на каждый топК уменьшается в М раз и увеличиваем в L число экспертов. Для топ-2 в 2 раза. Еще интересно исследование числа FFN на MoE в блоках трансформера. Это или на каждый FFN мы даем МоЕ блок или через блок или через каждые N>1. Крч, народ обмазывается MoE в разных местах архитектуры трансформер опять же.
نمایش همه...
Snowflake/snowflake-arctic-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

6
Apple представил свой вариант кода для обучения LLM, CLIP-like и тп. https://github.com/apple/corenet
نمایش همه...
GitHub - apple/corenet: CoreNet: A library for training deep neural networks

CoreNet: A library for training deep neural networks - apple/corenet

👍 4
Полное 3D погружение.🌿 В последнее время все чаще ко мне заходят работодатели и ищут людей с опытом в 3D CV. Даже один мой бывший студент, у которого стартап по Medicine CV забегал. К чему я это? Сейчас высокий спрос, а значит надо оседлать очередную "волну". И тут ребята из deepschool как раз подготовили такой курс, а для начала проведут лекцию «Погружение в 3D CV». На лекции вы узнаете: - какие задачи решают в 3D - почему таких задач становится больше - с чего начать погружение в эту область - почему CV-инженеру важно знакомиться с 3D - что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды. А еще челики не жадные и подготовили скидки участникам💸 📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК. Регистрируйтесь тут.
نمایش همه...
Онлайн-лекция"Погружение в 3D CV"

🤪 13👍 4 3🔥 3🤡 1
если кто не понял о чем я и забыл, что такое Alpaca tuning. Ребзя из тимы Вихря, вероятно, хотят провернуть тоже с 70b LLama3.
نمایش همه...
👍 7
Ща за альпачинят 👇
نمایش همه...
Надеплоил llama3 70b, собираем синту под русские инструкт датасеты, приходите тыкаться! @vikhrbot
نمایش همه...
🔥 9
Repost from Бэкдор
Пушка: Google выкатила крутейший учебник по промпт-инжинирингу! Гайд огромен — на 45 страницах раскинулись ценнейшие советы для работы в Gemini, которые подойдут и для других нейронок. Это действительно учебник — понятный, доступный и красиво оформленный. В каждой главе вас ждут примеры использования, лайфхаки и наглядные инструкции. Выжимаем из нейронок все соки тут. @whackdoor
نمایش همه...
👍 19 5😁 2🤔 1
😁 44👍 1