AbstractDL

@abstractdl

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ Автор: @razzant

نمایش بیشتر

روسيا55 634روسی59 176فناوری و برنامه‌ها8 664

پست‌های تبلیغاتی

9 306

مشترکین

-224 ساعت

+17 روز

+5330 روز

5 816

نمایش های پست

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

62.49%

نرخ مشارکت

اطلاعاتی وجود ندارد24 ساعت

اطلاعاتی وجود ندارد48 ساعت

یادکردها

اطلاعاتی وجود ندارد7 روز

130 روز

اطلاعاتی وجود ندارد

پست های در روز

~ 87

واکنش ها

~ 9

نظرات

~ 176

بازنشرها

مشترکین
پوشش پست
ER - نسبت تعامل

در حال بارگیری داده...

Repost from addmeto

Photo unavailableShow in Telegram

Claude показали новый релиз своей "самой умной" модели Claude 3.5 Sonnet. Это первый релиз в линейке 3.5, но любопытно: раньше Sonnet был слабее Opus. Новый Sonet лучше не только Opus, но и (по собственным тестам) GPT4o. Кроме того, в Sonnet появились визуальные запросы (например по разбору изображений и видео). Я в такие тесты не верю, буду проверять сам. https://www.anthropic.com/news/claude-3-5-sonnet

نمایش همه...

👍 35

Photo unavailableShow in Telegram

Goldfish Loss: заставим LLM запоминать смысл, а не текст Языковые модели часто вызубривают обучающие примеры, а это очень неприятно, особенно когда в датасете есть приватные данные, диалоги реальных пользователей или контент с копирайтом. Да и вообще, хочется, чтобы LLM запомнила именно смысл обучающих данных, а не заучивала их наизусть. Оказалось, что одним из самых эффективных способов борьбы с таким поведением — это простой дропаут лосса, то есть маскирование ошибки для случайного сабсета токенов в тексте (~25%). Таким образом модель не научится дословно воспроизводить то, что видит. Даже после 10 эпох дообучения на Гарри Поттере "плагиат" в генерациях модели остаётся на уровне нуля. А главное, что такая регуляризация не ухудшает финальные метрики, в том числе на претрейне. Статья, GitHub

نمایش همه...

👍 139

Photo unavailableShow in Telegram

Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось! Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается. Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне. P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность. Статья, GitHub

نمایش همه...

👍 260🔥 39🎉 10🤔 5🤯 3❤ 2👏 1💯 1

Photo unavailableShow in Telegram

Мой маленький тест на AGI. Раньше с такими шифрами хорошо справлялись только модели по типу PIXEL.

نمایش همه...

👍 130👎 6

Repost from Denis Sexy IT 🤖

01:46
Video unavailableShow in Telegram
01:23
Video unavailableShow in Telegram
05:55
Video unavailableShow in Telegram

Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность

نمایش همه...

yRIgKkDpKyuR7Hh9.mp44.92 MB

d-kWFueNllJF18JO.mp45.88 MB

ORm-j7B-2HnNapKu.mp416.67 MB

👍 40👎 4

00:08

Video unavailableShow in Telegram

StoryDiffusion: генерация консистентных наборов изображений без дообучения Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно. Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой. StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями. Статья, GitHub, HuggingFace

نمایش همه...

IMG_2503.MP42.82 MB

👍 83

Photo unavailableShow in Telegram

Llama-3 Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь — 128k токенов вместо 32k (думаю отсюда и +1B параметров). А также добавили grouped query attention (GQA), чтобы это работало быстрее. Во время обучения модели скормили 15Т токенов, это офигеть как много (по шиншилле можно и 200B версию на таком сете обучать). Блог, веса

نمایش همه...

👍 59👎 1

Помните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы достичь генерализации после оверфита.

نمایش همه...

AbstractDL

Grokking: оверфиттинг это ещё не конец (by OpenAI) Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать. У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку. Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы. Статья, видео

👍 94

Photo unavailableShow in Telegram

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA) Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40! Самое главное — эта модификация совместима со всеми диффузионными моделями. Статья

نمایش همه...

👍 74

Photo unavailableShow in Telegram

VAR: Image Generation via Next-Scale Prediction (by Bytedance) Вы наверняка слышали про авторегрессионный подход к генерации изображений (imageGPT, Dalle-1). Но у этих методов было очень большое ограничение — картиночные токены приходилось "выпрямлять" в 1D последовательность, которая становилась слишком длинной. Поэтому они работали плохо и медленно, уступив место диффузиям. Авторы VAR предложили мозговзрывательный способ генерировать изображения при помощи GPT без необходимости делать это неприятное "выпрямление" — вместо авторегрессии по пикселям\токенам они делают "next-scale prediction", то есть предсказывают сразу всю матрицу VQVAE токенов за один forward pass. Теперь один шаг авторегрессии — это шаг увеличения разрешения (см. картинку). К моему удивлению, для этого потребовалось совсем немного модификаций оригинальной GPT-2 архитектуры (текстовой). Такой подход работает просто молниеносно, а законы масштабирования сильно лучше, чем у диффузий. По метрикам VAR бьёт всех на class-conditional датасетах (генерации по тексту пока нет, но над этим уже работают). А тем временем весь код и веса уже в открытом доступе. P.S. Думаю, что это один из самых перспективных методов генерации изображений (и видео?) на данный момент. Статья, GitHub, Huggingface

نمایش همه...

👍 82

یک طرح متفاوت انتخاب کنید

طرح فعلی شما تنها برای 5 کانال تجزیه و تحلیل را مجاز می کند. برای بیشتر، لطفا یک طرح دیگر انتخاب کنید.