AbstractDL

@abstractdl

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ Автор: @razzant

Russia53 918Russian58 485Technologies & Applications8 351

Advertising posts

9 250

Subscribers

-524 hours

+237 days

+28330 days

5 895

Post views

No data24 hours

No data48 hours

63.74%

Engagement rate

No data24 hours

No data48 hours

Mentions

17 days

230 days

No data

Posts per day

~ 161

Reactions

~ 28

Comments

~ 191

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

Photo unavailableShow in Telegram

Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось! Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается. Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне. P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность. Статья, GitHub

Show all...

👍 247🔥 34🎉 10🤔 5🤯 3❤ 2👏 2💯 1

Photo unavailableShow in Telegram

Мой маленький тест на AGI. Раньше с такими шифрами хорошо справлялись только модели по типу PIXEL.

Show all...

👍 130👎 6

Repost from Denis Sexy IT 🤖

01:46
Video unavailableShow in Telegram
01:23
Video unavailableShow in Telegram
05:55
Video unavailableShow in Telegram

Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность

Show all...

yRIgKkDpKyuR7Hh9.mp44.92 MB

d-kWFueNllJF18JO.mp45.88 MB

ORm-j7B-2HnNapKu.mp416.67 MB

👍 40👎 4

00:08

Video unavailableShow in Telegram

StoryDiffusion: генерация консистентных наборов изображений без дообучения Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно. Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой. StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями. Статья, GitHub, HuggingFace

Show all...

IMG_2503.MP42.82 MB

👍 83

Photo unavailableShow in Telegram

Llama-3 Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь — 128k токенов вместо 32k (думаю отсюда и +1B параметров). А также добавили grouped query attention (GQA), чтобы это работало быстрее. Во время обучения модели скормили 15Т токенов, это офигеть как много (по шиншилле можно и 200B версию на таком сете обучать). Блог, веса

Show all...

👍 59👎 1

Помните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы достичь генерализации после оверфита.

Show all...

AbstractDL

Grokking: оверфиттинг это ещё не конец (by OpenAI) Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать. У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку. Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы. Статья, видео

👍 94

Photo unavailableShow in Telegram

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA) Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40! Самое главное — эта модификация совместима со всеми диффузионными моделями. Статья

Show all...

👍 74

Photo unavailableShow in Telegram

VAR: Image Generation via Next-Scale Prediction (by Bytedance) Вы наверняка слышали про авторегрессионный подход к генерации изображений (imageGPT, Dalle-1). Но у этих методов было очень большое ограничение — картиночные токены приходилось "выпрямлять" в 1D последовательность, которая становилась слишком длинной. Поэтому они работали плохо и медленно, уступив место диффузиям. Авторы VAR предложили мозговзрывательный способ генерировать изображения при помощи GPT без необходимости делать это неприятное "выпрямление" — вместо авторегрессии по пикселям\токенам они делают "next-scale prediction", то есть предсказывают сразу всю матрицу VQVAE токенов за один forward pass. Теперь один шаг авторегрессии — это шаг увеличения разрешения (см. картинку). К моему удивлению, для этого потребовалось совсем немного модификаций оригинальной GPT-2 архитектуры (текстовой). Такой подход работает просто молниеносно, а законы масштабирования сильно лучше, чем у диффузий. По метрикам VAR бьёт всех на class-conditional датасетах (генерации по тексту пока нет, но над этим уже работают). А тем временем весь код и веса уже в открытом доступе. P.S. Думаю, что это один из самых перспективных методов генерации изображений (и видео?) на данный момент. Статья, GitHub, Huggingface

Show all...

👍 82

Photo unavailableShow in Telegram

Как устроено пространство, в котором думают языковые модели? Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором. Статья, хабр

Show all...

👍 116

Mistral-7B-v0.2 Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sliding-Window-Attention (SWA) и увеличили контекст до 32к токенов. Других деталей нет, но думаю это что-то вкусное. P.S. HF репозиторий не официальный, но голые веса можно найти в недрах сайта Mistral Huggingface, raw weights

Show all...

alpindale/Mistral-7B-v0.2-hf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍 41👎 3