AbstractDL

@abstractdl

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️ Автор: @razzant

Больше

Россия53 485Русский58 334Технологии и приложения8 327

Рекламные посты

9 223

Подписчики

+324 часа

+1917 дней

+28930 дней

5 673

Просмотры поста

~ 7 26824 часа

~ 7 96648 часов

61.52%

Коэффициент вовлеченности

78.8%24 часа

86.4%48 часов

Упоминания

Нет данных7 дней

Нет данных30 дней

Нет данных

Постов в день

~ 87

Реакции

~ 14

Комментарии

~ 168

Репосты

Подписчики
Просмотры постов
ER - коэффициент вовлеченности

Загрузка данных...

Фото недоступноПоказать в Telegram

Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось! Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается. Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне. P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность. Статья, GitHub

Показать все...

👍 238🔥 30🎉 9🤔 4❤ 2🤯 2👏 1💯 1

Фото недоступноПоказать в Telegram

Мой маленький тест на AGI. Раньше с такими шифрами хорошо справлялись только модели по типу PIXEL.

Показать все...

👍 130👎 6

Repost from Denis Sexy IT 🤖

01:46
Видео недоступноПоказать в Telegram
01:23
Видео недоступноПоказать в Telegram
05:55
Видео недоступноПоказать в Telegram

Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность

Показать все...

👍 40👎 4

00:08

Видео недоступноПоказать в Telegram

StoryDiffusion: генерация консистентных наборов изображений без дообучения Если вам нужно сгенерировать последовательную историю из фотографий, чтобы везде чётко прослеживалась единая локация, а главные персонажи не меняли одежду и причёску от фото к фото, то StoryDiffusion — именно то, что вам нужно. Идея гениальна в своей простоте — ничего даже учить не нужно, только заменить блок self-attention на версию, которая "смотрит" на соседние фотографии в батче. Оказалось, этого более чем достаточно, чтобы генерации стали согласованными между собой. StoryDiffusion идеально подходит для создания комиксов и даже видео (нужно только интерполировать сгенерированные ключевые кадры, что авторы и делают). Код уже в открытом доступе! Должно работать почти с любыми обученными диффузионными моделями. Статья, GitHub, HuggingFace

Показать все...

👍 82

Фото недоступноПоказать в Telegram

Llama-3 Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь — 128k токенов вместо 32k (думаю отсюда и +1B параметров). А также добавили grouped query attention (GQA), чтобы это работало быстрее. Во время обучения модели скормили 15Т токенов, это офигеть как много (по шиншилле можно и 200B версию на таком сете обучать). Блог, веса

Показать все...

👍 59👎 1

Помните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы достичь генерализации после оверфита.

Показать все...

AbstractDL

Grokking: оверфиттинг это ещё не конец (by OpenAI) Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать. У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку. Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы. Статья, видео

👍 94

Фото недоступноПоказать в Telegram

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA) Всё это время мы генерировали картинки диффузией неправильно — оказывается, classifier-free guidance вредит диффузионному процессу в его начале и конце. А если включать guidance только на середине — то генерация станет не только разнообразнее, но и качественнее: для модели EDM2-XXL это уменьшает FID с 1.81 to 1.40! Самое главное — эта модификация совместима со всеми диффузионными моделями. Статья

Показать все...

👍 74

Фото недоступноПоказать в Telegram

VAR: Image Generation via Next-Scale Prediction (by Bytedance) Вы наверняка слышали про авторегрессионный подход к генерации изображений (imageGPT, Dalle-1). Но у этих методов было очень большое ограничение — картиночные токены приходилось "выпрямлять" в 1D последовательность, которая становилась слишком длинной. Поэтому они работали плохо и медленно, уступив место диффузиям. Авторы VAR предложили мозговзрывательный способ генерировать изображения при помощи GPT без необходимости делать это неприятное "выпрямление" — вместо авторегрессии по пикселям\токенам они делают "next-scale prediction", то есть предсказывают сразу всю матрицу VQVAE токенов за один forward pass. Теперь один шаг авторегрессии — это шаг увеличения разрешения (см. картинку). К моему удивлению, для этого потребовалось совсем немного модификаций оригинальной GPT-2 архитектуры (текстовой). Такой подход работает просто молниеносно, а законы масштабирования сильно лучше, чем у диффузий. По метрикам VAR бьёт всех на class-conditional датасетах (генерации по тексту пока нет, но над этим уже работают). А тем временем весь код и веса уже в открытом доступе. P.S. Думаю, что это один из самых перспективных методов генерации изображений (и видео?) на данный момент. Статья, GitHub, Huggingface

Показать все...

👍 82

Фото недоступноПоказать в Telegram

Как устроено пространство, в котором думают языковые модели? Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором. Статья, хабр

Показать все...

👍 116

Mistral-7B-v0.2 Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sliding-Window-Attention (SWA) и увеличили контекст до 32к токенов. Других деталей нет, но думаю это что-то вкусное. P.S. HF репозиторий не официальный, но голые веса можно найти в недрах сайта Mistral Huggingface, raw weights

Показать все...

alpindale/Mistral-7B-v0.2-hf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍 41👎 3