AbstractDL
Коротко про классные штуки в CV, NLP и AI 🤷♂️ Автор: @razzant
Mostrar más- Suscriptores
- Cobertura postal
- ER - ratio de compromiso
Carga de datos en curso...
Carga de datos en curso...
nn.Linear()
, а модель будет работать, будто бы ничего не поменялось!
Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHubGrokking: оверфиттинг это ещё не конец (by OpenAI) Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать. У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку. Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы. Статья, видео
We’re on a journey to advance and democratize artificial intelligence through open source and open science.