Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Rusia12 047Ruso12 361Tecnologías y Aplicaciones1 826

Publicaciones publicitarias

43 699

Suscriptores

-224 horas

+1457 días

+1 40730 días

19 417

Visitas de la publicación

~ 11 49124 horas

~ 12 86248 horas

44.45%

Tasa de compromiso

26.3%24 horas

29.4%48 horas

540

Menciones

177 días

4330 días

~ 3

Mensajes por día

~ 321

Reacciones

~ 61

Comentarios

~ 218

Republicar

Distribuciones de tiempo de publicación

Carga de datos en curso...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.

Análisis de publicación

Mensajes	Vistas	Acciones	Ver dinámicas
01 🙀 продавцы видеокарточек стали самой дорогой компанией в мире	9 760	306	Loading...
02 Тут ТикТок запустил фабрику ботов. Точнее аватаров. Читаем, потом смотрим. Стоковые аватары: готовые аватары, созданные с использованием платных актеров, которые лицензированы для коммерческого использования. Свои аватары: с возможностью работы на нескольких языках, дают контроль и возможность масштабировать свою персону и бренд. Креаторы могут использовать свое собственное лицо и создавать мультиязычные аватары для расширения своего глобального охвата и сотрудничества с брендами. Теперь смотрим. Это снятое видео. Руки и туловище кожаные, снятые. Это видно. А дальше с лицом производятся манипуляции. Причем это даже больше похоже не на дипфейк, а на оживление фотачек лица, о котором я тут пишу как ужаленный. Видно, что губы оживляются библиотекой wav2lib (скорее всего), и выглядят блекло. В общем это старый подход с цифровыми инфлюенсерами - взять реальное фото-видео и пришпандорить на лицо какое-нибудь безобразие. Ну честно сказать, качество не впечатляет. Впечатляет, что это ТикТок, ибо у него до фига разработок в области оживляжа лица, и если он вышел на эту поляну, то прогресс будет. https://newsroom.tiktok.com/en-us/announcing-symphony-avatars	9 834	90	Loading...
03 — Нет вы не понимаете они НЕ МОГУТ решать — Чел, ты промпты писать не умеешь и не делаешь генерацию тысяч вариантов, успойося или я в дурку позвоню 🏥 😆	12 340	66	Loading...
04 Помните вот эту ситуацию? Когда человек утверждал, что LLM не могут решить какую-то задачу, утвердил приз $10'000, и через два дня расстался с деньгами? Я ещё в комментариях шутил, что если хотите на серьёзных щах что-то утверждать про ограничения систем — надо готовиться выкладывать деньги, ибо иначе людям, которые реально могут доказать, что вы не правы, просто не интересно. А помните я на прошлой неделе писал про бенчмарк ARC от Francois Chollet? Якобы что это визуальная загадка, где нужно уметь на лету идентифицировать новые паттерны, и что текущие LLM в этом вообще не разбираются, и выдают <10% качества? Как написали в одном из чатов (автор @senior_augur): — Я думаю ARC никто долго не побивал, потому что он никому нахер не нужен был На интервью Francois говорил, мол, вот LLM не умеют рассуждать и обобщаться, бенчмарку 4 года, а воз и ныне там стоит. И утвердил конкурс (ну и получил освещение в подкасте) на $1M (правда там пока только $500k доступно, и то со звёздочками, что фронтир-модели, лучшие из лучших, под критерии не попадают). Прошло 6 дней. Воздуха набрали? Готовы? 😏 Знакомый подкастера из Redwood Research написал пост, где показывает, насколько высоки метрики GPT-4. На тренировочной выборке (публично доступной) качество 71% на 100 отложенных автором задачах, в которые он не подглядывал. Качество человека в среднем 85%. Кажется, что разрыв большой, но напомню, что основной тезис разработчика бенчмарка был «ну так LLM и 10% не решают!». На приватной выборке качество 51%, но не удивляйтесь — она сама по себе сложнее (и для неё неизвестен показатель человека, в смысле его просто не померили). До этого лучший метод давал 34% и не опирался на LLM. Осталось дождаться, что Francois со своими друзьями возьмут метод и запустят на самом ультра-приватном датасете, который ещё никто не видел (специально для соревнований сделали), увидели там 50%+- и сидели вот так: 😅 , переосмысливали своё представления об «ограничениях дип лернинга». Но вам наверное интересно, как работает решение? Примерно так: — GPT-4o на каждую задачу генерирует примерно 5000 программ на питоне, которые потенциально могут быть решением — программы фильтруются по их способности повторить 3 примера, которые всегда даются (по условиям задачи, именно по ним нужно установить зависимость и дать ответ) — топ-программы, дающие максимально похожий результат (если нет правильных) отдаются на правку GPT-4o, типа «вот как нужно, вот как ты сделала, исправляй эту хрень». Тут генерируется ещё 3000 программ (итого 8000) — выбирается финальный кандидат для решения. Для того, чтобы это работало хорошо, нужно немного поиграться с входными представлениями (так как, как я и говорил, модель не очень хорошо «видит» картинку, совсем не так, как мы), используя ASCII и написать несколько примеров рассуждений. Обычно в промпт входит примерно 30'000 токенов — если добавлять больше, то модель начинает работать хуже после 32'000 по естественным причинам (это давно замечено). Автор описал несколько итераций улучшений промпта, но самое главное, как я понял — это подать несколько представлений на вход для одной и той же задачи, просто потому, что GPT не видит так же, как это делает человек. «GPT-4o’s vision is terrible on grids» (потому что все задачи на клеточках). Ей нужно хорошо приготовить текст, разделить всё символами (типа 0 \| 3 \| 1 \| 2, цифры обозначают разные цвета). И второе — GPT-4o плохо кодит и часто ошибается на +-1 по клеточкам. Обе проблемы решаются с развитием моделей, так что ждём к концу года новых прорывов (хотя кому теперь интересно будет садиться за задачу?).	12 188	130	Loading...
05 Сделано с новой моделью Runway Gen 3	9 376	198	Loading...
06 Те из вас, кто читал лонг про Sora, наверняка (не)помнят про то, что компания Runaway ещё год назад пробовала обучать модели по генерации видео, а в декабре (ещё до OpenAI) заявили, что их следующие модели будут World Models («...системы, которые понимают визуальный мир и его динамику. Они создают внутреннее представление окружающей среды и используют его для моделирования будущих событий в этой среде»). И вот вышел анонс модели Gen-3 Alpha с примерами генерации. Некоторые я приложил к этому посту (простите за вес!), но рекомендую перейти по ссылке и посмотреть все демки. В отдельных аспектах генерации превосходят OpenAI'шную модельку — особенно, как мне показалось, на генерации людей. Утверждается, что это решение будет для Артистов (не артИстов) и с прицелом на прикладное использование в индустрии. И якобы управляемость генерациями очень хорошая — правда все промпты на странице очень короткие, не чета Dalle 3 или Sora'шным. То есть как будто бы нельзя в мельчайших деталях описать, что происходит. Ну и ещё все ролики короткие — до 10 секунд. Зато будет предлагаться персонализация под бизнес-заказчиков. Например, это может быть полезно при генерации одного и того же персонажа в разных ситуациях, чтоб результат выходил более консистентным, а детали сохранялись.	27 928	320	Loading...
07 И в заключение перевод последнего блока официального поста с анонсом статьи: === Будущее: полностью автоматизированный исследователь искусственного интеллекта, который постоянно совершенствуется Существует много интересных путей дальнейшего продвижения предложенного процесса автоматизации исследований <...> Наконец, мы считаем, что необходимы более эффективные методы отбора потенциальных решений <...> Наша работа подчеркивает огромный потенциал использования современного искусственного интеллекта для создания процесса самоулучшения. В будущем мы предполагаем, что этот подход можно будет использовать в открытой форме. То есть LLM неоднократно предлагает изменить части себя (любую часть обучения или работы системы) или части различных агентов, которые в конечном итоге дают обратную связь самим себе (например, посредством дебатов между собой). В этом проекте мы изучили возможности предложения кода различных LLM, включая GPT-4, Gemini-1.5 и Llama-3. Хотя все модели в целом были способны генерировать подходящие целевые функции, в конце концов мы решили использовать пограничную модель GPT-4, чтобы оценить, что в настоящее время осуществимо. Мы ожидаем, что возможности, обнаруженные в этой работе, будут возможны с большинством других передовых моделей, включая модели с открытым исходным кодом <...>В будущем мы хотели бы использовать предлагаемый процесс исследования для разработки самоусовершенствующихся ИИ-агентов в замкнутом цикле и с использованием открытых моделей. === Напомню, что a) OpenAI хотят делать то же самое (и скорее всего активно делают) б) Чем лучше базовая модель, тем лучше генерируемые гипотезы и варианты в) Лучшие базовые модели последние 3-4 года у OpenAI г) В этом году мы ждём GPT-4.5/GPT-5/GPT-Next, как там её назовут, и можно ожидать, что методы, подобные описываемым, будут работать ещё лучше	11 258	73	Loading...
08 Таким образом у нас есть: — исходная модель, которую хотим дообучить — набор пар ответов «хороший-плохой», на которых будем дообучать — функция потерь, задающая направление дообучения — код, который запускает тренировку, беря на вход все три пункта выше (модель+данные+функция потерь) и выдаёт новообученную модель — автоматизированный бенчмарк, который принимает на вход модель и возвращает оценку, якобы отражающую мнение человека Все части для запуска алгоритма оптимаизации есть. Итеративно повторяем следующее: — просим LLM (в данном случае GPT-4) написать функцию потерь, описав задачу, что мы хотим — берем функцию, запускаем обучение, ЖДЁМ, пока обучится модель — оцениваем её на бенчмарке, получаем оценку. Пусть это будет условные 6.8 из 10 — дальше берем функцию, берем оценку, подаём в GPT-4 и просим улучшить код, чтобы оценка стала выше — получаем новую функцию... — обучаем... — оцениваем (пусть получилось 7.1 из 10)... — просим GPT-4 улучшить... (изображено на картинке слева, а по центру примерная структура промпта). и это работает. Модель понимает, как примерно нужно поменять код так, чтобы улучшить оценку. Более того авторы замечают, что, во-первых, модель пишет осмысленные названия функций, которые отражают используемые приёмы, а, во-вторых, трезво размышляет о способах улучшений, переиспользуя концепты из разных областей. Запустив цикл, авторы сгенерировали более 100 функций и выбрали перспективные. После проверили, что и на других бенчмарках, и на других данных, и в других ситуациях это работает также хорошо — зачастую лучше, чем существующие подходы. На правой части картинки вы можете посмотреть некоторую другую автоматизированную оценку. Заштрихованные полоски — существующие алгоритмы, а обычные — это новые, найденные GPT-4. Как вы понимаете, подход работает в общем виде — авторы пробовали его на моделях для классификации картинок, там тоже всё ОК (найденная функция работает для разных архитектур, и для других наборов данных). В общем, вот такие первые шажки в само-улучшающемся AI. Никакого прям супер-прорыва не произошло, то есть это не то что «вау ИИ самоулучшается мы скоро все умрём», но и улучшение на несколько процентов тут, там и здесь — всегда приятно.	9 997	79	Loading...
09 Discovering Preference Optimization Algorithms with and for Large Language Models Помните у меня был лонг про FunSearch, алгоритм от DeepMind? Если пропустили — обязательно рекомендую к прочтению (особенно в контексте вчерашних постов про поиск). Вкратце: LLM общего назначения нашла решение оптимизационной задачи, над которой бились математики, лучше, чем найденное человеком. Алгоритм в некотором роде универсальный и может быть применён к любой задаче, решение которой можно каким-то образом числено оценить и сказать, что вот это лучше, а это хуже. Звучит сложно, поэт ому ещё раз отсылаю к лонгу. Так вот, ребята из Японии из стартапа Sakana предложили схожую идею, но для оптимизации самого процесса дообучения LLM. Как вы наверянка знаете, есть 3 этапа тренировки моделей вроде ChatGPT: — предтренировка на терабайтах текста (~98% всех ресурсов тут) — обучение следованию инструкциям — обучения на человеческих предпочтениях (чтобы модель отвечала так, как мы хотим, и была наиболее полезной, а также знала границы своих навыков) Последние 2 этапа иногда схлопывают в один, но не суть. При обучении на предпочтениях модель обычно оперирует парами сравнений: дан один промпт (запрос в LLM) и два ответа, и известно, какой ответ человек считает лучшим (или что они равны). OpenAI для обучения на таких данных используют метод PPO, который сами изобрели в 2017м. Но он требует очень качественных данных и тонкой настройки, и работает мало у кого вне OpenAI (может они и сами с него съехали, хз). В последний год появилось много аналогов, которые запустить куда проще — два самых популярных это DPO и KTO. Можете прочитать обзор у Ильи вот тут. По сути, все эти методы отличаются одной вещью: функцией потерь, используемой во время дообучения, а сами аргументы функции одни и те же (вероятности, выдаваемые моделями - текущей и исходной. Итого 4 штуки на каждый токен — потому что у нас 2 варианта, «хороший» ответ и тот, что похуже). То есть вся разница в том, какой обучающий сигнал мы подаём модели при прочих равных. То есть функция для оптимизации через генерацию разных вариантов у нас есть, осталось понять, как оценивать — и можно запускать аналог FunSearch. Важно, чтобы оценка была автоматической и быстрой — ведь потенциально нужно генерировать сотни функций. Для этого можно использовать саму LLM: у нас уже есть несколько разных автоматизированных бенчмарков, состоящих из 80 (MTBench) или 500 (ArenaHard) промптов и референсных ответов GPT-4. Если хотим понять, насколько хороша новая модель, то генерируем ответы на эти запросы, подаём в GPT-4 вместе с референсами и просим оценить по шкале с разными критериями. Немного шумно, но внезапно неплохо коррелирует с оценками живых людей.	10 511	102	Loading...
10 Обновление по бенчмарку оценки моделей в разрезе понимания видео и ответа на вопросы по ним (Video-MME). Я писал, что Gemini сильно обгоняет GPT-4 потому, что в последнюю подавали всего 10 кадров из всего видео — конечно же многое будет пропущено. Авторы исправились, и сделали замер GPT-4o с 384 кадрами на видео. Всё ещё не как у Gemini-1.5-Pro, но тут роль уже играет естественное ограничение на длину контекста: больше просто не получается. Метрики скакнули с 66.2% до 71.9% — при 75% у конкурента от Google. Хотел сначала написать, что «ну если бы впихнули всё, то были бы и вовсе лучше!», но скорее всего нет: на коротких видео (до 4 минут), где теперь модели на равных (видят по 1-2 кадра в секунду), решение OpenAI отстаёт на 1.7%. Интересно, что на длинных видео разница увеличивается совсем немного — пока не понимаю почему.	12 114	29	Loading...
11 И вот такой поиск по дереву, описанный выше — это очень хороший способ существенно улучшить алгоритм (в данном случае LLM). Именно с помощью него AlphaGo стала сверхчеловеком (относительно игры в Го). Базовая модель, лежащая в основе оценки/генерации решений, там слабенькая — на графике это левая колонка, её рейтинг 3000. Рейтинг самого лучшего игрока ~3600. Если я правильно посмотрел, это означает, что шанс победы модели 3% — не чета человеку. Но если поверх этой же модели добавить поиск по дереву, описанный выше, но в контексте го, и дать время на подумать перед ходом, то...модель может разогнаться до 5000 рейтинга. Разница 1400 очков с человеком означает фактически нулевой шанс победы. А модель то не изменилась, просто добавили поиск сверху. Единственное, что нужно — это вычислительные мощности. AlphaGo в своё время имел беспрецедентный масштаб по количеству вбуханных в TPU (аналог GPU от гугла) и электричество денег. С таким поиском, 1 минута «рассуждений» при выборе хода эквивалентна увеличению базовой модели (той самой с 3000 рейтинга) в 1000 раз. На сегодняшний день никто не натренировал одну нейросеть, которая играла бы лучше человека в го — но с поиском поверх относительно слабой сетки происходит вон что. С LLM сложнее, тут есть (было?) главная проблема — в го есть чёткий критерий оценки игры, победа, поражение или ничья. В математике/программировании ещё как-то можно придумать проверку, а вот в простых сообщениях и открытых вопросах такой критерий не просматривается. Но, быть может, LLM смогут сами себя валидировать, и им и такой сигнал норм 🤷‍♂️	12 198	102	Loading...
12 Каждый кружок тут — это решение. Если между двумя кружками есть связь, это означает, что решение выше использовалось для генерации решения ниже (то есть было подано в промпт LLM, и по нему была получена критика, что можно улучшить). (a) — процесс выбора решения для дальнейшего развития. Обратите внимание, что мы не всегда выбираем последний уровень. Это возможно, например, если решение ниже (дочернее) хуже, то есть его оценка ниже. Ну представьте, что LLM где-то очевидно ошиблась в математике. (b) процесс добавления новосгенерированного решения в дерево (c) — про этот шаг я не рассказывал, но по сути там просто применяется формула для оценки потенциала решения в будущем. Грубо говоря, при прочих равных большим потенциалом обладает то решение, у которого меньше родителей (то есть меньше итераций сделано). Это помогает избегать тупиков, когда мы уже 50 раз что-то сделали, но всё равно ничего не получается. Смотрите главу 3.4 в статье для деталей. (d) — процесс обновления всех родительских оценок решения. Логика такая, что если решение стало получше, то и вся цепочка решений должна иметь больший вес при выборе (более перспективно). Для меня кажется невероятным то, что оценка от 8B модели может так точно координировать процесс поиска для математических задач уровня старшей школы/олимпиад. Не зря говорят, evaluation is easier than generation.	11 956	140	Loading...
13 Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report Работа китайских учёных по скрещиванию LLM и метода Монте-Карло для поиска по дереву для решения математических задач. По сути, это попытка привести работу LLM к виду, аналогичному AlphaGo — системе, выигравшей человека в игру, в которой огромное пространство поиска ходов (и из-за этого считалось, что компьютер никогда не сможет обыграть нас). Этот процесс полностью автономен и не зависит от человека. Исследователи предложили следующий процесс. Используется маленькая шустрая LLAMA-3 на 8B параметров, и нигде ниже в описании она не дообучается. Далее: 1. Модель генерирует начальные решение (рассуждение) и ответ на задачу. К этому параллельно добавляется ответ в духе «я не могу это решить» (если вдруг первое решение уж совсем неправильное). Такие два варианта называются «исходным набором». 2. Далее для каждого ответа модель через промпт оценивает его качество от -100 до 100 (правда, краевые значения обрезаются, так как LLM любит ставить максимальную оценку, не оставляя пространства для улучшений). 3. Выбирается ответ (+решение) с максимальной оценкой. 4. Через другой промпт LLM просят дать критику решения, что в нём не так, что можно было бы улучшить. На основе этой критики и выбранного решения модель генерирует новое (зачастую отличающееся). 5. Новое решение проходит оценку от -100 до 100 (как в пункте 2) — всё той же LLM'кой. Однако авторы замечают, что если делать оценку всего один раз, то получается очень неточный результат, поэтому для каждого сгенерированного решения статистика будет накапливаться. Каждый раз, когда мы генерируем решение по критике нескольких предшествующих, мы считаем оценку и для них (как бы для «родителей» этого решения). И оценка каждого решения — это среднее между минимальной оценкой и средней оценкой для данного решения. Получается как бы баланс между худшим и средним сценарием. 6. После этого происходит обновление оценок всех родительских решений (тех, которые подавались в LLM как история решений, вместе с критикой). Возможно, тут у вас уже закипел котелок и вы думаете «чё происходит?». Легче всего представить структуру как дерево — каждое решение это ветка, и ветки могут отходить друг от друга. Если одно решение участвовало в генерации другого — значит, второе как ветка отрастает от первого (см. картинки ниже). И вот когда мы оценили одну финальную веточку, нужно сделать так, чтобы все ветки, на которые она опирается, учитывали её. Для этого пересчитывается значение оценки всех родителей как среднее между их текущей оценкой (из пункта 5) и максимума всех дочерних веток. 7. Цикл повторяется с пункта 3. Ищем самую перспективную ветку, генерируем оцениваем, обновляем. Шаги обновления (5-6) очень важны — по сути, они динамически задают направление поиска, позволяя отказываться от тупиковых решений, которые ну точно не правильные, и перенаправлять ресурсы к перспективным, оценённым высоко. Конечно, я не описал все детали алгоритма (для этого читайте статью и смотрите код, хоть он и написан очень так себе), но постарался дать базовую идею, как из одного решения через рефлексию вырастает несколько новых, и как LLM постепенно приближается к правильному решению. Самое удивительное — что 8B модель почти достигает результатов GPT-4 😨 🤔 а что будет, если вместо этого взять базовую модель получше, покрупнее? Ухххх, узнаем в следующем релизе!	12 063	308	Loading...
14 OpenAI назначает отставного генерала армии США Paul M. Nakasone членом совета директоров Может звучать смешно, но специализация 60-летнего генерала — кибербезопасность, и дед в этом шарит. Он был главой Кибернетического командования США и главой Центральной службы безопасности. Возглавлял Кибернетическое командование Армии США. Последнее место работы — директор NSA/АНБ (Агентство национальной безопасности, National Security Agency, или как принято говорить после утечек от Snowden'а — No Such Agency). АНБ — это которые разрабатывали Stuxnet, «самую сложную программу», компьютерный вирус, который должен был замедлить программу Ирана по обогащению урана, помните, я писал про это и рекомендовал статью прочитать? Он был в, как я понял, первой команде, которая вообще начала заниматься современной кибербезопасностью, когда стало понятно, что враг теперь не на поле, а в твоей домашней сети. Коллеги и индустриальные специалисты описывают его как эксперта и хорошего руководителя — такого, за которым люди следуют. Первым делом в OpenAI Paul присоединится к комитету, который до конца лета должен предоставить совету директоров рекомендации по критически важным решениям в области безопасности и защиты для всех проектов и операций компании. Эти рекомендации после внутренних согласований станут публичными — мы с вами обязательно с ними ознакомимся. Также кроме этого разрабатывается набор тестов, которые должны быть проведены перед запуском следующей фронтир-модели (GPT-5 или как там её назовут) — а ведь она уже тренируется. Более подробно про личность и карьеру генерала можете за обедом прочитать в блоге WIRED от 2020-го года: ссылка без пейвола. Там и про борьбу с вмешательствами в выборы, и про вирусы, и про то, как работается в АНБ. ===== Хорошая ли это новость или плохая? Ну, если вы уверены в дальнейшем развитие нейронок и думаете, что через 2-3 года концепция автономного агента станет реальность, то новость хорошая. Это бьется с тем, что в недавнем интервью говорил Leopold Aschenbrenner (ex-OpenAI): проект разработки ИИ должен выноситься на государственный уровень и учитывать прогресс других стран, особенно Китая. Нужно готовиться к атакам с попыткой выкрасть секреты и технологию. Если вы (всё ещё) думаете «гы-гы это же чатбот а чё там будет? негра негром обзовут?» — ¯\_(ツ)_/¯	16 676	340	Loading...
15 На первом видео показана склейка из трёх разных генераторов видео (открывайте на весь экран). Для всех трёх заданы одни и те же начальные кадры. У LUMA получается куда живее!	17 321	134	Loading...
16 Как думаете, с чего так угорает Sama? Это он увидел комментарий критика нейросетей (и особенно LLM) Gary Marcus! Но давайте по порядку: — CTO OpenAI Mira Murati в интервью сказала, что модели, которые есть у них внутри лаборатории, не настолько далеко впереди относительно тех, что доступны публике в открытом доступе. С большой уверенностью можно сказать, что это полу-блеф полу-принижение, которое можно читать как «ну у нас AGI или суперинтеллекта конечно же нет!» — Gary в этом ответе углядел подтверждение своей гипотезы, что обучение нейросетей НАКОНЕЦ ТО упирается в стену! Больше 5 лет он это говорит, и видите, никакого развития, уже буквально бьемся об кирпич (сарказм 😀) — И он продолжил: «Я не думаю, что люди до конца осознают важность этого момента, поэтому я поясню: OpenAI все это время блефовала, а их технический директор просто выдал тот факт, что у них нет на руках тузов. Я даю вероятность 75%, что пузырь GenAI лопнет через 12 месяцев с сегодняшнего дня» (записываем, через год делаем фейс чек 😏) «Да, я очень посмеялся над этим комментарием и над тем, что было сказано в видео.» — ответил Jimmy Apples, инсайдер OpenAI, несколько раз дававший впоследствии сбывшуюся информацию. А видео в посте — сгенерировано по одной фотографии сервисом LUMA. Вчера они запустили свою модель генерации видео (включая возможность продолжить «промпт» из нескольких кадров) с поразительным качеством. Субъективно я бы сказал, что оно в целом послабее Sora от OpenAI, но в отдельных местах прям очень круто — а главное быстро. Вы, конечно, можете попытаться попробовать что-то погенерировать, но сейчас там очередь на...МЕСЯЦ (вместо 5 минут на старте). Ребята не были готовы к такой популярности :) В посте ниже 👇 скину то, что нагенерили люди.	14 932	50	Loading...
17 Ну и результаты тезисно: — по всем бенчмаркам (больше 10 штук) вышло лучше, чем трансформер. Но зачастую разница минорная или незначимая — (первая картинка) на графике вы видите динамику метрики на MMLU (это тест, который мы разбирали выше), и странно, что модель сначала отстаёт от трансформера, но потом догоняет и перегоняет, сохраняя лидерство в 3.5% в конце — (вторая картинка) также обучают пару моделей с длинным контекстом (до 128к токенов). Интересно, что итоговая модель показывает себя лучше на бенчмарке с телефонной книгой, и, что ещё интереснее, она лучше обобщается по длине. Если трансформер учат на 32к токенов, то он где-то после 16к уже начинает просаживаться. А Mamba-2 Hybrid не то что идеально себя ведёт — так она идёт дальше, и даже при 48к токенов работает 100%-но (то есть всего выдаёт правильный номер, копируя его из книги) — однако...на реальных, а не синтетических задачах выдёргивания из контекста (вопрос-ответ по документам) метрики просаживаются относительно трансформера. Авторы это никак не объясняют, оставляя задел на будущее — модель получается в 3 раза быстрее на промптах с 8к токенов, в 5 раз быстрее с 20к токенов и в ~7 раз быстрее на 28к токенов, чем аналогичный трансформер Все модели и код для их обучения выложены. Но у меня остаётся нотка сомнения касательно результатов, если честно. В модели уж слишком много MLP-слоёв, которые, как было показано в исследованиях, отвечают за запоминание. Возможно, приросты по бенчмаркам обусловлены этим — нет замеров по задачам, которые требуют рассуждений и генерации длинного лога решения перед ответом. 8B размер это уже не игрушки, но для того, чтобы сказать, что вот-де, мол, трансформер отправляется на покой, не хватает эксперимента побольше. Надеюсь, через месяцок Nvidia натренируют какую-нибудь 70B модель и на 10T+ токенов, И ВОТ ТОГДААААА (всё равно будем относиться скептично 😀)	13 539	29	Loading...
18 4. Ну а теперь думаем, как это лечить. Очень просто — давайте будем чередовать слои мамбы со слоями трансформера. У них одинаковые интерфейсы — входы и выходы, поэтому их можно ставить друг над другом. Обычно LLM состоят из десятков слоёв трансформеров, ну вот считайте что мы просто часть заменим на другие. Но как именно менять? Авторы делают исследование на маленькой модельке и выясняют, что достаточно лишь малого количества слоёв, порядка 10%. Тут я должен сделать отступление и объяснить — а нахрена вообще что-то менять? Почему Mamba не устраивает мы поняли — не может решать какие-то задачи и невнимательна к контексту. А Трансформер то чем не угодил? Дело в двух вещах: скорость работы и объем памяти. За счёт механизма внимания трансформер работает отлично, но именно он считает связь каждого слова с каждым. Если у вас 10'000 слов в промпте, то тогда нужно считать 10'000 x 10'000 связей — и эта зависимость растёт квадратично. При увеличении длины контекста в 2 раза количество связей растёт в 4. И Mamba/SSD/SSM-like модели именно по этому и бьют. Они обещают и контекст длиннее, и генерацию длинных текстов шустрее (иногда в 40 раз, но не в этом случае), и потребление памяти меньше. Поэтому замена 10% слоёв на слои трансформера это как манна небесная — мы избавляемся от 90% проблем. Но есть и другая проблема — слои Mamba-2 не настолько оптимизированы (помните я писал в самом начале?). Так как они появились совсем недавно, ну и так как они сами по себе имеют чуть более сложную логику, то работают медленнее 😭 Крайне заметно это в обучении — за то же количество $ и времени вы обучите трансфомер на бОльшем количестве данных -> получите качество лучше. То есть сравнение нос к носу по параметрам и кол-ве токенов в тренировочной выборке не совсем честное. ...Но как хорошо, что совсем недавно было показано (статья от наших ребят, кстати), что отдельные слои трансформера можно заменить на линейные преобразования. То есть буквально можно сказать «да в них почти ничего не делается, немного подвигали да повернули вектора». И эти слои (MLP, если кому интересно, как в FFN) очень оптимизированы, так как а) просты б) очень часто встречаются. Итоговый сэндвич называется Mamba-2 Hybrid и выглядит так: — 4 слоя внимания из трансформера (7.1%) — 24 Мамба-2 слоя (42.9%) — 28 слоёв MLP (50%) И обучение выходит очень шустрое — по замерам Nvidia, оно лишь совсем немного уступает трансформерам. Считают показатель MFU, это насколько хорошо модель (архитектура) загружает видеокарточку во время обучения. Для трансформера выходит 30.7% от максимально возможной производительности карты, а для Mamba-2 Hybrid 29.8%. Всё ещё медленнее, но уже приземлённо.	11 421	44	Loading...
19 Поскольку и номера, и имена вымышлены, сгенерированы случайно, то никакой зависимости в них нет. Алгоритм, которым модели решают задачу — это копирование и вставка. Давно было показано с помощью приёмов интерпретирования механизмов внимания, что в трансформере рано в обучении что-то щёлкает, и он учится копировать текст. Если задуматься, это крайне полезный навык при работе с длинным контекстом. Представьте, что вы слышите имя «Игорь» впервые. Какое слово идёт после? Да хз. Но если вы видите текст, в котором 5 раз было написано «Игорь Котенков», то скорее всего именно в этом контексте после имени идёт фамилия. А вот в Mamba-2 такого нет. И потому и на бенчмарке с телефонной книгой, и при копировании ответа на вопрос модель путается — уж так она устроена архитектурно. Если очень упрощать, то там через весь контекст протягивается некоторое абстрактное представление «смысла», и по нему даётся ответ. Но оно ооочень неточное, так как должно хранить 100500 подсмыслов одновременно. Это как бы суммаризация всего промпта вместо конкретного его написания. Смотрите сами — вот график качества ответа на вопрос по телефонной книге, оранжевые линии для трансформера, голубая и зелёная для мамб (1 и 2). Даже всего с одной тысячей токенов в промпте они уже плывут, а трансформеры решают задачу около-идеально (по крайней мере в рамках 4000 токенов, на сколько их учили)	13 557	36	Loading...
20 Сначала смотрим на левую картинку. Есть вопрос и 4 варианта ответа. Но выбрать ответ можно по разному: — попросить сгенерировать одну букву (стандартный вариант) — сгенерировать букву и ответ — сгенерировать только ответ При этом для первых двух опций буквы A B C D и варианты ответа добавляются в промпт (то есть модель видит предполагаемые ответы, прямо как вы на экзамене, и пытается выбрать наиболее подходящий) — то есть LLM должна лишь скопировать либо букву, либо ответ. А вот в третьем варианте делается другой трюк: варианты ответа не добавляются к промпту. Вместо этого мы присоединяем ответы к тексту, а замеряем вероятность генерации именно такого ответа. Напомню, что для любой текстовой последовательности языковая модель даёт оценку вероятности того или иного слова — так работает и GPT-4, и ChatGPT, и Mamba-2. Затем мы просто считаем вероятности всех слов в ответе и перемножаем. Ответ с наибольшим произведением считается правильным. В чём интуиция? В том, что если модель очень аккуратна в своих оценках вероятности (говорят, что она «откалибрована»), то вероятность правильного ответа выше, чем неправильного. Подумайте сами, что наиболее вероятно встретить после текста «2+2=», 4 или 5? Так вот, если замерить качество таким способом, то Mamba-2 и трансформер очень сильно проседают (примерно на -7%), но...сравниваются по качеству! Это означает, что внутри них одинаковые знания — и это логично, мы же учили на одних и тех же данных, модели видели один и тот же текст! То есть проблема в том, как именно модель выбирает ответ из теста. По какой-то причине трансформер лучше! Магия..!? На самом деле магии нет — это давно известная проблема Mamba-подобных моделей, которую пытаются решить (и решения были до этой статьи). Для наглядности посмотрим на правую часть картинки — там изображена задача о телефонной книге. Модель сначала получает список пар (имя, номер телефона), а затем её спрашивают: «Какой номер телефона у {имя}?». Как думаете, какой алгоритм решения у этой задачи?	11 979	43	Loading...
21 An Empirical Study of Mamba-based Language Models Мы этого ждали, мы этого просили, и вот наконец-то пришли продавцы видеокарточек из Nvidia и показали, как работает «убийца» трансформера при масштабировании моделей: обучили SSM Mamba-2 на 8B параметров на 3.5T токенов. Это меньше, чем у LLAMA-3 (там было 15T токенов в тренировочной выборке), но больше, чем делали до этого. Моя основная претензия ко всем экспериментам с архитектурами в целом была такая: да, это может работать на маленьких модельках в маленьком масштабе, но не ясно, проявляются ли улучшенные свойства при росте размера модели. А обычно у академии нет лишних $500'000 на то, чтобы запустить обучение сети, которая может и лучше, а может и хуже. Вторая претензия — даже если модели лучше при пересчёте на данные, они скорее всего хуже в пересчёте на $ — потому что последние года 3 многие занимаются оптимизацией конкретно трансформеров, так, чтобы всё работало шустрее. (Была ещё и третья претензия — все сравнивают на разных датасетах, хотя по-хорошему надо на одном, и чтобы он ещё и шел в том же порядке для обеих моделек). Эти две вещи как бы создали замкнутый круг, из которого сложно выбраться, и пришлось подождать. В этой работе авторы показывают всё то, о чем можно мечтать, а сама статья имеет мой любимый вид детектива: делается первый подход, выявляется проблема, расследуется источник проблемы, проблема решается, и второй подход добивает. Давайте по порядку: 1. Берут архитектуру Mamba-2 из семейства state space duality (SSD). Что это такое — объяснять не буду, только опишу фразой «непонятный Франкенштейн (но с теоретическими обоснованиями)». Почитать тех. обзор можно у gonzo (пост). Тренируют 8B модель на 1.1T токенах и сравнивают с трансформером. 2. При сравнении обнаруживается, что в среднем метрики +- такие же везде, кроме одного датасета: MMLU, который служит основным бенчмарком способностей моделей на данный момент. При этом оценивается там в основном запоминание (а рассуждения — лишь в меньшей степени). Авторы жмут плечами и тренируют модели в 3 раза дольше — там по каким-то причинам качество почти сравнивается. Но наблюдается интересный артефакт — если в контексте подаётся 5 примеров, то трансформер получают +4.3%, а Mamba-2 лишь +1.45%. То есть как будто бы трансформер лучше из контекста понимает, чё к чему. 3. Начинается расследование. Сам бенчмарк устроен так:	12 605	67	Loading...
22 И отдельный пост про то, почему LLM плохо решают такую задачу. Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o. И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой. Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.	14 361	60	Loading...
23 И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей: 1) запуск соревнования на $1M на решение ARC 2) проблемы теории гостя, проблемы замера и некоторых тезисов. Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём. А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод): Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат. Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет. Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле). Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)? Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало( А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос?	13 734	82	Loading...
24 ARC Benchmark Многие бенчмарки (то есть наборы данных с размеченными ожидаемыми ответами, признанные прокси-оценками качества) для LLM справедливо можно критиковать за то, что они по сути тестируют запоминание. Самый простой пример — бенчмарки вопросов-ответов (или тестов с опциями ответа, но не все): чтобы ответить на вопрос «в каком году было то и то?» не нужно быть гением мысли или обладать выдающимся интеллектом. Достаточно просто запомнить факт. По мере усложнения задач в какой-то момент мы натыкаемся на дилемму — что является запоминанием, а что рассуждением модели? Если я придумываю новую математическую задачку для средней школы, которая решается в 4-5 действий, и модель её решает — какая здесь доля запоминания, а какая интеллекта/рассуждений? Модель могла видеть много схожих задач (больше, чем дети при обучении в школе), но не конкретно эту и даже не другую такую же с идентичным принципом решения. И после преодоления этого региона, в теории, начинаются задачи, связанные с очень банальными знаниями, но требующие именно рассуждений. Вот ARC Benchmark, по мнению его создателя Francois Chollet, такой. С ним неплохо справляются дети, на 90%+ решают взрослые, но ни одна модель или даже система ни 4 года назад, ни сегодня не показывает близких результатов. Как выглядит бенчмарк? Это сотни задачек по типу тех, что указаны на картинке, или которые вы можете покликать тут. Цель — по нескольким примерам найти паттерн, и применить его к новой ситуации. Francois считает, что паттерны и тип задачи тут очень редки, чтобы не допустить запоминания, но в то же время человек может разобраться. Chollet вот 5 лет назад статью написал про свои взгляды и то, почему именно так хочет тестировать модели, и про то, почему нахождение новых паттернов из очень маленького набора данных и умение их применять — это мера интеллекта. В среднем человек решает 85% задач (когда выходная картинка для нового примера идентично авторской), а LLM-ки единицы процентов. Лучшие системы (заточенные под схожий класс задач) добиваются ~34%.	15 084	186	Loading...
25 Ииии.. вот спустя 4 месяца прояснилось: Elon отозвал свой иск к OpenAI. Как я и писал, никакого основания не было (это стало особенно ясно после публикации переписок 2016-17-ых годов). Завтра должно было состояться заседание с судьёй, где решалось бы, продолжается дело или, как предложил ответчик, отклоняется, но Musk решил недожидаться. Sama wins..?	40 176	132	Loading...
26 😭	16 959	142	Loading...
27 По сложившейся уже традиции я не пишу о том, что рассказали эппл на презентации - этим уже завалены все новости. Однако кусок про Private Cloud Compute крайне любопытный и я очень рекомендую вам его почитать внимательно, очень неожиданное решение. Если коротко: в некоторых ситуациях нейронки на телефоне недостаточно для вычислений и прогнозов. В такой ситуации эппл 1. вычленяет необходимые для вычислений данные 2. извлекает из них ключевые свойства, которые использует нейронка 3. создает специальный зашифрованный раздел на сервере (он зашифрован так же, как отпечатки пальцев в айфоне, с использованием ключа вашего устройства) 4. отправляет туда зашифрованные абстрактные данные с телефона 5. производит вычисления 6. отправляет результаты в телефон и стирает их вместе с разделом из пункта 3. 7. в телефоне данные расшифровываются и уже используются по назначению. Таким образом получается, что ваши данные в чистом виде (т.е. например фотографии) не покидают устройство, а то что уходит на сервера мало пригодно для прямой слежки, и практически невозможно определить что вот эти вычисления на сервере относятся к вашим данным. Решение крутое и я уверен довольно скоро станет индустриальным стандартом. В остальном кроме дизайна никаких новых решений от эппл я не увидел. Но и этого достаточно [O_o]	14 977	177	Loading...
28 Вчера поздно вечером приложение ChatGPT для MacOS обновилось до версии 2.0. Казалось бы, крупное событие, обычно мажорные версии просто так не выкатывают (кроме Apple 😏). Но внешне ничего не изменилось...или всё таки нет? Твиттерские покопались в приложении и нашли скрытые флаги, отвечающие за включение новых фичей. Появилось то самое окошко, которое презентовали со сцены, которое можно повесить поверх других окон, вести с ним голосовой диалог, показывать экран и включить камеру (картинка 1). Правда по видео сложилось ощущение, что там всё ещё за голос отвечает старый пайплайн распознавания и генерации отдельными моделями, а не GPT-4o — так как задержка до ответа долгая. Обновление прилетело и на iOS (картинка 2), тоже можно делиться экраном и наговаривать поверх, и тоже пока скрыто от всех. Но видимо идёт плотная подготовка к началу раскатки фичей, и the coming weeks потихоньку наступают. Один вопрос, который у меня возник и когда я смотрел демку на презентации, и когда посмотрел вот текущее демо — а как собеседования в IT будут это переживать? В смысле, уже пора начать менять процесс собеседований (если вы ещё не — то, можно сказать, опаздываете).	16 372	79	Loading...

Photo unavailableShow in Telegram

🙀 продавцы видеокарточек стали самой дорогой компанией в мире

Mostrar todo...

🔥 241🤯 79🎉 32🤣 17🤡 13💩 8 7 5👎 4👍 2💔 1

Repost from Метаверсище и ИИще

01:04

Video unavailableShow in Telegram

Тут ТикТок запустил фабрику ботов. Точнее аватаров. Читаем, потом смотрим. Стоковые аватары: готовые аватары, созданные с использованием платных актеров, которые лицензированы для коммерческого использования. Свои аватары: с возможностью работы на нескольких языках, дают контроль и возможность масштабировать свою персону и бренд. Креаторы могут использовать свое собственное лицо и создавать мультиязычные аватары для расширения своего глобального охвата и сотрудничества с брендами. Теперь смотрим. Это снятое видео. Руки и туловище кожаные, снятые. Это видно. А дальше с лицом производятся манипуляции. Причем это даже больше похоже не на дипфейк, а на оживление фотачек лица, о котором я тут пишу как ужаленный. Видно, что губы оживляются библиотекой wav2lib (скорее всего), и выглядят блекло. В общем это старый подход с цифровыми инфлюенсерами - взять реальное фото-видео и пришпандорить на лицо какое-нибудь безобразие. Ну честно сказать, качество не впечатляет. Впечатляет, что это ТикТок, ибо у него до фига разработок в области оживляжа лица, и если он вышел на эту поляну, то прогресс будет. https://newsroom.tiktok.com/en-us/announcing-symphony-avatars

Mostrar todo...

tik.MP412.18 MB

👍 44💩 23🤯 5🔥 4🤔 3🤡 1👨‍💻 1

Photo unavailableShow in Telegram

— Нет вы не понимаете они НЕ МОГУТ решать — Чел, ты промпты писать не умеешь и не делаешь генерацию тысяч вариантов, успойося или я в дурку позвоню 🏥 😆

Mostrar todo...

🤣 179 26🌚 20🤡 18❤‍🔥 2😈 2🔥 1👨‍💻 1

Помните вот эту ситуацию? Когда человек утверждал, что LLM не могут решить какую-то задачу, утвердил приз $10'000, и через два дня расстался с деньгами? Я ещё в комментариях шутил, что если хотите на серьёзных щах что-то утверждать про ограничения систем — надо готовиться выкладывать деньги, ибо иначе людям, которые реально могут доказать, что вы не правы, просто не интересно. А помните я на прошлой неделе писал про бенчмарк ARC от Francois Chollet? Якобы что это визуальная загадка, где нужно уметь на лету идентифицировать новые паттерны, и что текущие LLM в этом вообще не разбираются, и выдают <10% качества? Как написали в одном из чатов (автор @senior_augur): — Я думаю ARC никто долго не побивал, потому что он никому нахер не нужен был На интервью Francois говорил, мол, вот LLM не умеют рассуждать и обобщаться, бенчмарку 4 года, а воз и ныне там стоит. И утвердил конкурс (ну и получил освещение в подкасте) на $1M (правда там пока только $500k доступно, и то со звёздочками, что фронтир-модели, лучшие из лучших, под критерии не попадают). Прошло 6 дней. Воздуха набрали? Готовы? 😏 Знакомый подкастера из Redwood Research написал пост, где показывает, насколько высоки метрики GPT-4. На тренировочной выборке (публично доступной) качество 71% на 100 отложенных автором задачах, в которые он не подглядывал. Качество человека в среднем 85%. Кажется, что разрыв большой, но напомню, что основной тезис разработчика бенчмарка был «ну так LLM и 10% не решают!». На приватной выборке качество 51%, но не удивляйтесь — она сама по себе сложнее (и для неё неизвестен показатель человека, в смысле его просто не померили). До этого лучший метод давал 34% и не опирался на LLM. Осталось дождаться, что Francois со своими друзьями возьмут метод и запустят на самом ультра-приватном датасете, который ещё никто не видел (специально для соревнований сделали), увидели там 50%+- и сидели вот так: 😅 , переосмысливали своё представления об «ограничениях дип лернинга». Но вам наверное интересно, как работает решение? Примерно так: — GPT-4o на каждую задачу генерирует примерно 5000 программ на питоне, которые потенциально могут быть решением — программы фильтруются по их способности повторить 3 примера, которые всегда даются (по условиям задачи, именно по ним нужно установить зависимость и дать ответ) — топ-программы, дающие максимально похожий результат (если нет правильных) отдаются на правку GPT-4o, типа «вот как нужно, вот как ты сделала, исправляй эту хрень». Тут генерируется ещё 3000 программ (итого 8000) — выбирается финальный кандидат для решения. Для того, чтобы это работало хорошо, нужно немного поиграться с входными представлениями (так как, как я и говорил, модель не очень хорошо «видит» картинку, совсем не так, как мы), используя ASCII и написать несколько примеров рассуждений. Обычно в промпт входит примерно 30'000 токенов — если добавлять больше, то модель начинает работать хуже после 32'000 по естественным причинам (это давно замечено). Автор описал несколько итераций улучшений промпта, но самое главное, как я понял — это подать несколько представлений на вход для одной и той же задачи, просто потому, что GPT не видит так же, как это делает человек. «GPT-4o’s vision is terrible on grids» (потому что все задачи на клеточках). Ей нужно хорошо приготовить текст, разделить всё символами (типа 0 | 3 | 1 | 2, цифры обозначают разные цвета). И второе — GPT-4o плохо кодит и часто ошибается на +-1 по клеточкам. Обе проблемы решаются с развитием моделей, так что ждём к концу года новых прорывов (хотя кому теперь интересно будет садиться за задачу?).

Mostrar todo...

🤣 58👍 46 21🔥 20 20💩 12 7

Repost from Denis Sexy IT 🤖

01:52

Video unavailableShow in Telegram

Сделано с новой моделью Runway Gen 3

Mostrar todo...

IMG_1932.MP480.68 MB

🤯 96🔥 41👍 14❤‍🔥 8🤡 5

00:11
Video unavailableShow in Telegram
00:11
Video unavailableShow in Telegram
00:11
Video unavailableShow in Telegram
00:11
Video unavailableShow in Telegram
00:11
Video unavailableShow in Telegram

Те из вас, кто читал лонг про Sora, наверняка (не)помнят про то, что компания Runaway ещё год назад пробовала обучать модели по генерации видео, а в декабре (ещё до OpenAI) заявили, что их следующие модели будут World Models («...системы, которые понимают визуальный мир и его динамику. Они создают внутреннее представление окружающей среды и используют его для моделирования будущих событий в этой среде»). И вот вышел анонс модели Gen-3 Alpha с примерами генерации. Некоторые я приложил к этому посту (простите за вес!), но рекомендую перейти по ссылке и посмотреть все демки. В отдельных аспектах генерации превосходят OpenAI'шную модельку — особенно, как мне показалось, на генерации людей. Утверждается, что это решение будет для Артистов (не артИстов) и с прицелом на прикладное использование в индустрии. И якобы управляемость генерациями очень хорошая — правда все промпты на странице очень короткие, не чета Dalle 3 или Sora'шным. То есть как будто бы нельзя в мельчайших деталях описать, что происходит. Ну и ещё все ролики короткие — до 10 секунд. Зато будет предлагаться персонализация под бизнес-заказчиков. Например, это может быть полезно при генерации одного и того же персонажа в разных ситуациях, чтоб результат выходил более консистентным, а детали сохранялись.

Mostrar todo...

Gen 3 Alpha Output (1).mp410.87 MB

Gen 3 Alpha Output (2).mp41.65 MB

Gen 3 Alpha Output (3).mp42.69 MB

Gen 3 Alpha Output v1.mp48.06 MB

Gen 3 Alpha Output.mp49.63 MB

🔥 70🤯 17👍 12❤‍🔥 7 3🤡 2👎 1 1

И в заключение перевод последнего блока официального поста с анонсом статьи: === Будущее: полностью автоматизированный исследователь искусственного интеллекта, который постоянно совершенствуется Существует много интересных путей дальнейшего продвижения предложенного процесса автоматизации исследований <...> Наконец, мы считаем, что необходимы более эффективные методы отбора потенциальных решений <...> Наша работа подчеркивает огромный потенциал использования современного искусственного интеллекта для создания процесса самоулучшения. В будущем мы предполагаем, что этот подход можно будет использовать в открытой форме. То есть LLM неоднократно предлагает изменить части себя (любую часть обучения или работы системы) или части различных агентов, которые в конечном итоге дают обратную связь самим себе (например, посредством дебатов между собой). В этом проекте мы изучили возможности предложения кода различных LLM, включая GPT-4, Gemini-1.5 и Llama-3. Хотя все модели в целом были способны генерировать подходящие целевые функции, в конце концов мы решили использовать пограничную модель GPT-4, чтобы оценить, что в настоящее время осуществимо. Мы ожидаем, что возможности, обнаруженные в этой работе, будут возможны с большинством других передовых моделей, включая модели с открытым исходным кодом <...>В будущем мы хотели бы использовать предлагаемый процесс исследования для разработки самоусовершенствующихся ИИ-агентов в замкнутом цикле и с использованием открытых моделей. === Напомню, что a) OpenAI хотят делать то же самое (и скорее всего активно делают) б) Чем лучше базовая модель, тем лучше генерируемые гипотезы и варианты в) Лучшие базовые модели последние 3-4 года у OpenAI г) В этом году мы ждём GPT-4.5/GPT-5/GPT-Next, как там её назовут, и можно ожидать, что методы, подобные описываемым, будут работать ещё лучше

Mostrar todo...

👍 75 14❤‍🔥 9 7 6🤔 5🔥 3🌚 3

Photo unavailableShow in Telegram

Таким образом у нас есть: — исходная модель, которую хотим дообучить — набор пар ответов «хороший-плохой», на которых будем дообучать — функция потерь, задающая направление дообучения — код, который запускает тренировку, беря на вход все три пункта выше (модель+данные+функция потерь) и выдаёт новообученную модель — автоматизированный бенчмарк, который принимает на вход модель и возвращает оценку, якобы отражающую мнение человека Все части для запуска алгоритма оптимаизации есть. Итеративно повторяем следующее: — просим LLM (в данном случае GPT-4) написать функцию потерь, описав задачу, что мы хотим — берем функцию, запускаем обучение, ЖДЁМ, пока обучится модель — оцениваем её на бенчмарке, получаем оценку. Пусть это будет условные 6.8 из 10 — дальше берем функцию, берем оценку, подаём в GPT-4 и просим улучшить код, чтобы оценка стала выше — получаем новую функцию... — обучаем... — оцениваем (пусть получилось 7.1 из 10)... — просим GPT-4 улучшить... (изображено на картинке слева, а по центру примерная структура промпта). и это работает. Модель понимает, как примерно нужно поменять код так, чтобы улучшить оценку. Более того авторы замечают, что, во-первых, модель пишет осмысленные названия функций, которые отражают используемые приёмы, а, во-вторых, трезво размышляет о способах улучшений, переиспользуя концепты из разных областей. Запустив цикл, авторы сгенерировали более 100 функций и выбрали перспективные. После проверили, что и на других бенчмарках, и на других данных, и в других ситуациях это работает также хорошо — зачастую лучше, чем существующие подходы. На правой части картинки вы можете посмотреть некоторую другую автоматизированную оценку. Заштрихованные полоски — существующие алгоритмы, а обычные — это новые, найденные GPT-4. Как вы понимаете, подход работает в общем виде — авторы пробовали его на моделях для классификации картинок, там тоже всё ОК (найденная функция работает для разных архитектур, и для других наборов данных). В общем, вот такие первые шажки в само-улучшающемся AI. Никакого прям супер-прорыва не произошло, то есть это не то что «вау ИИ самоулучшается мы скоро все умрём», но и улучшение на несколько процентов тут, там и здесь — всегда приятно.

Mostrar todo...

👍 96🌚 9🔥 6👨‍💻 5 1

Discovering Preference Optimization Algorithms with and for Large Language Models Помните у меня был лонг про FunSearch, алгоритм от DeepMind? Если пропустили — обязательно рекомендую к прочтению (особенно в контексте вчерашних постов про поиск). Вкратце: LLM общего назначения нашла решение оптимизационной задачи, над которой бились математики, лучше, чем найденное человеком. Алгоритм в некотором роде универсальный и может быть применён к любой задаче, решение которой можно каким-то образом числено оценить и сказать, что вот это лучше, а это хуже. Звучит сложно, поэт ому ещё раз отсылаю к лонгу. Так вот, ребята из Японии из стартапа Sakana предложили схожую идею, но для оптимизации самого процесса дообучения LLM. Как вы наверянка знаете, есть 3 этапа тренировки моделей вроде ChatGPT: — предтренировка на терабайтах текста (~98% всех ресурсов тут) — обучение следованию инструкциям — обучения на человеческих предпочтениях (чтобы модель отвечала так, как мы хотим, и была наиболее полезной, а также знала границы своих навыков) Последние 2 этапа иногда схлопывают в один, но не суть. При обучении на предпочтениях модель обычно оперирует парами сравнений: дан один промпт (запрос в LLM) и два ответа, и известно, какой ответ человек считает лучшим (или что они равны). OpenAI для обучения на таких данных используют метод PPO, который сами изобрели в 2017м. Но он требует очень качественных данных и тонкой настройки, и работает мало у кого вне OpenAI (может они и сами с него съехали, хз). В последний год появилось много аналогов, которые запустить куда проще — два самых популярных это DPO и KTO. Можете прочитать обзор у Ильи вот тут. По сути, все эти методы отличаются одной вещью: функцией потерь, используемой во время дообучения, а сами аргументы функции одни и те же (вероятности, выдаваемые моделями - текущей и исходной. Итого 4 штуки на каждый токен — потому что у нас 2 варианта, «хороший» ответ и тот, что похуже). То есть вся разница в том, какой обучающий сигнал мы подаём модели при прочих равных. То есть функция для оптимизации через генерацию разных вариантов у нас есть, осталось понять, как оценивать — и можно запускать аналог FunSearch. Важно, чтобы оценка была автоматической и быстрой — ведь потенциально нужно генерировать сотни функций. Для этого можно использовать саму LLM: у нас уже есть несколько разных автоматизированных бенчмарков, состоящих из 80 (MTBench) или 500 (ArenaHard) промптов и референсных ответов GPT-4. Если хотим понять, насколько хороша новая модель, то генерируем ответы на эти запросы, подаём в GPT-4 вместе с референсами и просим оценить по шкале с разными критериями. Немного шумно, но внезапно неплохо коррелирует с оценками живых людей.

Mostrar todo...

👍 41❤‍🔥 9 7 6🔥 5

Photo unavailableShow in Telegram

Обновление по бенчмарку оценки моделей в разрезе понимания видео и ответа на вопросы по ним (Video-MME). Я писал, что Gemini сильно обгоняет GPT-4 потому, что в последнюю подавали всего 10 кадров из всего видео — конечно же многое будет пропущено. Авторы исправились, и сделали замер GPT-4o с 384 кадрами на видео. Всё ещё не как у Gemini-1.5-Pro, но тут роль уже играет естественное ограничение на длину контекста: больше просто не получается. Метрики скакнули с 66.2% до 71.9% — при 75% у конкурента от Google. Хотел сначала написать, что «ну если бы впихнули всё, то были бы и вовсе лучше!», но скорее всего нет: на коротких видео (до 4 минут), где теперь модели на равных (видят по 1-2 кадра в секунду), решение OpenAI отстаёт на 1.7%. Интересно, что на длинных видео разница увеличивается совсем немного — пока не понимаю почему.

Mostrar todo...

👍 53 33 18👨‍💻 4🔥 1