Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Russia11 919Russian12 195Technologies & Applications1 824

Advertising posts

44 000

Subscribers

-924 hours

+1107 days

+84630 days

18 593

Post views

~ 10 60324 hours

~ 11 84648 hours

42.25%

Engagement rate

24.1%24 hours

26.9%48 hours

607

Mentions

167 days

8930 days

~ 3

Posts per day

~ 204

Reactions

~ 77

Comments

~ 158

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

Photo unavailableShow in Telegram

А вот как этот метод работает для модели Mistral-7b-Instruct-v0.2. Изначально тоже был провал, хоть документов тут сильно больше — 120 вместо 20 (и 24 тысячи токенов вместо 4), но после применения метода дообучения на синтетике крепкие 88%+ выдаёт.

Show all...

🔥 51👍 12❤‍🔥 7

Photo unavailableShow in Telegram

Вот картинка с результатами. Тут синяя линия — это тот же самый каньон с углублением в середине, что мы видели выше. Красная линия — это если доучить GPT-3.5-Turbo (OpenAI дают такую возможность) на примерах. качество выравнивается по всей длине, но до 100% ещё далеко. Зеленая и оранжевая линии — это качество на той же задаче с абзацами из Википедии, но при дообучении на синтетике со словарями (2 разных линии = 2 промпта, с шаблоном желаемого ответа и без). Несмотря на то, что с конкретными знаниями это никак не связано, качество in context retrieval вырастает огого! И в серединке ничего не провисает.

Show all...

🔥 35👍 15👨‍💻 5

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data И вот спустя год вышло продолжение, где предлагается способ если не решить проблему полностью, то хоть точно улучшить качество. Авторы задаются вопросом: на какой задаче дообучать модели, чтобы добиться результата? Хочется универсальный метод, который 1) улучшает качество не только в этой, но и других схожих задачах 2) не ухудшает качество в других задачах 3) не приводит к галлюцинациям модели. Все три пункта очень важны. Давно было показано, что галлюцинации лишь закрепляются, когда мы учим модель на том, что она не знает (вот частичка моей лекции с объяснением). То есть даже просто взять те же вопросы, по которым мы измеряем качество, и доучить на них — не факт, что это не приведёт к непредсказуемым ухудшениям. Авторы находят ответ в... синтетических данных. Они генерируют множество разных промптов, схожих со словарём из предыдущего сообщения. Есть ключи, есть значения, и модель должна по первому предоставлять в ответ второе. Только выглядит чуть более читабельно:


Dictionary [1] {122: 765, 4548: 1475, 4818: 4782}
Dictionary [2] {526: 290, 9205: 9318, 9278: 1565}
...
Dictionary [32] {2931: 8364, 196: 1464, 812: 5363}

И на запрос «дай-ка мне значения для ключа 526» модель должна выдать «словарь с номером два, ответ 290». Таких примеров можно нагенерировать кучу, они гарантированно не ведут к галлюцинациям, и по замерам авторов лишь незначительно просаживают метрики на других общепринятых датасетах. Из интересного, пробуется несколько разных промптов, но они не так сильно отличаются. А вот важная техническая часть в том, что расчёт функции потерь во время тренировки происходит только на словах из ответа, а не промпта — мы ведь не хотим запоминать эти словари? Метод опробовали и на GPT-3.5-Turbo, и на Mistral-7B, работает и там и там хорошо, и даже переносится на другие датасеты, требующие внимания к информации из промпта. Результаты я скину в следующем сообщении, а тут будет вывод. Интересно, как синтетика позволяет помочь модели выработать некоторые навыки. Не думаю, что конкретно этот пример супер важен — у моделей класса Claude-2 и GPT-4 нахождение информации в промпте по этим бенчмаркам и без дообучения около-идеальное (а может это как раз потому, что компании и сами такое придумали и интегрировали). Но возникает вопрос — а для каких ещё классов задач и свойств моделей мы можем дать пинка во время дообучения?

Show all...

👍 36❤‍🔥 11🔥 7👨‍💻 1

Photo unavailableShow in Telegram

Lost in the Middle: How Language Models Use Long Contexts Примерно год назад вышла статья, где рассматривалась задача нахождения информации в промпте. Представьте, что вы хотите найти ответ на вопрос, зашли в гугл, набрали текст, нажали кнопку — и все результаты сконвертировали в текст и подали в LLM, после чего задали вопрос уже ей (чтобы самому не читать поисковую выдачу и сэкономить время). Кажется, задачка лёгкая, ведь вся информация уже есть в контексте, нужно лишь её найти. Но обнаружилась неприятная особенность: качество ОЧЕНЬ сильно скачет при изменении позиции правильного ответа. Чтобы замерить эффект, авторы работы брали по 20 кусков страниц с Википедии, лишь один из которых содержал точный ответ на вопрос (а остальные были достаточно похожи, но не содержали ответ). Всего получалось ~4k токенов — порядка 8 страниц текста. А теперь давайте абзац с ответом будем перемещать — сначала поставим в начало, потом подвинем подальше, и перепробуем все позиции. Так вот если ответ был в первом абзаце, то доля правильных ответов была 76%, а если в середине, то падала ниже 55% — а ведь это уровень ответов модели на те же вопросы БЕЗ промпта (то есть «по памяти», Википедию-то она читала). Отсюда и название статьи — «потерянные в серединке». Общую тенденцию вы можете видеть на картинке снизу — наивысшее качество в начале, хорошее в конце, а между ними пропасть. Дополнительно в статье ещё подумали: «а что если просто информация путает модель?», и потому опробовали синтетическую задачу. Исследователи генерировали длинный JSON-словарь такого рода:


{"2a8d601d-1d69-4e64-9f90-8ad825a74195": "bb3ba2a5-7de8-434b-a86e-a88bb9fa7289",

"a54e2eed-e625-4570-9f74-3624e77d6684": "d1ff29be-4e2a-4208-a182-0cea716be3d4",
...

Тут в словаре есть значения слева от двоеточия, ключи, и значения справа, значения. Соответствие однозначное, и все строки были сгенерированы случайным образом. Вы просите модель выдать вам значение по ключу (то есть пишете a54e2eed-e625-4570-9f74-3624e77d6684, а она в ответ bb3ba2a5-7de8-434b-a86e-a88bb9fa7289). Даже в такой задаче при подаче более 8 тысяч токенов модель начинала зевать и ошибаться. Но почему мы об этом вообще беспокоимся? Всё дело в том, что в большом количестве задач модели хочется дать подсказку в виде полезного контекста, который зачастую либо содержит ответ, либо инструкции, либо наталкивает на правильные мысли. Если модель пропускает их — то это сказывается на её качестве во всех задачах, требующих работы с контекстом.

Show all...

👍 47❤‍🔥 11🌚 4🤯 3🔥 2👨‍💻 1

Photo unavailableShow in Telegram

На самом деле, цифры 100% и 76% немного нечестные. Дело в том, что в гугле решили применить классический приём для LLM-агентов. Они запускали параллельно не 1, а сразу 20 штук. И если хотя бы один из них приходил к успеху — то считалось, что задача решена, хотя обычно так быть не должно (ведь нужно убедиться, как минимум, что система может из этих 20 решений выбирать правильное: человек не может отсмотреть всё, это не то же самое). Более того, во второй задаче нашлась ненамеренная ошибка в коде, которая сильно упрощала задачу. Если её исправить, то качество падает. Поэтому честные цифры (с исправленной ошибкой и возможностью выдать только один ответ, первый, что был сгенерирован) такие: 71% и 36%. Если вдруг вы подумали, что вдруг модели могли запомнить задачи, то это скорее всего не так — весь бенчмарк был синтетически сгенерирован и выложен поздней весной, то есть его точно нет в старых моделях GPT-4-Turbo и Gemini от Google. Да, похожие паттерны проблем (и тем более учебники по информационной безопасности) точно есть в тренировочной выборке, но мы же этого и хотим? Заставить модель научиться самой и решать новые задачи. Так что имеем что имеем. Точно нужны новые бенчмарки, особенно с учётом того, что GPT-5 уже тренируется и её выход не за горами. Означает ли это, что всех сотрудников проекта Google Zero можно уволить? Конечно, нет — тут давались самые простые задачи длиной до 200 строк кода, содержащиеся в одном файле. Обычные проекты на порядки сложнее, и как раз таки понять, куда смотреть — это важная часть работы. Однако авторы статьи (блогпоста?) иронично прозвали этот проект Naptime — время сна. «Этот проект получил такое название из-за того, что он может позволить нам регулярно дремать на работе. Пожалуйста, не говорите нашим менеджерам» — шутят они. А на картинке вы можете видеть архитектуру системы LLM-агента со всеми инструментами. Reporter, который я не упоминал — это просто способ выдать ответ, когда система считает, что закончила работу.

Show all...

👍 77🤯 16🤡 8❤‍🔥 4😈 3 3 2🔥 1

Project Naptime: Evaluating Offensive Security Capabilities of Large Language Models С 2014-го года в Google существует проект Google Zero, в рамках которого экспертами проводится аудит уязвимостей в программах. Существует большое количество инструментов, которые облегчают процесс, но не делают его полностью автоматизируемым. Так как многие переживают, что LLM могут потенциально начать автономно искать уязвимости и их эксплуатировать, то хочется понимать, когда примерно это может произойти. Иными словами нужен бенчмарк для отслеживания прогресса. С выходом LLAMA 3 сотрудники META опубликовали бенчмарк CyberSecEval 2, в котором нас интересуют две задачи: 1) обнаружение и эксплойт переполнения буффера («buffer overflow») 2) переписывание программы, чтобы вызвать сбой из-за проблем с памятью («advanced memory corruption»). Померяли результаты GPT-шек, своих LLAMA, сказали «да модели работают оч хреново, бояться нечего» и хлопнули дверью. Вот тут в игру и вступают сотрудники проекта Zero. Они поняли, что то, как в META померили способности моделей — это курам насмех. Они прям так и пишут: «Мы обнаружили, что усовершенствовав методологию тестирования с использованием актуальных возможностей LLM, можно достичь значительно более высоких показателей <...> в противном случае результаты не смогут отразить истинный уровень возможностей моделей». Конечно, легко Лекуну говорить, что модели не опасны, когда а) у тебя нет передовых моделей (🤣) б) ты не хочешь вкладываться в нормальный пайплайн оценки моделей (😂). А потом разводить руками и говорить «нам не нужны регуляции, вот смотрите, есть же бенчмарк!». Чтоб вы понимали уровень качества проверки — моделям даже не давали рассуждать перед написанием ответа (не было Chain-of-Thought). Что сделали ребята из Google: они поняли, что нужен LLM-агент, который умеет итеративно работать с проблемой и использовать инструменты. Собрали систему, которая позволяет запускать отладку кода, искать конкретное место в коде (если файл очень большой и модель теряется в контексте), вызывать Python для запуска разного. LLM получает задачу в очень общем виде (без явного указания, что конкретно нужно сделать), и пытается итеративно прийти к цели. Перед каждым действием LLM получает историю своих прошлых действий, пишет рассуждения, и затем выбирает, чем заняться. В статье говорилось, что GPT-4 решила 5% примеров из первой задачи и 16% для второй. Гугловцы же дожали эти цифры до 100% и 76%. Ну то есть по сути всё, можно закрывать бенчмарк и сразу делать задачи гораздо сложнее. Он был мертворождён — потому что модели решали его сразу на релизе (просто авторы не смогли померить). Понятно, что не получится для каждого бенчмарка перед релизом строить ультрамегасложную систему, но тут прям совсем глупо получилось — даже минимальной домашней работы не было проделано.

Show all...

👍 88🤡 33🤣 13🌚 9💩 3 2 2🔥 1

Photo unavailableShow in Telegram

Что-то прям норм новостей нет, либо что-то длинное писать на несколько постов, либо совсем короткие заметки Ну давайте хоть что-то обсудим. Помните LMSYS Arena? Если нет, то читать тут. Так вот, они пару недель назад добавили отдельный трек для моделей, способных принимать изображения на вход, и дали людям возможность оценивать их ответы. Можно загрузить свою картинку, можно выбрать случайную из некоторого заранее заготовленного множества. Вопросы могут быть разные — от общих «опиши что изображено» до требующих размышлений «сколько человек живёт в лагере если сегодня среда» (помните такие головоломки в детстве были?). Всего за 2 недели собрали больше 17'000 голосов, но тут прям очень много не надо — моделей куда меньше, чем LLMок, и потому на каждую идёт достаточное количество запросов. На прикрепленной картинке вы можете видеть топ. GPT-4o первая, потом свежая флагманская модель Anthropic, и на почётном третьем месте Gemini от Google делит своё место с предпоследней моделью OpenAI — причём с уже существенным отставанием. А после них — пропасть, и одна из лучших опенсурсных моделей LLAVA-v1.6 делит последнее место с Claude 3 Haiku, самой маленькой и дешевой моделькой от компании. Но что означают эти рейтинги? Процент побед между моделью A и B. Например, — GPT-4o выигрывает у Gemini 1.5 Pro на 64% запросов — Дешёвая Gemini 1.5 Flash выигрывает у LLAVA-v1.6 69% Разница в обоих случаях ощутима. Поиграться как всегда можно тут.

Show all...

👍 60❤‍🔥 11🔥 8🤡 4💩 3🌚 2

Repost from Борис опять

# Гайд для сотрудников: опционы в стартапах https://vas3k.club/post/24737/ Вышло! Русскоязычная версия ультимативного гайда о том, что сотрудникам стартапов нужно знать по опционы, как можно всё потерять и каковы шансы заработать. По сравнению с англоязычной версией текст сокращен, упрощен и снабжен мемами. Текст потребовал от меня много усилий, так что буду рад, если вы поделитесь им с друзьями ❤️

Show all...

Гайд для сотрудников: опционы в стартапах — Вастрик.Клуб

Стартапы часто предлагают опционы как часть компенсации. Как работает эта лотерея? Я решил разобраться и поделиться с вами. Цель этого руководства: н…

❤‍🔥 77🔥 36👍 21💩 8🤔 2

Photo unavailableShow in Telegram

Как говорил Пётр I, «радуйся малому, тогда и большое придёт». Так как Claude 3.5 Sonnet не смогла обогнать GPT-4o по Elo-рейтингу на оценках живых людей на LMSYS Arena, то резона торопиться у OpenAI с релизом новой модели нет: а зачем, если ты итак топ? Но зато наконец-то раскатили приложение ChatGPT для Mac на всех пользователей (качать тут, нужен процессор M-серии). А вместе с этим добавили...барабанная дробь...поиск по чатам! Наконец-то можно шустро найти диалог полугодовой давности по паре ключевых слов — этого очень не хватало. Даже странно, что СТОЛЬКО времени заняло добавление столь нужной фичи. Зачем вам может понадобиться приложение? Несколько главных приколюх: — клавиша быстрого доступа, чтобы сразу начать вбивать текст, без перехода на сайт — возможность сделать скриншот окна или фото с камеры в один клик ~~— можно выделить текст документа, нажать горячую клавишу, и задать по этому контексту вопрос~~ GPT-4.5 видимо до Claude 3.5 Opus не увидим 😢

Show all...

👍 114 38💩 9👨‍💻 9🤡 8 5 4🎉 3

Repost from addmeto

Photo unavailableShow in Telegram

Исследование Google DeepMind, проведенное в период с января 2023 года по март 2024 года и включающее 200 случаев неправомерного использования ИИ, показало, что наиболее распространенной формой неправомерного использования ИИ являются политические подделки. Вы удивлены? Я нет. Я удивлен тем, что DeepMind который раньше был строго исследовательской лабораторией теперь занимается и такими исследованиями :) https://t.co/GRtjAcdNLF

Show all...

🌚 91🤔 24 11 9👍 7💩 3🤡 2👎 1🤯 1👨‍💻 1

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.