Kali Novskaya
Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
Show moreData loading in progress...
Find out who reads your channel
This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.Posts | Views | Shares | Views dynamics |
01 В это воскресенье в рубрике #female_vocals хочу просто поделиться с вами кавером, который очень люблю.
Считаю, что это песня на самом деле про собеседования и офферы в 2024 году
https://youtu.be/qS0YJZXmX2s?si=TPsLaSbEwNty7wFe | 2 498 | 6 | Loading... |
02 Субботний мемотред!
По случаю моего возвращения в постинг #шитпост
До понедельника тут серьёзного контента не будет! | 3 744 | 35 | Loading... |
03 🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них.
🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д.
🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось.
🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть.
🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena
🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось!
С какими проблемами при оценке моделей вы сталкивались?
🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик. | 9 857 | 105 | Loading... |
04 🌸AI SuperAlignment — все? 🌸
#ai_alignment
Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта.
Команда SuperAlignment OpenAI развалилась. Из новостей, уходят:
— Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана)
— Ян Лейке (лид команды SuperAlignment, ex-DeepMind)
🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен)
🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати?
— Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д.
— В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана.
🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось). | 7 160 | 70 | Loading... |
05 🌸Field Matters Workshop🌸
#nlp_papers
Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей.
Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters.
Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи.
В этом году мы проходим на ACL 2024, в Таиланде.
Дедлайн — 17 мая!
Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL.
🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters
🟣Сайт воркшопа: https://field-matters.github.io/
🟣Все темы воркшопа:
— Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork;
— Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems;
— Modeling morphology and syntax of typologically diverse languages in the low-resource setting;
— Speech processing for under-resourced languages;
— Machine-readable field linguistic datasets and computational analysis of field linguistics datasets;
— Using technology to preserve culture via language;
Improving ways of interaction with Indigenous communities;
— Special track: Indigenous languages of Thaïland and South-East Asia. | 5 605 | 13 | Loading... |
06 🌸Anthropic: пишем промпты за вас🌸
#nlp #про_nlp #ai_alignment
На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу.
🟣Особенности фичи:
— редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought.
— автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>, <exceptions>, <guidelines> и так далее.
— редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела.
🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно.
🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5]. | 5 870 | 109 | Loading... |
07 Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю.
Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех! | 5 060 | 9 | Loading... |
Хит Верки Сердючки и ВИА Гра "Я не поняла", лайв с репетиции. [email protected]
https://vk.com/gdecodahttp://instagram.com/gdecoda
Recover the prompt used to transform a given text
#nlp #про_nlp #ai_alignment 🌸Что такое SuperAlignment? Введение🌸 Вчера в блоге OpenAI появилась новая запись под авторством Ilya Sutskever и Jan Leike (Chief Scientist и Alignment team lead в OpenAI). 🟣Впервые вводится понятие superalignment — по сути alignment для AGI/superintelligence (к определениям просят не придираться). Чем это отличается от уже вошедшего в обиход на словах, но мало вошедшего на практике обычного alignment? Текущие практики упираются в проблему: все методы обучения ИИ "плохому и хорошему" основаны на существующих примерах, сформированных и подобранных людьми с целью воспроизведения суждений. Но как учить сущность, более умную, чем люди? Превосходящую интеллектуально хотя бы по некоторым параметрам. Тезисы OpenAI: 🌸 задачу alignment хоть как-то хочется решить в течение 4 лет — это никак не "50 лет до наступления AGI" 🌸 решение должно быть автоматическим (отдельная модель), масштабируемым и подвергаемым полноценному стресс-тестированию, например, в симуляционных средах. 🌸 среди приоритетов…
<prompt>
, <exceptions>
, <guidelines>
и так далее.
— редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела.
🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно.
🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].