cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

Kali Novskaya

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Show more
Advertising posts
11 281
Subscribers
+424 hours
+277 days
+23830 days
Posting time distributions

Data loading in progress...

Find out who reads your channel

This graph will show you who besides your subscribers reads your channel and learn about other sources of traffic.
Views Sources
Publication analysis
PostsViews
Shares
Views dynamics
01
В это воскресенье в рубрике #female_vocals хочу просто поделиться с вами кавером, который очень люблю. Считаю, что это песня на самом деле про собеседования и офферы в 2024 году https://youtu.be/qS0YJZXmX2s?si=TPsLaSbEwNty7wFe
2 4986Loading...
02
Субботний мемотред! По случаю моего возвращения в постинг #шитпост До понедельника тут серьёзного контента не будет!
3 74435Loading...
03
🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸 #nlp #про_nlp #nlp_papers #ai_alignment Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них. 🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д. 🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось. 🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть. 🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena 🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось! С какими проблемами при оценке моделей вы сталкивались? 🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик.
9 857105Loading...
04
🌸AI SuperAlignment — все? 🌸 #ai_alignment Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта. Команда SuperAlignment OpenAI развалилась. Из новостей, уходят: — Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана) — Ян Лейке (лид команды SuperAlignment, ex-DeepMind) 🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен) 🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати? — Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д. — В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана. 🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось).
7 16070Loading...
05
🌸Field Matters Workshop🌸 #nlp_papers Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей. Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters. Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи. В этом году мы проходим на ACL 2024, в Таиланде. Дедлайн — 17 мая! Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL. 🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters 🟣Сайт воркшопа: https://field-matters.github.io/ 🟣Все темы воркшопа: — Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork; — Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems; — Modeling morphology and syntax of typologically diverse languages in the low-resource setting; — Speech processing for under-resourced languages; — Machine-readable field linguistic datasets and computational analysis of field linguistics datasets; — Using technology to preserve culture via language; Improving ways of interaction with Indigenous communities; — Special track: Indigenous languages of Thaïland and South-East Asia.
5 60513Loading...
06
🌸Anthropic: пишем промпты за вас🌸 #nlp #про_nlp #ai_alignment На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу. 🟣Особенности фичи: — редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought. — автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>, <exceptions>, <guidelines> и так далее. — редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела. 🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно. 🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].
5 870109Loading...
07
Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю. Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех!
5 0609Loading...
В это воскресенье в рубрике #female_vocals хочу просто поделиться с вами кавером, который очень люблю. Считаю, что это песня на самом деле про собеседования и офферы в 2024 году https://youtu.be/qS0YJZXmX2s?si=TPsLaSbEwNty7wFe
Show all...
Я не поняла (Верка Сердючка и ВИА Гра swing cover, live)

Хит Верки Сердючки и ВИА Гра "Я не поняла", лайв с репетиции. [email protected]

https://vk.com/gdecoda

http://instagram.com/gdecoda

16🎉 11 7 2 1
Субботний мемотред! По случаю моего возвращения в постинг #шитпост До понедельника тут серьёзного контента не будет!
Show all...
🎉 65 22😁 14 8 6👍 4🔥 1🥱 1🐳 1
🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸 #nlp #про_nlp #nlp_papers #ai_alignment Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них. 🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д. 🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось. 🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть. 🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena 🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось! С какими проблемами при оценке моделей вы сталкивались? 🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик.
Show all...
LLM Prompt Recovery

Recover the prompt used to transform a given text

❤‍🔥 40 16 13👍 12 9
🌸AI SuperAlignment — все? 🌸 #ai_alignment Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта. Команда SuperAlignment OpenAI развалилась. Из новостей, уходят: — Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана) — Ян Лейке (лид команды SuperAlignment, ex-DeepMind) 🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен) 🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати? — Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д. — В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана. 🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось).
Show all...
Kali Novskaya

#nlp #про_nlp #ai_alignment 🌸Что такое SuperAlignment? Введение🌸 Вчера в блоге OpenAI появилась новая запись под авторством Ilya Sutskever и Jan Leike (Chief Scientist и Alignment team lead в OpenAI). 🟣Впервые вводится понятие superalignment — по сути alignment для AGI/superintelligence (к определениям просят не придираться). Чем это отличается от уже вошедшего в обиход на словах, но мало вошедшего на практике обычного alignment? Текущие практики упираются в проблему: все методы обучения ИИ "плохому и хорошему" основаны на существующих примерах, сформированных и подобранных людьми с целью воспроизведения суждений. Но как учить сущность, более умную, чем люди? Превосходящую интеллектуально хотя бы по некоторым параметрам. Тезисы OpenAI: 🌸 задачу alignment хоть как-то хочется решить в течение 4 лет — это никак не "50 лет до наступления AGI" 🌸 решение должно быть автоматическим (отдельная модель), масштабируемым и подвергаемым полноценному стресс-тестированию, например, в симуляционных средах. 🌸 среди приоритетов…

48👍 24 23😁 9😱 3👎 1🤔 1😢 1😴 1
Photo unavailableShow in Telegram
🌸Field Matters Workshop🌸 #nlp_papers Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей. Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters. Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи. В этом году мы проходим на ACL 2024, в Таиланде. Дедлайн — 17 мая! Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL. 🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters 🟣Сайт воркшопа: https://field-matters.github.io/ 🟣Все темы воркшопа: — Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork; — Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems; — Modeling morphology and syntax of typologically diverse languages in the low-resource setting; — Speech processing for under-resourced languages; — Machine-readable field linguistic datasets and computational analysis of field linguistics datasets; — Using technology to preserve culture via language; Improving ways of interaction with Indigenous communities; — Special track: Indigenous languages of Thaïland and South-East Asia.
Show all...
28 10🔥 3
00:58
Video unavailableShow in Telegram
🌸Anthropic: пишем промпты за вас🌸 #nlp #про_nlp #ai_alignment На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу. 🟣Особенности фичи: — редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought. — автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>, <exceptions>, <guidelines> и так далее. — редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела. 🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно. 🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].
Show all...
Anthropic-Video.mp411.37 MB
👍 36❤‍🔥 7 7 4 3🤔 1
Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю. Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех!
Show all...
183 21 18 15🥰 13🔥 9👍 8💔 8🤡 5👨‍💻 4😢 3
Go to the archive of posts