cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

Техножрица 👩‍💻👩‍🏫👩‍🔧

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Больше
Рекламные посты
7 701
Подписчики
+2824 часа
+657 дней
+35930 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

Фото недоступноПоказать в Telegram
Вопрос к читателям: на что заменить слово "hat", чтобы получилось название новой научной статьи по ML? На размышление даётся backward секунд.
Показать все...
33 13🥴 3🤡 2 2 2👍 1 1🤮 1💩 1 1
Однако день не обошёлся и без неожиданных происшествий! Через некоторое время после доклада я встретила свою коллегу по космическому кораблю (в ролевой rogue trader) и попросила меня сфотографировать! Вначале все шло хорошо (рис. 1), но потом я попробовала положить руку на буковку (рис. 2)... дальнейшее ясно без слов 🌚 На рис. 5 мы с оператором вместе, довольные съёмкой и успешной починкой повреждений 😅 #о_себе
Показать все...
🔥 65 31😁 15💘 5👍 2🎉 1🤮 1💩 1🤡 1🤗 1🦄 1
Рассказала сегодня на Data Fest свой короткий обзорный доклад про детекторы LLM-контента с описанием их слабостей и того, какие на них делают атаки. Судя по обилию интересных и содержательных вопросов (их активно продолжили задавать и после доклада), людям действительно оказалась интересна эта тема, чему я была очень рада! Также встретилась в течение дня с несколькими подписчиками, с которыми я раньше лично не общалась, но которые рассказали, что читают и любят мой канал и задали много интересных вопросов. Мы обсудили много интересных вещей про ML, научные исследования, ведение каналов и многое другое. Это тоже было очень приятно! Спасибо всем большое за ваш интерес к моей работе и творчеству. 🥰 Слайды доклада прикладываю к посту. Видеозапись должны выложить в июне, тоже ей поделюсь, когда будет. #о_себе #конференции
Показать все...
🔥 71 17 5🎉 3🤡 2👎 1💩 1
Версия в высоком качестве из интернета для скептиков
Показать все...
🔥 9🤮 2💩 2🤡 2
Мама Кандинского #внезапный_киберпанк
Показать все...
😁 19🤡 4🤮 1💩 1
Repost from Kali Novskaya
🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸 #nlp #про_nlp #nlp_papers #ai_alignment Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них. 🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д. 🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось. 🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть. 🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena 🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось! С какими проблемами при оценке моделей вы сталкивались? 🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик.
Показать все...
LLM Prompt Recovery

Recover the prompt used to transform a given text

💯 6👍 2🤡 2🫡 2🤮 1💩 1🙏 1
Между тем, на 25 мая (суббота) запланирован мой доклад на Data Fest в офисе VK, зал А1: https://ods.ai/events/fest2024-vk Доклад называется "Как одурачить детекторы LLM-контента". Предварительно доклад планируется на 12:25 (хотя время может измениться). Регистрируйтесь и заходите послушать.
Показать все...
🔥 89 18 12👀 3 3🤡 2👍 1🤮 1💩 1
Ставь "🏥" если отправил статью и сразу отъехал в психическую больницу
Показать все...
145🫡 22 17😁 4 3💩 2👻 2 1 1🥴 1😘 1
Ставь "🥴" если тоже собираешься отправлять статью на NeurIPS в течение последнего часа до дедлайна
Показать все...
🥴 83 33🫡 28🥰 10🤡 8 4😁 3 3
Repost from N/a
#карьера #career #interview #faang Behavioural interviews in FAANG+ 10. Scope / масштаб Важно показывать масштаб проектов на определённый уровень. Часто самый первый вопрос - проект, которым гордитесь. Это возможность показать масштаб, влияние и импакт. Будьте избирательны и выбирайте проекты с достаточным масштабом и количеством подчинённых/ менти. На менеджера первого уровня/staff по IC ожидается 5-10 direct report/супервайзить 5-10 человек. На sr manager/sr staff - уже несколько команд и влияние на 20 человек, principle/director - 50+ человек. Это размыто, но порядок цифр примерно такой. Если вы тех лид команды с 2мя людьми вне фаанга - это синьор в фаанге, поэтому выбирайте проекты, где вы лидили 5+ человек из разных команд, если хотите выше. Приведу пример в комментариях. 11. Какой сигнал хочет получить интервьюер? Каждый вопрос задан, чтобы считать какой-то сигнал. В behave это чуть менее очевидно, чем в дизайнах. Думайте, "what is the question behind the question?", какой сигнал хочет получить интервьюер, на какой принцип лидества направлен вопрос. И дайте ему/ей этот сигнал или принцип. Если считывать сложно, готовтесь! По основным вопросам полно разъяснительных бригад в интернете. 12. Будьте аунтентичны Из курса психологии мы знаем, что найм - это субъективное эмоциональное решение (как большинство решений). Важно выделяться из череды кандидатов. Подумайте, какую аутентичную часть себя вы готовы показать. Пример, на вопрос как развиваю soft skills в Мета я ответила, что занимаюсь с психологом и психотерапевтом. Это разбудило моего интервьюера, интервью прошла отлично. В Shutterstock я рассказывала, что сама художник и мы смотрели на мою галерею картин. Получила офер. Не бойтесь быть собой. 13. Адаптируйте вопросы Если вопрос оказался не в совсем удобной форме, перефразируйте его как вам надо. Примеры в комментариях. 14. Ваши вопросы Вопросы, которые задаете Вы тоже очень важны. После определённого уровня ваши вопросы становятся важнее ваших ответов. Подготовте их заранее, исследуя команду и компанию. Моя презентация, которую я сделала 2 года назад для подготовки к behave, там есть детали. Всем удачи на всяких интервью. Примеры в треде.
Показать все...
Behavioural interview

Behavioural interview A highly subjective and personal guide by Tati Gabru

👍 33😁 4🤡 3 2🔥 1🤮 1💩 1🥱 1