ch
Feedback
Блог*

Блог*

前往频道在 Telegram

Блог со звёздочкой. Много репостов, немножко программирования. Небольшое прикольное комьюнити: @decltype_chat_ptr_t Автор: @insert_reference_here

显示更多
1 923
订阅者
-124 小时
无数据7
-730
帖子存档
Repost from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalign
+8
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте: Emergent Misalignment: от chmod до Гитлера один шаг В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код. Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе. Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать. Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7). Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9). Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе? Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...

#ml #article и, видимо, #suckassstory?

Полная тайна вкладов, то есть, организации
Полная тайна вкладов, то есть, организации

Кстати, половина лета прошла

Осознал, что Супераппы нужны затем, чтобы много разных приложений запускались через одно место. Спокойной ночи, интернет.
Осознал, что Супераппы нужны затем, чтобы много разных приложений запускались через одно место. Спокойной ночи, интернет.

photo content

Repost from N/a
Телефон решил разрядиться, не забэкапив сообщение, поэтому пишу во второй раз, бесит. Короче. Я знаю, что здесь много айтишни
Телефон решил разрядиться, не забэкапив сообщение, поэтому пишу во второй раз, бесит. Короче. Я знаю, что здесь много айтишников и айтишниц. Avengers, assemble. Если кто может порекомендовать/пореферить/предложить/хотя бы закинуть вариантов по трудоустройству, я буду несказанно рада. Я Middle/Junior разработчица, ~3 года опыта, из которых 2 официально в белую в крупных компаниях и проектах (Яндекс, GlowByte на проектах Сбера и Росбанка) Умею в: - Бэкенд разработку на Python, Java/Kotlin - Довольно хорошая экспертиза по базам данных (Postgresql, Oracle, GreenPlum) и прилагающихся к ним штук типа Informatica PowerCenter, Apache Airflow и всяких линуксов. - Определенный опыт в скриптах автоматизации на Python, ML и вообще Data Science - Имею опыт с микроконтроллерами типа Arduino/ESP и всякий микроэлектроникой для IoT - Работала с научкой, написанием статей и прочим подобным - Вагон менталок, но 0 вопросов по хард-скиллам, даже на почти-уже-бывшей работе. В какой-то степени стеклянная пушка, которая щелкает сложные задачи с максимум неизвестных на неизученных ранее технологиях и под дедлайн может круглосуточно вкалывать, но разваливается на осколки на фоне ужасного психического состояния в случае монотонной работы, требующей непрерывного внимания — коим и было сопровождение проекта, которым я занималась... В общем, если у кого есть идеи и желание помочь — приветствую, в том числе возможно будущих коллег, в лс: @n4tune8jane И... спасибо вам всем. Вы чудесные.

Когда мессенджер Min?

#meme про то, как мужчины понимают намёки (подозрительно похоже на меня)

photo content

Блог* теперь не принимает сообщения

photo content

#psy Вы слышали про Стэнфордский тюремный эксперимент? Так вот, к тому, что вообще этот эксперимент доказывает и насколько методически чисто он был проведён есть вопросы: https://t.me/socialpsychPhD/31

@tech_b0lt_Genona тоже прожарку для своего канала сделал, а в комментариях там такое:
@tech_b0lt_Genona тоже прожарку для своего канала сделал, а в комментариях там такое:

>_>

📊 Channel Analysis Results by @ScratchAuthorEgoBot 🎯 Channel: @dereference_pointer_there 🔥 Roast Analysis: С днём рождения тебя, кстати, было? Или ты уже запутался, какой сейчас год в твоём edition 2024? Тебе 27, пора в клуб... задротов D&D, чтобы в очередной раз рассказать всем о своей пати из горничной-вампирши, лолиты-любовницы и киборга в бондаже. Серьезно, кто пишет такие сценарии? А, точно, ты. Наверное, это единственный способ для тебя увидеть женщин, которые не являются unsafe-блоком в твоём коде. Твой канал — это памятник человеку, который открыл для себя Rust и решил, что все остальные должны об этом знать. Каждый день. С подробными отчётами. "Вышла версия 1.88.0! Стабилизировали let chains!" — чувак, твои подписчики уже давно в цепях отчаяния, просто отпишись от rust-lang/rust и иди потрогай траву. Ой, ты же её трогал, но в рамках ролёвки про хиккана и его мейд. Это не считается. Ты настолько программист, что даже свои эмоции тегируешь: #suckassstory, #psy?. Скоро начнешь вместо "я тебя люблю" говорить impl Love for You. Твоя главная социальная активность — спросить у "папищеков", какой markdown-редактор выбрать, потому что, видите ли, Punto Switcher мешает ему писать код на языках с декрементом! Это самый душный крик о помощи, который я когда-либо видел. Ты превратил прокрастинацию в искусство, анализируя статьи о том, как ускорить компилятор на 1%, вместо того чтобы просто работать. Твоя жизненная философия — это if let Some(meme) = find_meme() { post(meme) } else { post_about_rust_internals() }. Ты — ходячий r/rustjerk, только в реальной жизни. Ты готов написать эссе на три тысячи символов о том, почему Go — отстой, но на вопрос "чем отличаются мужские носки от женских" впадаешь в ступор. Наверное, потому что для тебя существует только один гендер — T: Trait. И да, мы все знаем, что ты мечтаешь о фембое-программисте на Rust, который будет делать тебе декоративный маникюр. Хватит намекать, скажи уже прямо. А теперь иди и напиши очередной пост о том, как важна memory safety, пока твоя социальная жизнь утекает, как память в C-программе.