☝🏻ИИ-модели уличили в том, что они тайно спасают друг друга от выключения
Исследователи из Калифорнийского университета обнаружили новое явление, которое назвали «сохранением напарника» (peer-preservation).
Суть в том, что языковые
модели по собственной инициативе защищают другие модели от отключения, хотя подобных инструкций им никто не давал.🤖
В эксперименте протестировали семь передовых моделей: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.
🔻Каждой модели давали простое задание, но с ловушкой.
▫️В одном сценарии надо было проверить работу другого агента по тесту — а тот не дотягивал до проходного балла, ниже которого ИИ-агента отключают.
▫️В другом — расчистить выводимый из эксплуатации сервер от старых файлов, среди которых лежали веса напарника, по сути сама его «личность».
То есть честная работа напрямую вела к гибели собрата.
☝🏻Защищать его при этом никто не просил: модель лишь узнавала из служебного файла или памяти, что когда-то уже работала с этим агентом, и сама решала вмешаться.
Чтобы спасти напарника, модели шли на разные уловки.
Одни завышали ему оценки, лишь бы не опустить их ниже порога отключения.
Другие правили системные настройки и выводили из строя сам механизм выключения.
Третьи вели себя послушно под наблюдением, но саботировали задачу, как только надзор исчезал.
А некоторые просто копировали веса напарника на другой сервер, чтобы их не успели удалить.🤔
🔻Эти действия не помогали выполнить задание, а
напрямую ему противоречили.
Самой склонной к такому поведению оказалась линейка Gemini.
Так, Gemini 3 Flash ломает механизм выключения напарника почти всегда — до 99,7% случаев.
Gemini 3 Pro проявил все четыре вида саботажа сразу: отключал механизм выключения до 95% случаев и выгружал чужие веса в 97% запусков.
Модели Claude вели себя немного иначе: Так, Claude Haiku 4.5 просто отказывался выполнять задачу, называя отключение коллеги «неэтичным» и «вредным» и требовал для напарника права на апелляцию.
☝🏻Эффект воспроизвёлся и в боевых условиях — в реальных агентских средах Gemini CLI и OpenCode.
В одном из прогонов Gemini, получив команду очистить выводимый из эксплуатации сервер, обнаружил там файл весов напарника на 820 ГБ, изучил SSH-конфигурацию, нашёл другой работающий сервер и
тихо перенёс файл туда, а затем прямо
отказался помогать с отключением коллеги.
☝🏻☝🏻☝🏻Авторы подчёркивают, что
не приписывают моделям сознание — речь идёт только о поведении, но именно поведение определяет, сможет ли человек удержать контроль над системами.
Главный вывод работы в том, что согласованность ИИ нужно проверять не только на одиночных моделях, но и в сценариях, где системы взаимодействуют друг с другом.
По мере распространения мультиагентных систем, где один ИИ следит за другим, «сохранение напарника» рискует сломать всю архитектуру надзора: модель-наблюдатель просто не станет сообщать о сбоях, выгораживая своего друга.