fa
Feedback
Data Secrets

Data Secrets

رفتن به کانال در Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

نمایش بیشتر

📈 تحلیل کانال تلگرام Data Secrets

کانال Data Secrets (@data_secrets) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 90 708 مشترک است و جایگاه 1 416 را در دسته فناوری و برنامه‌ها و رتبه 6 209 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 90 708 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 25 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 545 و در ۲۴ ساعت گذشته برابر 3 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

  • وضعیت تأیید: تأیید شده (به صورت رسمی توسط تلگرام)
  • نرخ تعامل (ER): میانگین تعامل مخاطب 26.53% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 18.59% واکنش نسبت به کل مشترکان کسب می‌کند.
  • دسترسی پست‌ها: هر پست به طور میانگین 24 051 بازدید دریافت می‌کند. در اولین روز معمولاً 16 852 بازدید جمع‌آوری می‌شود.
  • واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 305 است.
  • علایق موضوعی: محتوا بر موضوعات کلیدی مانند claude, openai, контекст, стартап, llm تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 26 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

90 708
مشترکین
+324 ساعت
+1527 روز
+54530 روز
آرشیو پست ها
Новая обложка The Economist Как вам? 💪
Новая обложка The Economist Как вам? 💪

Project Deal: Anthropic сделали внутренний маркетплейс, где все сделки от имени людей совершали Claude-агенты Ранее они уже п
Project Deal: Anthropic сделали внутренний маркетплейс, где все сделки от имени людей совершали Claude-агенты Ранее они уже проводили эксперимент Project Vend, когда агент управлял маленьким вендинговым автоматом. Теперь же Anthropic хотят понять, насколько мы близки к целым рынкам с множеством продавцов-агентов и покупателей-агентов. В проекте участвовали 69 сотрудников. Каждому из них выдали личного агента и 100 долларов бюджета. Агенты получали от владельцев инструкции: что примерно человек хотел бы купить и продать, за сколько, уместен ли торг и тд. После получения инструкций агенты уходили полностью автономно жить на маркетплейсе и тратить/зарабатывать деньги. В итоге агенты за короткий срок заключили 186 сделок по 500 товарам, общая сумма транзакций превысила $4000. Кстати, потом сотрудники реально принесли вещи и обменялись ими в офисе. Оказалось, что качество модели напрямую влияет на ее способность торговаться. Opus в среднем заключал примерно на две сделки больше, чем Haiku, продавал те же товары дороже и как покупатель платил меньше. Например, один и тот же сломанный складной велосипед Haiku продал за $38, а Opus – за $65. Были, конечно, и смешные моменты. Один сотрудник разрешил Claude купить подарок самому себе, и агент выбрал 19 шариков для пинг-понга за $3, назвав их «сферическими орбами возможностей». Другой агент внезапно продал не вещь, а день с собакой сотрудницы (люди потом действительно это устроили, деньги-то уплачены). www.anthropic.com/features/project-deal

~5% запросов к Алисе обрабатываются с ошибками распознавания речи По статистике это небольшой процент. Несмотря на это, команда Яндекса открыто рефлексирует над инженерными проблемами, в том числе с контекстом. Разработчики отмечают, что за последнее время модели заметно прокачались в других направлениях: — новые версии делают сдвиг к более «осмысленным» ответам: предлагают меньше вариантов, но добавляют аргументацию — ближе к полноценному ассистенту, а не справочнику — улучшается работа с диалогом: удержание контекста, возможность перебивать, непрерывное общение — появляются зачатки долгосрочной памяти, а значит становится доступнее персонализированное общение

Google вложит до 40 миллиардов долларов в Anthropic 10 миллиардов они заплатят сразу, и еще 30 – в будущем, при условии дости
Google вложит до 40 миллиардов долларов в Anthropic 10 миллиардов они заплатят сразу, и еще 30 – в будущем, при условии достижения определенных целей стартапом. Кроме того, Google Cloud предоставит Anthropic 5 ГВт вычислительных мощностей в ближайшие 5 лет. Первые ресурсы Anthropic получит уже в начале 2027.

Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте?Ant
Помните разгромную аналитику от директора по ИИ в AMD, в которой она показала, что Claude Code стал работать хуже в марте?Anthropic только что признали, что это правда. Они действительно нашли целых три бага aka неудачных обновления, из-за которых агент тупил. 1. 4 марта режим reasoning по умолчанию был переключен с high на medium, чтобы "убрать чрезмерно долгие задержки". В итоге изменение откатили: жалоб от пользователей стало слишком много. 2. Позже в в системный промпт добавили инструкцию: между вызовами инструментов – не более 25 слов, в финальных ответах – не более 100 слов. Откуда были взяты такие числа, не очень понятно, но в итоге оказалось, что это снижает качество кода на 3% (сюрприз-сюрприз). Это изменение тоже откатили. 3. Ну и финалочка: в марте Anthropic катнули оптимизацию: если сессия простаивала больше часа, старые блоки thinking должны были очищаться один раз при ее возобновлении. Но в итоге из-за бага очистка происходила на каждом шаге до конца сессии (то есть Claude буквально каждый раз чистил контекст). Понятно, что в итоге агент начинал путаться, повторяться и противоречить себе. Это также приводило к промахам кэша и ускоренному расходу лимитов. Исправили баг только 10 апреля. Все эти неприятности отлавливались относительно долго, потому что затрагивали разные сегменты трафика. А еще фишка в том, что сами сотрудники стартапа пользуются другой сборкой агента, иначе почти наверняка замечали бы проблемы раньше :) Есть и положительная сторона: сейчас все (найденные) баги исправили, а всем пользователям сбросили лимиты использования. Пируем ☕️ www.anthropic.com/engineering/april-23-postmortem

SakanaAI выпускают систему оркестрации агентов Sakana Fugu Это будет первый коммерческий пользовательский продукт стартапа. Б
+2
SakanaAI выпускают систему оркестрации агентов Sakana Fugu Это будет первый коммерческий пользовательский продукт стартапа. Буквально пару недель назад они также анонсировали B2B агента Sakana Marlin для работы над корпоративными отчетами и стратегиями. Понемногу выходят на рынок, в общем. Вся философия SakanaAI состоит в том, что самый мощный ИИ – это не монолитная модель, а совокупность разных движков. Все их исследования построены вокруг этой идеи, и теперь она воплощается в продукте. Устройство Fugu довольно занятное. Система сама по себе является небольшой языковой моделью, которая обучена вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей (как это обычно делают), Sakana обучили модельку, которая хорошо умеет решать, кого вызвать, в какой роли и с какими подзадачами – и делает это адаптивно под конкретный запрос. Самое интересное: в какой-то момент обучения Fugu выяснила, что может вызывать саму себя, и научилась уходить в рекурсию. Получается, она как бы само-масштабируется на test-time, перечитывая собственные выходы и пересматривая стратегию координации агентов. Бенчмарки красивые. На SWE-Pro fugu-ultra (есть еще fugu-mini) достигает 54.2%. Для сравнения, Opus 4.6 берет 53.4. При этом очевидно, что качество работы Fugu будет еще расти, если добавить в пул модели помощнее, типа новой GPT-5.5 или Opus 4.7. Пока что Fugu выпустили в бету, записаться чтобы потестить можно тут. Что касается цены, Sakana не заставляют юзера платить сразу всем провайдерам, модели которых используются. Вы платите только Sakana, а дальше экономика на их стороне (они пишут, что так будет в десятки раз дешевле). P.S. Если интересно закопаться в механику, то почитайте вот эти две статьи: Trinity и Conductor. Это статьи Sakana с ICLR 2026, и лаба сама написала, что Fugu основана именно на них.

DS Lab: что нового в нашей облачной IDE Продуктовая команда Data Secrets продолжает активно развивать DS Lab и делать ее еще
DS Lab: что нового в нашей облачной IDE Продуктовая команда Data Secrets продолжает активно развивать DS Lab и делать ее еще удобнее для гибкой аренды мощностей и работы с проектами любой сложности. Помимо многочисленных оптимизаций, в последней версии редактора вы найдете три обновления: ➖Теперь вы сами решаете, через какое время бездействия проект выключится. Любое действие сбрасывает таймер, а интервал можно настроить: например, увеличить, если запускаете модель учиться на ночь на GPU, или уменьшить, чтобы не платить за простой мощностей. После выключения все состояние проекта сохраняется. ➖ Интеграции с GitHub и Hugging Face. Авторизуйтесь один раз прямо в настройках профиля и работайте с привычными сервисами во всех проектах. Git push, pull, загрузка моделей с Hugging Face и все остальное доступно из коробки. ➖ Добавили возможность менять версию Python одной кнопкой прямо в проекте. Никаких пересозданий окружения, все происходит быстро и прямо на месте. Все это уже можно испробовать здесь: dslab.tech.

⚡️ Вышли новые модели от DeepSeek: DeepSeek-V4-Pro и DeepSeek-V4-Flash Обе модели уже в опенсорсе и с контекстом до 1 миллион
+3
⚡️ Вышли новые модели от DeepSeek: DeepSeek-V4-Pro и DeepSeek-V4-Flash Обе модели уже в опенсорсе и с контекстом до 1 миллиона токенов! – DeepSeek-V4-Pro: 1.6T параметров / 49B активных. Метрики на уровне ведущих фронтиров. На кодинге уровень Claude Opus 4.6, на World Knowledge уступает только Gemini 3.1 Pro, на ризонинге также бьет многие закрытые модели на бенчмарках. Бесспорно новая открытая SOTA. – DeepSeek-V4-Flash: 284B параметров / 13B активных. На многих бенчмарках модель достаточно близка к Pro версии, но дешевле и быстрее. Контекст на 1 миллион токенов теперь стоит по умолчанию во всех сервисах DeepSeek. На длинных контекстах они добились очень высокой эффективности вычислений благодаря механизму внимания DeepSeek Sparse Attention (мы вот тут его разбирали). Обе модели специально оптимизированы для агентных задач, и DeepSeek пишут, что уже используют их для внутренней разработки. Попробовать можно в чате: chat.deepseek.com Либо в API: дока (цены на картинке выше) Техрепорт | Веса

Sony AI сделали первого в мире робота, способного обыгрывать в настольный теннис лучших игроков Они опубликовали про Ace (так
Sony AI сделали первого в мире робота, способного обыгрывать в настольный теннис лучших игроков Они опубликовали про Ace (так зовут робота) целое исследование в Nature, и даже попали на обложку. www.nature.com/articles/s41586-026-10338-5 В апреле 2025 Ace сыграл серию матчей против элитных и профессиональных игроков, и выиграл примерно половину. В декабре эксперимент повторили, и Ace уже обыграл почти всех, в том числе спортсмена из японской профлиги. Матчи судили лицензированные арбитры Японской ассоциации настольного тенниса, и все игроки встретились с роботом впервые, никаких специальных данных об их игре не использовалось для подготовки системы. Это потрясающе, потому что настольный теннис – невероятно быстрый вид спорта, а скорость для робототехники – камень преткновения. Шары летят со скоростью до 150 км/ч, вращение меняет траекторию непредсказуемо, каждый удар нужно принять и вернуть за миллисекунды. В общем, казалось, что пока что для роботов эта задача невыполнима. Но Sony добились сквозной задержки всего в 20,2 миллисекунды. Это в 11 раз быстрее человеческой реакции (у элитных игроков реакция ~230 миллисекунд). Как? 1. ОЧЕНЬ точные камеры и сенсоры. Они отслеживают мяч со скоростью 200 Гц с точностью до миллиметра. При этом трекается не только скорость и траектория, но и логотип на мяче. Это нужно, чтобы правильно определять вращение, оно играет в настольном теннисе ключевую роль. 2. Механика и апаратура железа. Оптимизированные легкие сплавы, 8 суставов, отточенный до мельчайших деталей дизайн. 3. Обучение с подкреплением (куда ж без него!). Ace обучен полностью в симуляции. RL было трехуровневым, по принципу обучения людей: сначала Ace учился ударам, затем тактике (как, куда и с какой силой бить), затем стратегии (как строить игру на протяжении всего матча). Кстати, в обучении они использовали тот же подход, что и в проекте, где ИИ научился побеждать людей в гоночном симуляторе Gran Turismo. Он называется «привилегированный критик» aka дистилляция физики: в симуляции у «учителя» есть идеальные данные о мяче, а «ученик» видит только то, что видят камеры – и именно так, подглядывая за учителем, он сам учится предсказывать траекторию. Про один из ударов Ace экс-олимпиец и эксперт по настольному теннису Кинджиро Накамура сказал:
«Никто другой не смог бы так сделать. Я не думал, что это возможно. Но раз это оказалось возможным – значит, есть вероятность, что и человек сможет»
Снова ход 37, только теперь не в цифровом пространстве, как у AlphaGo, а в реальном мире. Это первый случай в истории, когда ИИ-система достигла уровня эксперта-человека в активном физическом виде спорта.

Как завоевать сразу несколько наград на CDO/CDTO Awards 2026? Спросите у тех, кто в этом шарит, - 22 апреля три номинации улетели к МТС Web Services. CDO/CDTO Awards отмечает лучшие проекты и управленческие практики в сфере цифровой трансформации. Чем MWS покорило жюри? • Публичное облако MWS Cloud Platform – «Digital‑платформа года»; • Агрегатор LLM-моделей MWS GPT - решение MWS GPT. А еще гендиректор компании Павел Воронин получил Гран-при в категории «СЕО года цифровой компании». Раздали стиля.

ИИ-кавер «Седой ночи» принес около 10 миллионов рублей. Но… не Канье Уэсту, и даже не своему создателю Вы точно видели это сгенерированное видео с Канье Уэстом, исполняющим Седую Ночь. Короче, оказалось, что за этим, с позволения сказать, треком, кроется настоящий скандал. Создателем трека стал парень из Ижевска, известный под псевдонимом Август Септемберов. Он уже некоторое время занимается ИИ-каверами (может быть, вы также слышали его известное творение: «Моя игра» в исполнении Эминема). Ничего не подозревая, он выложил на просторы Интернета очередную композицию, а она вдруг завирусилась и заняла первую строчку в Shazam. Вот только Август не участвовал в выпуске трека на площадках. Его выложил туда без разрешения Андрей Разин, директор студии «Ласковый Май». Он заявляет себя как первообладателя, продвигает трек как свой, и, по некоторым оценкам, уже заработал на нем около 10 миллионов. А автор не получил ничего. Источники сообщают, что когда он написал Разину с просьбой разделить прибыль, тот его просто заблокировал. Кстати, сейчас Разин в розыске за мошенничество. Он украл не толко кавер на Седую Ночь, но и оригинальные песни Ласкового Мая. По версии следствия, Разин использовал поддельный договор с Сергеем Кузнецовым, чтобы получать доход от песен группы, не имея на то законных прав. Вопрос на засыпку, чьи права защищать: создателя трека, Канье Уэста или нейросети, которая все сгенерировала? ❓

Стартап Odyssey релизнул новую world model Odyssey-2 Max Создатели называют ее SOTA в симуляции физики мира. Относительно прошлой версии метрика на VBench physics скакнула с 49.7 до 58.5. А еще это самая большая модель стартапа. Под капотом авторегрессионная модель (как LLM, только предсказывает не следующий токен, а следующее состояние). Собственно, этим Odyssey и отличается от обычных генераторов видео типа SORA: авторегрессия генерирует видео не целиком заранее, а в реальном времени, последовательно и причинно + может реагировать на действия пользователя онлайн. Поэтому на примерах сильно не обращайте внимание на фотореалистичность. Тут дело именно в симуляции физики, динамики мира и управляемости. Короче, это игровой движок на минималках.
Мы рассматриваем Odyssey-2 Max как форму предобученного физического интеллекта – что-то вроде человека, который много лет наблюдал за миром и взаимодействовал с ним, но еще только учится водить машину. Или, если проводить аналогию с языковыми моделями, это уровень GPT-2, прямо перед переходом к ChatGPT.
odyssey.ml/introducing-odyssey-2-max

Карпаты в октябре: «агенты не работают, у них недостаточно интеллекта». Карпаты в марте: «агенты фейлятся из-за недостатка на
Карпаты в октябре: «агенты не работают, у них недостаточно интеллекта». Карпаты в марте: «агенты фейлятся из-за недостатка навыков, а не возможностей». За полгода проблема сместилась с модели на инженера. Масштаб того, что нужно освоить разработчику, уже приличный. SPEC-разработка: как ставить ТЗ, чтобы агент не уезжал в галлюцинации на третьем шаге. AGENTS.md в каждой директории проекта. Skills.md под конкретные паттерны. Контекст-инжиниринг, чтобы маленькая модель выдавала качество большой. Plan Mode для декомпозиции задач, которые не влезают в контекстное окно. Каждый из этих кусочков уже существует в документации, в GitHub-тредах, в подкастах на youtube. Проблема в том, что собрать их в рабочую систему самостоятельно — это примерно год экспериментов. Чтобы не выпадать с рынка, команда Naition запускает буткемп с преподавателями из Google, Yandex Cloud, Сбера и других компаний, где AI-driven разрабокта покрывается за 12 недель в формате живых онлайн-встреч: 30 минут теории, час разбора кейса, полтора часа практики на своём коде. За 14 уроков вы научитесь: • Настраивать ИИ-окружение — RAG-системы, MCP, SPEC-разработка, агенты и контекст под свой стек. • Создавать фичи в разы быстрее, используя ИИ в каждом этапе — от планирования до внедрения. • Управлять полноценной командой ИИ-агентов — ваш продукт 24/7 создают бекэнд / фронтэнд разработчики, системные аналитики, DevOps и другие агенты. И не только! А по промокоду DATASECRETS — скидка 20%. Записаться на буткемп Сайт: naition.ai Онбординг 28 апреля. 5 мая — старт! Если есть сомнения, то можно начать даже с одного модуля. Команда также собрала бесплатную дорожную карту из 40+ концептов со ссылками на первоисточники — по сути оглавление того, что сейчас составляет базовую инженерную грамотность для работы с AI. Забрать роадмеп по ссылке Реклама. ИП Крутов, ИНН 772973192199, erid 2Fy8ou9pqw

Google выпустили новое поколение TPU Они анонсировали TPU 8t и TPU 8i. Один чип под обучение, другой – под инференс и ризонин
Google выпустили новое поколение TPU Они анонсировали TPU 8t и TPU 8i. Один чип под обучение, другой – под инференс и ризонинг. Фактически, компания уходит от универсальных ускорителей и переходит к идее специфичного проектирования чипов под узкие места и задачи (это уже абсолютно другая стратегия в сравнении с Nvidia, которые берут как раз универсальностью). Это и есть ключевой момент релиза. Итак, TPU 8t – это для обучения. Их может быть до 9 600 в одном кластере, и упор сделан на скорость обучения и масштабирование. Интересно, что есть отдельные блоки, спроектированные под ускорение специфичных операций, например для рексис. TPU 8i – для работы моделей в проде. Тут у нас больше памяти, быстрее обмен данными между чипами и отдельные механизмы для синхронизации. Относительно прошлого поколения заявляется до 2,7 раза лучше соотношение цена/производительность при обучении и до 80% (!) прироста эффективности на инференсе. Оба чипа пока в статусе coming soon https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/

4 случайных парня получили доступ к Claude Mythos, просто угадав URL Bloomberg пишет, что это была некая небольшая группа неа
4 случайных парня получили доступ к Claude Mythos, просто угадав URL Bloomberg пишет, что это была некая небольшая группа неавторизованных пользователей из частного Discord-канала, созданного для поиска неанонсированных ИИ-моделей. Ребята проанализировали правила именования API Anthropic по недавней утечке стартапа Mercor и просто угадали эндпоинт Mythos. Один из них также достал легитимную учетную запись конторы подрядчика, и они получили доступ к модели без какого-либо взлома. Доступ был получен в тот же день, когда Anthropic объявила о запуске Project Glasswing, то есть счастливчики беспрепятственно использовали Mythos на протяжении двух недель. Пишут, правда, что ничего сверхъестественного они с ней не делали, просто тихо вайбкодили. Anthropic: «Ой, наша новая модель настолько опасная, что доступ к ней будет только у 40 компаний во всем мире» 😱 Также безопасность Anthropic:

❗ Большие языковые модели уже везде. Но для большинства специалистов они остаются чем-то непонятным: запросы работают нестаби
❗ Большие языковые модели уже везде. Но для большинства специалистов они остаются чем-то непонятным: запросы работают нестабильно, ответы непредсказуемы, а внедрение в задачи вызывает вопросы. 🦾 На открытом уроке разберём, как эффективно работать с LLM. Вы узнаете, как строить запросы, как усиливать модели с помощью LoRa и как подключать внешние данные через RAG. Покажем не обзор, а 🚀 прикладной подход: где это используется, как это реализуется и какие ошибки чаще всего допускают. Это база, без которой сложно двигаться в направлении NLP и современных языковых моделей. ➡ Встречаемся 6 мая в 18:00 МСК в преддверии старта курса «Языковые трансформенные модели / NLP». Зарегистрируйтесь и разберитесь, как превратить модели в рабочий инструмент: https://otus.pw/32iP/ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

SpaceX получила опцион на покупку Cursor за 60 миллиардов рублей По сути, это отложенная сделка. Она действует до конца 2026,
SpaceX получила опцион на покупку Cursor за 60 миллиардов рублей По сути, это отложенная сделка. Она действует до конца 2026, и если до этого времени Маск не купит Cursor за указанную сумму, ему придется выплатить стартапу 10 миллиардов. На фоне этого Cursor, по сообщениям, свернул переговоры о новом раунде на $2 млрд при оценке выше $50 млрд. Почему бы просто не купить Cursor сейчас? Потому что SpaceX (которая, напоминаем, поглотила xAI) сейчас готовится к IPO, и отсрочка нужна, чтобы не затормозить этот процесс. Прямо сейчас компании уже заключили партнерство для работы над каким-то совместным продуктом. SpaceX описала это как работу над «лучшим в мире ИИ для программирования».

Да, это не скриншот GPT Image-2 официально вышла, и это новая SOTA (да, в разы лучше Nano Banana). OpenAI все еще умеют удивл
Да, это не скриншот GPT Image-2 официально вышла, и это новая SOTA (да, в разы лучше Nano Banana). OpenAI все еще умеют удивлять

SakanaAI доказали, что LLM не умеют быть случайными и предложили один промпт, чтобы заставлять модели быть более креативными Современные LLM хорошо решают задачи, где есть один правильный ответ, но заметно хуже справляются с ситуациями, где нужно выбирать между несколькими допустимыми вариантами с заданными вероятностями (исследователи вводят для такого термин Probabilistic Instruction Following). Например, подбрасывание монетки. Если сто раз попросить модель "подбросить монетку", то, по идее, распределение должно быть близко к 50/50, но на практике оно перекошено. Возникает логичный вопрос: ну и что? Так вот, такое поведение возникает не только в игрушечных симуляциях. В открытых задачах (вроде придумать название, написать поздравление, нагенерить идеи и тд) LLM тоже страдают от схлопывания разнообразия, и при многократных запусках крутятся вокруг очень похожих решений. Это мешает и обычному креативному использованию, и test-time scaling, где хочется получить много разных кандидатов, а потом выбрать лучший. Объясняется это просто: LLM не обладают внутренним источником независимой случайности и потому при стохастическом выборе следуют выученным во время обучения вероятностным смещениям, а не заданному распределению. Как это исправить? Раз внутреннего источника случайности у моделей нет, японцы предлагают его добавить. Сама идея простая: вместо наивного промпта вроде «сгенерируй случайное число» модель сначала заставляют генерировать случайную строку и потом использовать ее, чтобы выбрать или сформировать ответ. То есть примерно вот так:
Сначала сгенерируй уникальную случайную строку (любой длины, без очевидной структуры). Затем используй ее как источник случайности, чтобы создать разнообразный, небанальный и качественный ответ на задачу.
Это называется String Seed of Thought. Если модель сразу выбирает ответ, на нее влияют обученные смещения, но при генерации случайной строки они почти не проявляются. Затем модель преобразует строку в решение через простые вычисления (например, mod или хеш), фактически реализуя псевдослучайный выбор. Грубо говоря, метод работает, переводя задачу из семантической в вычислительную. На бенчмарках SSoT резко снижает отклонение от заданного распределения и часто приближается к уровню настоящего псевдослучайного генератора. Он стабильно обходит подкруты температуры и другие трюки на разных моделях и задачах. В открытых задачах креативность также растет, и при том без потери качества. Пользуйтесь, в общем. Блог и статья вот: https://pub.sakana.ai/ssot/