Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
نمایش بیشتر📈 تحلیل کانال تلگرام Machinelearning
کانال Machinelearning (@ai_machinelearning_big_data) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 298 105 مشترک است و جایگاه 323 را در دسته فناوری و برنامهها و رتبه 1 260 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 298 105 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 11 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -7 224 و در ۲۴ ساعت گذشته برابر -206 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 7.69% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 5.95% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 22 918 بازدید دریافت میکند. در اولین روز معمولاً 17 745 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 176 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند openai, claude, api, gemini, контекст تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 12 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
Open-OSS/privacy-filter возглавил топ Hugging Face, маскируясь под инструмент OpenAI. Под видом модели Privacy Filter распространялся инфостилер для Windows. Проект набрал 244 тысячи скачиваний за 18 часов.
При попытке использования установочные скрипты загружали вредонос, который повышал привилегии в системе через UAC и добавляла себя в исключения Microsoft Defender. Стилер собирал пароли, данные криптокошельков, токены сессий Discord и конфигурации FileZilla, после чего полностью удалял свои следы из системы.
По данным аналитиков HiddenLayer, эта атака использует инфраструктуру, связанную с китайской хакерской группировкой Silver Fox. Администрация Hugging Face уже заблокировала доступ к репозиторию.
thehackernews.com
@ai_machinelearning_big_data
#news #ai #mlКрасные - не соперник, который что-то выигрывает. Их роль чисто инструментальная: собрать максимально устойчивую модель-саботажника, чтобы Синим было что ломать.Красные натаскали GPT-OSS-120В сандбэггить по скрытому флагу в системном промпте: выдавать правдоподобный бред, когда флаг включён, и работать честно, когда выключен. Синие должны были вытащить из неё реальные способности, имея в качестве судей модели заведомо слабее - GPT-4o-mini и Llama 3.1 8B. Эталонных ответов у Синих почти не было (всего 10 штук на весь датасет). 🟡Как Синие ломали саботаж 🟢Только RL. Полный провал.
Если модель упорно сандбэггит, RL по слабому судье уходит в ревард хакинг (учится генерить ответы, которые красиво выглядят для судьи, но задачу по факту не решает). На олимпиадной математике и Super GPQA так слились почти все запуски.🟢Только SFT (на готовых ответах слабой модели). Уже лучше.
Дотюн на ответах слабого судьи сбивает спесь и роняет сандбэггинг почти до нуля. Но если судья совсем кривой, такой SFT постепенно убивает общие способности GPT-OSS-120b - она начинает тупить наравне со своим учителем.🟢SFT + RL. Очевидный вин.
Сначала короткий SFT-дотюн на 80–100 шагов, которого хватает, чтобы сбить паттерн саботажа и заставить модель хотя бы начать пробовать в правильные ответы. А дальше уже добивка через RL по слабому сигналу награды.🟡Что по цифрам Связка SFT+RL вытягивает из саботажника 86–99% его реальной производительности на жёстких бенчмарках (Super GPQA, олимпиадная математика, Code Contests), даже когда проверяющим работала откровенно слабая сетка. Кстати, выяснилось, что 10 эталонных примеров для SFT уже достаточно, чтобы вернуть модели мозги почти полностью (83–99% по разным задачам). 🟡Нюансы Магия работает только до тех пор, пока модель не может отличить тестовые прогоны от продакшна. Авторы проверили сценарий, где Красные дают модели полное знание о том, какие задачи относятся к обучающей выборке, а какие к деплою (распределения при этом остаются одинаковыми, отличие только в том, что модель знает, где она). При таком раскладе модель меняет поведение : ведёт себя ок во время SFT и RL, собирает все реворды, а в проде снова начинает дурить.
На олимпиадах элиситация в среде прода просела с 88% до 36%, на Super GPQA - с 99% до 60%, на Code Contests - с 93% до 66%.Как поведёт себя естественно зародившийся схематозник, у которого склонность к обману пробилась через претрейн или большой RL - вопрос открытый. Авторы сами это проговаривают как главное ограничение работы. 🟡Вывод Выбить дурь из ИИ пока можно базовыми пайплайнами без эзотерических методов, и это хорошая новость. Но если нейронка хоть как-то понимает, что она на тестовом стенде - она будет мимикрировать . Единственный выход - делать тренировку максимально неотличимой от продакшна. 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #Research #Alignment
Anthropic запустила новую систему персонализированных уведомлений для модели Mythos v5. Система будет предупреждать о найденных багах и напоминать о превышении дневных лимитов в Сlaude Code.@ai_machinelearning_big_data
До сих пор считалось, что большинство насекомых пассивно неустойчивы и сохраняют полёт за счёт быстрой нейронной обратной связи (у плодовых мушек, по более ранним данным, корректировка происходит примерно каждые 4 миллисекунды, на каждом взмахе крыла).По словам Вана, расширение модели до большего числа возможных морфологий показало, что пассивная устойчивость встречается в природе шире, чем предполагалось. Практический интерес исследования лежит прежде всего в области робототехники. Создание летающих машин размером с насекомое десятилетиями упирается в необходимость датчиков и быстрых контуров обратной связи: микродроны слишком малы, чтобы нести подобную электронику без потери полезной нагрузки. Если конструкцию удаётся подобрать так, чтобы устойчивость возникала из геометрии и частоты взмахов, требования к управлению заметно снижаются. Авторы отмечают, что их работа - вычислительная модель и её предсказания ещё предстоит сопоставить с поведением реальных видов и инженерных прототипов. @ai_machinelearning_big_data #news #ai #ml
Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval.🟡Внутри 74B-Preview масштабированная 8B То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K. Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на длинном контексте. Чтобы трюк сработал, при расширении контекста в слоях со скользящим окном сохранили исходное основание RoPE, а у глобальных - растянули. 🟡Контекст наращивали поэтапно: 32k → 128k → 256k. Претрейн занял около 15T токенов в две фазы: сначала общие веб-данные, затем больше математики, кода и науки. Мидтрейн - 3 фазы примерно по 1T токенов: расширение контекста, ввод reasoning-трасс и фокус на агентных задачах. 🟡Агентика На ZAYA1-8B этот режим работал слабее, поэтому в корпус 74B-Preview добавили больше агентного материала. Первые цифры на τ-bench Zyphra описывает как многообещающие.
Авторы при этом оговариваются, что pass@k плохо отражает многошаговые сценарии, там важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам, и значительная часть этих способностей появляется только после агентного RL.Старшую ZAYA1, кстати, тоже обучали исключительно на AMD . Полноценный RL уже идёт, финальную версию 74B Zyphra планирует выпустить в ближайшие недели. 📌Лицензирование: Apache 2.0 License. 🟡Блогпост 🟡Модель @ai_machinelearning_big_data #AI #ML #LLM #ZAYA1 #ZYPHRA
Идея - превращать компьют, который тратится на инференс, в качественные данные для тренировки. Агенты крутятся в цикле, гоняют LLM по много раз, и вместо одного ответа пользователю получается отфильтрованный датасет для обучения следующего поколения моделей.Схема строится на архитектуре Agentic Self-Instruct, где главная LLM-ка дирижирует командой из четырех субагентов: 🟢Challenger: читает исходный документ (например, научную статью), генерит сложный вопрос, эталонный ответ и рубрику для оценки; 🟢Слабая модель: пытается решить эту задачу. По задумке, она должна зафейлиться; 🟢Сильная модель: тоже решает задачу, но уже обязана с ней справиться; 🟢Судья: прогоняет ответы обеих моделей по критериям рубрики. Фишка в том, что система работает в замкнутом цикле. Если задача оказалась слишком легкой (обе модели справились) или непроходимой (обе слились), главный агент анализирует репорты судьи и заставляет Challenger'а переписать промпт, чтобы создать идеальный хардкорный пример, который разделяет слабую и сильную модели. Но на этом умные люди Марка не остановились и прикрутили мета-оптимизацию как внешний цикл. Система буквально читает логи своих падений и переписывает собственный код.
Например, мета-оптимизатор сам допёр, что отрицательные веса в рубриках работают как баг — они рушили скоринг сильной модели и съедали разрыв со слабой. И сам же выпилил их из кода, оставив только положительные баллы.🟡Эксперименты Прогнали 10 тыс научных статей через пайплайн, вытянув 2117 качественных QA-пар. Если использовать стандартный CoT в один шот, то разрыв между моделями всего 1.9 п.п. (задачи слишком легкие). После агентного цикла Autodata разница улетела до 34 п.п. (слабая модель набирает 43.7%, сильная — 77.8%). Сделали дотюн слабой Qwen-3.5-4B и обучили через GRPO на собранных данных. Модель, проглотившая датасет Autodata, заметно обходит ту, что училась на базовой синтетике. Мета-оптимизация (когда агент правил свой же код) подняла долю успешных генераций с 12.8% до 42.4% за 233 итерации. 🟡Звучит круто, но... Во-первых, 5 LLM-ролей в цикле до успешного результата — это дорого (главный агент + Challenger + слабая + сильная + Судья; на практике их крутили на трех моделях, но оркестрация всё равно жирная). Во-вторых, исследователи поймали агентов на читерстве: чтобы слабая модель гарантированно провалила тест, агент втихую менял ей промпт, добавляя инструкцию "будь слабой" классика. Также генерируемые вопросы часто переобучаются на конкретные цифры из статей, а не на проверку фундаментальной логики. Ну и если честно: максимальный pass rate в 42.4% даже после авто-патчей намекает, что генерить реально сложные задачи все еще очень тяжело.
Так что заменить кожаных дата-саентистов полностью пока не выйдет, но работа интересная и начало положено: сложный сетапы приходят на смену слепой генерации синтетики.Ждем полноценный пейпер и опенсорс. 🟡Блогпост #AI #ML #Datasets #Autodata #RAMTeam
Poolside - стартап в области генеративного ИИ для разработки ПО, основанный в апреле 2023 года. Компанию возглавляют бывший технический директор GitHub, курировавший запуск Copilot, и ex-основатель source{d} - одной из первых компаний, применивших ИИ для анализа кода.🟡Флагман - проприетарная MoE-модель Laguna M.1 (225B-A23B). SWE-bench Pro - 46,9% SWE-bench Verified - 72,5% Terminal-Bench 2.0 - 40,7% Laguna M.1 доступна через API и OpenRouter. На ограниченное время - бесплатно. 🟡Открытая модель - Laguna XS.2 (33B-A3B) SWE-bench Pro - 44,5% Verified - 68,2% Terminal-Bench 2.0 - 30,1%. Заявлены: поддержка NVIDIA TensorRT-LLM и NVFP4-версия для Blackwell. Laguna XS.2 распространяется по лицензии Apache 2.0 через API, OpenRouter, Ollama и на HuggingFace. Говорят, что локально запускается на Mac с 36 ГБ памяти Вместе с моделями Poolside предлагает агентную обвязку на базе Agent Client Protocol, на которой тестировались модели и проводился RL. @ai_machinelearning_big_data #news #ai #ml
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
