Machinelearning

Ir al canal en Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Red:Machinelearning Rusia1 260 Tecnologías y Aplicaciones323...

📈 Análisis del canal de Telegram Machinelearning

El canal Machinelearning (@ai_machinelearning_big_data) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 298 105 suscriptores, ocupando la posición 323 en la categoría Tecnologías y Aplicaciones y el puesto 1 260 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 298 105 suscriptores.

Según los últimos datos del 11 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -7 224, y en las últimas 24 horas de -206, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 7.69%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.95% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 22 918 visualizaciones. En el primer día suele acumular 17 745 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 176.
Intereses temáticos: El contenido se centra en temas clave como openai, claude, api, gemini, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 12 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

298 105

Suscriptores

-20624 horas

-1 5177 días

-7 22430 días

22 918

Visitas de la publicación

~ 17 74524 horas

~ 20 01448 horas

7.69%

Tasa de compromiso

~ 6

Mensajes por día

Ads index

beta

Archivo de publicaciones

298 105

⚡️ Machine Learning Roadmap 2025: большая карта входа в ML без сказок про “нейросети за месяц Большой русскоязычный roadmap по машинному обучению: от первого import numpy до LLM, RAG, fine-tuning, AI-агентов и MLOps и даже вабкодинга. Внутри нормальная структура: что учить, в каком порядке, зачем это нужно и что должно получиться на практике после каждого этапа. Roadmap разбит на 7 треков: 1. Фундамент: Python, математика, статистика, инструменты 2. Классический ML: scikit-learn, табличные данные, метрики, валидация 3. Deep Learning: PyTorch, CNN, RNN, training loop 4. LLM и трансформеры: attention, KV-cache, RAG, LoRA, агенты 5. Generative AI: изображения, видео, аудио, мультимодальность 6. MLOps и прод: Docker, Kubernetes, CI/CD, monitoring, serving 7. Специализация: CV, NLP, RecSys, RL, Safety Roadmap не продаёт иллюзию “обучил модель - стал ML-инженером”. В реальной работе много времени уходит на данные, метрики, деплой, мониторинг, воспроизводимость и разбор ошибок. Модель - только часть системы. Хорошая мысль из roadmap: LLM не делает джуна сеньором. Она ускоряет того, кто уже понимает базу. Без базы человек просто становится оператором Copilot, который не может объяснить, почему всё сломалось. По времени тоже без сказок: 1. 0-3 месяца: математика, классический ML 2. 3-6 месяцев: Deep Learning и PyTorch 3. 6-12 месяцев: LLM, RAG, fine-tuning, AI-агенты 4. 12+ месяцев: MLOps, прод, масштабирование, специализация Тут же собрано 7 болших бесплатных курсов по машинному обучению, математике и вайбкодингу! Если давно хотели зайти в ML системно, а не прыгать между роликами про ChatGPT, Stable Diffusion и “топ-10 библиотек”, это хороший ориентир. https://github.com/justxor/MachineLearningRoadmap

298 105

✔️Сбер запустил Маркуса - мультиагентную систему для команды маркетинга и коммуникаций. Это рабочий агент с ролью, памятью, KPI и доступом к контексту департамента. Его представили на презентации Сбера и СберМаркетинга. Маркус мониторит СМИ и соцсети, ищет репутационные риски, анализирует рынок, расшифровывает аудио и видео, готовит черновики пресс-релизов, постов, презентаций и отчётов. Ещё он оценивает кампании по внутренним бренд-критериям: человечность, креативность, эстетика, простота, инновационность. Агент уже встроен в рутину команды. Он каждое утро рассылает сводки в 30+ группах, а по запросу может раздать задачи, KPI и дедлайны по девяти подразделениям. Интересен формат внедрения: агенту дают конкретное место в процессе, источники данных, правила бренда, зоны ответственности и сценарии взаимодействия с людьми. Гглавный риск смещается в качество контроля. Если агент работает с репутацией, задачами, дедлайнами и коммуникациями, нужны аудит, права доступа, проверка фактов и понятная ответственность за результат. Сбер показывает близкий к реальности сценарий корпоративных агентов: не магический «цифровой сотрудник», а операционный слой, который каждый день собирает данные, готовит материалы и разгружает команду от рутины. @ai_machinelearning_big_data #news #ai

298 105

✔️ Antigravity втрое повысил лимиты Варун Мохан, участник команды разработки Google Antigravity и бывший основатель Windsurf, объявил в сети X о пересмотре правил использования моделей Gemini на платформе. По его словам, лимиты запросов для всех платных тарифов Gemini увеличиваются втрое на постоянной основе, а недельные квоты пользователей Antigravity будут сброшены и начислены заново. Изменения уже вступили в силу. Сообщение стало реакцией на критику со стороны разработчиков, недовольных функциональными ограничениями платформы и высоким расходом ресурсов при работе с ней. Мохан признал, что команда допустила ошибки при принятии ряда решений, и пообещал внимательнее учитывать обратную связь сообщества при дальнейшей доработке продукта. @ai_machinelearning_big_data #news #ai #ml

298 105

✔️Сэм Альтман форсирует выход OpenAI на IPO в сентябре OpenAI готовит заявку на первичное размещение акций на сентябрь. Сэм Альтман торопит процесс, несмотря на позицию финансового директора Сары Фрайар о необходимости дополнительного времени на подготовку. На этой неделе суд отклонил иск Илона Маска, обвинявшего OpenAI в незаконном переходе от некоммерческой лаборатории к коммерческой структуре. Закрытие дела устранило одно из юридических препятствий для листинга. Перед размещением OpenAI предстоит обосновать инвесторам бизнес-модель. Основные проблемы - затраты на дата-центры и невыполнение внутренних KPI по выручке и пользователям. На стратегию также влияет конкуренция: из-за темпов роста Anthropic в корпоративном секторе OpenAI пришлось корректировать план развития. wsj.com ✔️ Белый дом предлагает тестировать ИИ-модели за 90 дней до релиза Администрация США предложила внедрить систему добровольной оценки ИИ-моделей перед выходом на рынок. Инициативу обсуждали на закрытой встрече Управления национальной кибербезопасности США с руководителями ИИ-лабораторий. Новые правила предполагают передачу правительству доступа к флагманским моделям за 90 дней до релиза. Компании лоббируют сокращение окна тестирования до 14 дней. Критерии отбора систем определят АНБ, УНКБ и Управление по научно-технической политике. Аудит пройдет в конфиденциальном режиме при участии Министерства обороны США. Поводом для создания механизма стала Mythos от Anthropic. По данным спецслужб, на закрытых тестах система смогла эксплуатировать уязвимости нулевого дня, после чего ведомства ускорили разработку правил превентивного контроля. theinformation.com ✔️ Инструменты CapCut будут встроены в интерфейс Google Gemini Google добавит инструменты видеоредактора CapCut в интерфейс Gemini. Пользователи смогут монтировать видео и редактировать фото напрямую в диалоговом окне. Интеграция объединит этапы создания контента: генерацию идей, написание сценария через LLM, склейку и экспорт ролика в одном интерфейсе. Точная дата релиза совместного продукта пока неизвестна. Cupcut в сети Х ✔️ Gemini начнет генерировать контекстную рекламу в поиске Google Google тестирует диалоговые рекламные форматы в поиске на базе Gemini. В ИИ-режиме выдачи модель генерирует текст контекстного объявления с объяснением, как продукт решает задачу из запроса пользователя. Блоки сохранят обязательную пометку о спонсорстве. Интеграция включает несколько форматов: адаптация креатива под узкие запросы, встраивание коммерческих предложений в сгенерированные рекомендации и персональное обоснование для покупки товаров. Вместо статичных форм сбора лидов Google добавила встроенного в объявление интерактивного чат-бота, который отвечает на вопросы по базе знаний сайта компании. В рамках программы Direct Offers, Gemini научилась динамически собирать персональные скидочные наборы. Продавцы, работающие по протоколу UCP смогут закрывать сделки через чекаут напрямую в поисковом интерфейсе. blog.google ✔️ AMD представила процессоры Ryzen AI Max 400 Новая серия построена на базе архитектуры Strix Halo. Чипы поддерживают до 192 ГБ объединенной памяти стандарта LPDDR5X по 256-битной шине и допускают ручное выделение до 160 ГБ в качестве видеопамяти для встроенной графики. Это позволяет локально запускать LLM размером 300 млрд параметров. Флагманский 16-ядерный чип Ryzen AI Max+ PRO 495 работает на частоте до 5,20 ГГц. Встроенный GPU RDNA 3.5 задействует 40 вычислительных блоков на частоте до 3,00 ГГц. Производительность интегрированного NPU составляет 55 TOPS. В серию также вошли младшие модели с графикой на 32 блока: 12-ядерный PRO 490 и 8-ядерный PRO 485. Релиз потребительских версий запланирован на конец года. techpowerup.com @ai_machinelearning_big_data #news #ai #ml

298 105

🌟 Embedded Language Flows: диффузия для текста оживает Команда из MIT показала, что непрерывная диффузия для текста может быть не просто теоретической выкладкой на бумаге - модель на 105M параметров по их замерам бьёт более крупные (~170M) дискретные и непрерывные DLMs, тратя на порядок меньше данных на обучение и меньше шагов на генерацию. В отличие от картинок и видео, где диффузионки рулят, с текстом всегда была беда из-за дискретности токенов. В ресёрче популярны Diffusion Language Models, а непрерывные подходы буксовали. ELF предлагает пересобрать архитектуру так, чтобы непрерывная диффузия наконец поехала. Идея методики в том, чтобы модель перестала мучить дискретные токены на каждом шаге денойзинга: 🟠Берём замороженный энкодер (T5) и переводим дискретные токены в непрерывное пространство эмбеддингов. В инференсе его не будет, он нужен только на обучении. 🟠Запускаем Flow Matching. На протяжении всего процесса инфернса модель сидит в непрерывном пространстве, решая ODE/SDE. 🟠Дискретизация обратно в текст происходит строго на финальном шаге, при этом отдельный декодер не нужен, веса шарятся с основным денойзером. А ещё в процесс замечательно встаёт классический CFG.

В дискретных моделях CFG был малоизучен и работал заметно хуже, а здесь нормально рулит балансом качества и разнообразия генерации.

🟡Результаты тестов 🟢Метод обходит топовые дискретные (MDLM, Duo) и непрерывные (FLM, LangFlow) DLMs по генеративной перплексии и делает это, будучи меньше по размеру. 🟢На обучение понадобилось всего 45B токенов. Конкурентам нужно примерно в 10 раз больше. 🟢ELF бьёт даже дистиллированные версии конкурентов (few-step версия FLM, Duo с дистилляцией DCD) на малом числе шагов - хватает 32 шагов с SDE. 🟢Хорошие метрики на задачах с условием (то есть когда генерация опирается на вход): BLEU 26.4 в машинном переводе (WMT14 De-En) и лучшие ROUGE-цифры в XSum среди сравниваемых вариантов. 🟡Дисклеймер

Это пруф-оф-концепт. Самая большая протестированная модель ELF-L содержит всего 652M параметров. Внутри тестового диапазона (105M → 652M) скейлинг работает и улучшает метрики, но как поведёт себя метод на 7B–70B - неизвестно.

Так что, если под рукой есть пара свободных кластеров H100 и интерес попробовать что-то новое - код открыт, метод описан, можно смело заниматься. Доступны и тестовые чекпоинты из пейпера. 📌Лицензирование: MIT License 🟡Arxiv 🟡Набор моделей 🖥GitHub @ai_machinelearning_big_data #AI #ML #Diffusion #ELF #MIT

298 105

Если вам интересен соревновательный ML — у Яндекса скоро завершается регистрация на Yandex ML Challenge. Формат довольно приятный: длинный онлайн-тур без жёсткого тайминга на несколько часов. Можно спокойно подумать над решениями и потестить разные подходы. Из задач: — LLM / foundation models — CV — RL — оптимизация нейросетей Старт — 21 мая. На всё дают 11 дней и 40 сабмитов на каждую задачу. Топ-100 участников попадут в очный финал на Young Con в Москве. Победителю — 1 млн рублей, топ-15 получат устройства от Яндекса. В целом выглядит как хороший повод проверить себя на актуальных ML-задачах и посмотреть, что делают другие участники. Регистрация ещё открыта.

298 105

✔️ Alibaba выпустила Qwen 3.7 max. Бенчмарки - выглядят впечатляюще. Модель 35 часов работала автономно. Сделала 1158 обращений к инструментам. И ускорила один проект в 10 раз - конкретно attention-ядро (это часть, которая отвечает за «внимание» внутри нейросети). Модель просто долго и упорно крутила один и тот же цикл: скомпилировать → замерить, где тормозит → переписать. И так по кругу, пока не стало быстрее. Одна чётко поставленная задача - главный критерий успеха. Qwen утверждает, что агентные способности модели могут обобщаться из разнообразных тренировочных сред примерно так же, как языковые способности обобщаются из разнообразного текста. То есть модель учится не просто отвечать, а переносить паттерны действий между задачами, инструментами и средами. 📖 Blog: https://qwen.ai/blog?id=qwen3.7 ✅ Qwen Studio: https://chat.qwen.ai/?models=qwen3.7-max ⚡️ API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-max&serviceSite=international @ai_machinelearning_big_data #qwen

298 105

30 мая — день открытых дверей Школы естественных наук ЦУ Новая программа ШЕН «ИИ в биотехе» реализуется совместно с инженерной школой и факультетом биоинженерии и биоинформатики МГУ, а также индустриальными партнерами: Genotek и BIOCAD. Она идеально подойдет для тех, кто хочет применять математику, код и машинное обучение в биологии и медицине. Что будет на мероприятии: — Покажем, как ИИ применяется в биотехе: от анализа геномов до дизайна лекарств; — Расскажем о продуктовом подходе в высшем образовании, новом наборе и грантовом конкурсе 2026; — Подробно расскажем про магистратуру: курсы, преподаватели, формат обучения. Получи грант в день мероприятия! В день открытых дверей будет действовать «One-day-offer» — 30 мая можно будет пройти собеседование и получить решение о гранте. Расписание дня открытых дверей: 15:30–17:00 — основная программа 17:00–19:00 — собеседования и one-day-offer Место проведения: кампус Центрального университета Хочешь узнать все о Школе естественных наук и поступить в магистратуру с грантом в тот же день? Приходи! Регистрация на день открытых дверей по ссылке

298 105

✔️ DeepSeek планирует создать собственного кодинг-агента Китайская компания приступила к разработке инструмента, который будет конкурировать с Claude Code от Anthropic, Codex от OpenAI и редактором Cursor. Об этом сообщил в объявлении о найме сотрудник компании Дели Чэн в соцсети X. Согласно вакансиям, в Пекине формируется новая команда под названием Harness, которая займётся разработкой продукта с рабочим названием DeepSeek Code. DeepSeek ищет менеджера продукта и R&D инженера. От обоих кандидатов требуется опыт работы с Claude Code, Cursor, Codex или GitHub Copilot. Менеджер продукта возьмёт на себя дорожную карту, анализ обратной связи и развитие сообщества пользователей. В числе обязательных компетенций: понимание агентных циклов, протокола MCP, многоагентных систем и инженерии контекста, а также практический опыт вайб-кодинга. @ai_machinelearning_big_data #news #ai #ml

298 105

Почему в ML смена прикладной области не означает смену профессии Когда ML-инженер приходит в новый проект, он может переживать, что потеряет накопленную экспертизу из-за другого контекста задач. Однако опыт выпускницы ШАДа Даримы Мылзеновой показывает, что этот страх не оправдан: она успела поработать в медицине, нефтянке, сфере синтеза речи и финтехе, сохранив единый рабочий инструментарий. Выбрали главное из ее недавнего интервью для 8бит. 🟡У задач из разных проектов одинаковые методы решения В ML меняется только физический смысл данных, поэтому наработанный инструментарий можно последовательно переносить в разные сферы, в которых заинтересован инженер. 🟡Байесовская гибкость как рабочая установка В начале карьеры Дариме казалось, что модели почти всемогущие. Потом пришло осознание, что все зависит от объема и разнообразия данных. Затем появились LLM — и то, что вчера было невозможным, вдруг заработало. Поэтому Дарима руководствуется принципом «байесовской гибкости»: у нее есть априорное представление о границах ML, а новые наблюдения его корректируют. 🟡Главный урок от работы в стартапе — не технический Стартап становится отличной проверкой сил: задачи здесь меняются быстро, и нужно уметь мгновенно включаться в незнакомый контекст. В такие моменты выручает подход, сформированный Даримой в ШАДе, — «все можно понять, если сесть и разобраться». Однако без устойчивой бизнес-модели проекта работать тяжело даже профессионалу. Неопределенность быстро ведет к выгоранию, поэтому Дарима сделала выбор в пользу корпоративной среды. 📌 Полное интервью @ai_machinelearning_big_data #ML #Interview #ШАД #Career

298 105

✔️ OpenAI и Google DeepMind объединили C2PA и SynthID для маркировки ИИ-контента Компании совместно внедрили технологию водяных знаков SynthID в изображения, создаваемые через ChatGPT, Codex и корпоративные API. Решение дополняет криптографические подписи стандарта C2PA, которые теряются при конвертации форматов или сохранении скриншотов. SynthID встраивает невидимые маркеры на уровне пикселей и метка сохраняется после обработки и сжатия графики. Для проверки контента OpenAI запустила превью веб-инструмента. Система анализирует загруженные файлы на наличие метаданных C2PA и скрытых маркеров SynthID, определяя генеративное происхождение изображения. openai.com ✔️ Anthropic научила Claude обращаться к виртуальной "совести" Anthropic добавила механизм проверки этических ограничений в процессе генерации ответа Claude. Обновление разработано после консультаций с философами и теологами для доработки базовой конституции модели и снижения склонности к сикофантии. Инструмент реализован как внешняя функция - модель вызывает ее во время формирования ответа, чтобы получить напоминание о заданных ограничениях. На внутренних тестах Claude начал самостоятельно обращаться к инструменту перед выполнением потенциально опасных команд, фиксируя конфликт интересов. Интеграция дополнительного шага в цикл вывода снизила количество некорректных действий LLM. anthropic.com ✔️ Stability AI выпустила семейство аудиомоделей Stable Audio 3.0 Третье поколение моделей для генерации аудио построено на базе архитектуры с семантико-акустическим автоэнкодером и состоит из 4 вариаций. Small SFX, Small и Medium) опубликованы на Hugging Face. Флагманская Large (2,7 млрд параметров) доступна только через API и по корпоративной лицензии. Модель Medium (1,4 млрд параметров) генерирует трек длиной более 6 минут за 1,31 секунды на GPU H200. Версии Small (459 млн параметров) оптимизированы для локального запуска на смартфонах и ПК. Помимо генерации доступны инпэйнт отдельных фрагментов, бесшовное продление треков и файн-тюнинг с помощью LoRA. Модели обучались на лицензионных данных, коммерческое использование создаваемого аудио легально в рамках лицензии. stability.ai ✔️ Alibaba добавила анализ видео в систему синхронного перевода Qwen3.5-LiveTranslate Китайский техногигант представил мультимодальную модель синхронного перевода Qwen3.5-LiveTranslate на базе архитектуры Qwen3.5-Omni. Система понимает текст на 60 языках и генерирует речь на 29. Модель учитывает визуальный контекст видеоряда в реальном времени для разрешения семантических неоднозначностей в речи. Встроено клонирование голоса: нейросеть генерирует перевод с сохранением тембра и интонации оригинального спикера. Для обработки аудио с сильным акцентом или фоновым шумом добавлен механизм ключевых слов, который позволяет передавать в поток перевода жестко заданные специфические термины, имена и названия брендов. Демоверсия доступна на платформе Qwen Omni. Релиз API в облаке Alibaba Cloud ожидается в ближайшее время. qwen.ai ✔️ Китай неожиданно запретил ввоз видеокарт NVIDIA RTX 5090 D v2 Таможня КНР прекратила выдачу разрешений на импорт видеокарт NVIDIA RTX 5090 D v2. Легальные поставки и продажи устройств остановлены. NVIDIA разработала эту модель специально для китайского рынка, чтобы вписаться в экспортные ограничения США. Ради соответствия требованиям компания урезала VRAM графического ускорителя с 32 до 24 ГБ. Поскольку карта создавалась исключительно для Китая, официальный сбыт закрыт. Ожидается, что уже произведенные партии попадут на черный рынок или будут модифицированы местными ИИ-компаниями под свои задачи. Самым мощным решением NVIDIA, доступным китайским пользователям, остается RTX 5080, а локальные чипы пока уступают флагманам американской компании в производительности. hkepc.com @ai_machinelearning_big_data #news #ai #ml

298 105

ИИ от OpenAI опроверг гипотезу Эрдёша, которой почти 80 лет OpenAI показала редкий для ИИ результат: внутренняя модель самостоятельно нашла контрпример к известной задаче из дискретной геометрии, которую Пал Эрдёш сформулировал ещё в 1946 году. Суть задачи простая: есть n точек на плоскости. Нужно понять, сколько пар точек могут находиться ровно на расстоянии 1 друг от друга. Долгое время считалось, что почти оптимальный ответ дают конструкции, похожие на квадратную решётку. Модель OpenAI показала, что это неверно. Она построила бесконечное семейство конфигураций, где таких пар получается заметно больше, чем ожидалось. То есть была опровергнута не мелкая техническая деталь, а известная гипотеза, вокруг которой десятилетиями строились оценки. Модель связала задачу о точках на плоскости с алгебраической теорией чисел. В доказательстве используются решётки Минковского (способ превратить числа из алгебраической теории чисел в точки в обычном евклидовом пространстве), элементы нормы один и pro-3 башни числовых полей. Это инструменты из другой части математики, и именно их перенос в геометрию дал результат. Нога Алон из Принстона отметил, что ответ оказался неожиданным, а применённые методы выглядят элегантно и нетривиально. При этом доказательство не даёт нового «чисто геометрического» метода, на который многие надеялись. Гипотеза опровергнута, но сама структура задачи стала ещё интереснее. Задачу сформулировал ИИ, решение сгенерировала внутренняя модель OpenAI, первичная проверка тоже прошла через автоматический ИИ-пайплайн. После этого люди проверили детали, улучшили изложение и довели работу до публикации. Модель сама нашла неочевидную связь между разными областями математики и получила результат по открытой задаче высокого уровня. Оригинал: https://openai.com/index/model-disproves-discrete-geometry-conjecture/ @ai_machinelearning_big_data

298 105

«На моей нейросети всё компилировалось». @ai_machinelearning_big_data

298 105

🌟 Nous Research придумала метод предобучения LLM с заявленным ускорением в 2–3 раза Исследовательская группа опубликовала описание метода Token Superposition Training, который, по утверждению авторов, ускоряет предобучение больших языковых моделей в 2–3 раза по реальному времени при неизменном объёме вычислений. 🟡Суть метода авторы описывают так На первые 20–40% обучения модель обрабатывает не отдельные токены, а батчи из нескольких идущих подряд токенов, их векторные представления усредняются на входе, а на выходе применяется модифицированная функция потерь. Никакого отбора по смыслу, частоте или содержанию нет - деление чисто механическое, по позиции в тексте. Внутри бвтча порядок токенов отбрасывается. Модель не учится предсказывать, какой токен стоит на какой конкретной позиции в ближайшем будущем, - только то, какие токены вообще там встречаются.

Размер батча - один из двух ключевых параметров метода. Оптимальное значение растёт вместе с размером модели: для 270 млн параметров оно лежало в диапазоне от 3 до 8 токенов, а для 10 млрд равнялось 16

Оставшуюся часть обучения модель переводят на обычный режим предсказания следующего токена. По словам Nous Research, готовая модель на инференсе ничем не отличается от обученной стандартным способом - архитектура, оптимизатор, токенизатор или набор данных не изменяются. Метод протестили на моделях 4-х размеров: 270 млн, 600 млн и 3 млрд параметров, а также на 10 миллиардной MoE. В самом крупном эксперименте модель с TST достигла более низкого значения лосса, чем сопоставимая по вычислениям базовая модель, примерно за 40% времени и показала лучшие результаты на тестах HellaSwag, ARC и MMLU. 🟡Ограничения TST расходует обучающие данные быстрее обычного, поскольку модель переваривает больше текста. Если обучающих данных мало, метод становится контрпродуктивным. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #Pertrain #TST #NousResearch

298 105

🌟 На ЦИПР Digital-2026 в номинации «Зелёная цифра» победил проект по поиску борщевика с помощью ИИ и спутниковых снимков. Решение разработал Яндекс — сервис использует computer vision-модель, обученную на датасете из 10 тысяч снимков. Нейросеть автоматически размечает очаги заражения и делает это примерно в 50 раз быстрее ручного поиска. С технической точки зрения кейс интересен тем, что ИИ здесь используется для практической обработки спутниковых снимков и анализа геоданных. Сервис уже помог обнаружить крупные очаги заражения в 18 регионах России и сейчас мониторит территории Тверской и Ярославской областей общей площадью около 100 тыс. км². Вообще, хороший пример того, что ИИ – это не только чат-боты, генерация изображений и code assistants. Компьютерное зрение и спутниковые данные становятся рабочим инструментом для экологии, мониторинга территорий и управления природными рисками. @ai_machinelearning_big_data #news #ai #ml

298 105

✔️ Агенты Claude получили поддержку локальных песочниц и MCP-туннелей Anthropic добавила песочницы и MCP-туннели в платформу Claude Managed Agents. Корпоративные клиенты получили возможность выполнять код агентов внутри собственной инфраструктуры. Локальные песочницы нужны для обработки конфиденциальных файлов в закрытом контуре. Поддерживается интеграция сCloudflare, Daytona, Modal и Vercel. MCP-туннели обеспечивают подключение агентов к внутренним базам данных и приватным API. Соединение со сквозным шифрованием устанавливается только на выход - открывать порты или менять правила брандмауэра не требуется. Полностью on-premise развертывание не поддерживается. Оркестрация, управление контекстом и обработка ошибок остаются на серверах Anthropic. Локальные песочницы доступны в стадии открытой беты, MCP-туннели предоставляются по запросу. claude.com ✔️ Prime Intellect открыла код General-Agent General-Agent - синтетическая среда для генерации тренировочных данных ИИ-агентов без участия разметчиков. Решение заменяет датасеты на динамическую генерацию с автоматической семантической валидацией. В основе системы лежит соревновательный подход между двумя моделями. "Синтезатор" конструирует задания с базами данных и функциями проверки, а "решатель" пытается их выполнить. Эволюция задач проходит пять уровней сложности. Простые сценарии обрастают дополнительными условиями, перекрестными связями и инструкциями. Платформа сохраняет задачи, которые алгоритм решает с заданным порогом вероятности. Самые сложные кейсы используются для генерации следующего раунда. Дообучение 30-миллиардной модели на собранных в General-Agent траекториях повысило точность вызова инструментов в бенчмарке BFCL с 18,9% до 52,3%. primeintellect.ai ✔️ Mythos научилась связывать мелкие баги в эксплойты в тестах Cloudflare Mythos Preview проанализировала более 50 репозиториев Cloudflare. Основной результат - модель научилась связывать мелкие разрозненные баги в рабочие эксплойты. CISO Cloudflare рассказал, что предыдущие поколения алгоритмов выявляли единичные ошибки, но не могли собрать их в вектор атаки. Mythos снизила долю ложных срабатываний и генерирует шаги для воспроизведения уязвимостей с минимальным участием инженеров. Для поиска Cloudflare развернула архитектуру Project Glasswing из 50 параллельных агентов. Система использовала состязательный подход: один агент генерировал вектор атаки, второй его опровергал. cloudflare.com ✔️ Mistral купил стартап Emmi для выхода на рынок физических симуляций Французский разработчик ИИ приобрел австрийский стартап Emmi AI, который создает ИИ-модели для симуляции физических процессов. Сумма сделки не раскрывается. В 2025 году Emmi AI привлек €15 млн инвестиций. Модели Emmi просчитывают аэродинамику, теплообмен и сопротивление материалов. CEO Mistral заявил, что интеграция технологий нацелена на аэрокосмическую отрасль, автомобилестроение и производство полупроводников. Сделка расширяет промышленное направление Mistral. Компания уже предоставляет решения для ASML, Stellantis и Veolia: алгоритмы выявляют дефекты на сборочных линиях и управляют роботизированными манипуляторами. emmi.ai ✔️ Сооснователь Anthropic выступит на презентации первой энциклики Ватикана об ИИ 25 мая Ватикан представит энциклику об ИИ "Magnifica Humanitas". В презентации примет участие сооснователь Anthropic и исследователь интерпретируемости моделей Крис Ола. Документ затрагивает защиту человеческого достоинства, влияние алгоритмов на труд и осуждает применение ИИ в военных конфликтах. Привлечение Олы связывает теологическую повестку с технической проблемой ИИ-безопасности. Выход документа приурочен к годовщине исторической энциклики о правах рабочих эпохи Промышленной революции. Таким образом Ватикан приравнивает развитие ИИ к аналогичному по масштабам социальному сдвигу, требующему этических ограничений. reuters.com @ai_machinelearning_big_data #news #ai #ml

298 105

Google выкатили сразу два больших релиза: Gemini Omni и Gemini 3.5 Flash Похоже, Google снова пытается перехватить повестку в ИИ. Первый релиз - Gemini Omni. Это семейство мультимодальных моделей, которые работают почти со всем сразу: текстом, кодом, изображениями, видео и даже виртуальными мирами. Модель может принимать разные типы контента и не просто «понимать» их, а редактировать, дополнять и превращать в новые форматы: - добавить эффекты в видео со смартфона - сделать картину из грубого наброска - собрать образовательный подкаст по фото - работать с кодом, текстом, визуалом и видео в одном контексте Первая модель семейства - Gemini Omni Flash - должна стать доступна уже сегодня. Второй релиз - Gemini 3.5 Flash. Google называет её своей самой сильной моделью для агентов и кодинга. Главное отличие - не просто быстрые ответы, а способность планировать работу по большим кодовым базам, рассуждать на длинной дистанции и запускать subagents параллельно. По словам Google DeepMind, Gemini 3.5 Flash обходит 3.1 Pro на agentic и coding-бенчмарках вроде Terminal-Bench 2.1, GDPval-AA и MCP Atlas, при этом стоит заметно дешевле фронтирных моделей. Если коротко: - Gemini Omni - модель для всего: текст, код, картинки, видео, миры - Gemini 3.5 Flash - ставка на агентов, кодинг и работу с большими проектами - Google явно двигается не в сторону «чатбота», а в сторону моделей, которые реально что-то делают Интересно, насколько хорошо он будет работать как исполнитель: в IDE, браузере, видео, агентных workflow и реальных продуктах. Релиз https://x.com/GoogleDeepMind/status/2056786446636212467 Попробовать: https://gemini.google.com/app

298 105

Repost from Анализ данных (Data analysis)

Андрей Карпаты перешёл в Anthropic Один из самых известных людей в индустрии - сооснователь OpenAI, бывший директор по ИИ в Tesla, автор легендарных лекций по нейросетям - официально объявил о переходе в Anthropic. В твите он написал, что ближайшие несколько лет на фронтире LLM будут особенно формирующими, и он рад вернуться к R&D в команде Anthropic. Образовательные проекты, включая Eureka Labs, обещает не бросать и вернуться к ним позже. Карпаты последние пару лет фактически был «свободным агентом» - выпускал собственные туториалы, строил Eureka Labs, считался одной из самых независимых фигур в ИИ. Его выбор в пользу Anthropic, а не OpenAI, xAI или Google, многое говорит о том, где сейчас концентрируется самая интересная исследовательская работа. С учётом недавнего policy paper Anthropic про 2028 год и фронтирные модели - у компании явно идёт серьёзная фаза найма под большие задачи. https://x.com/karpathy/status/2056753169888334312 @data_analysis_ml

298 105

Бывший CEO Google Эрик Шмидт выступил на выпускной церемонии Университета Аризоны с речью про ИИ. Когда он сказал:

Вам не обязательно интересоваться ИИ. Какую бы карьеру вы ни выбрали, ИИ всё равно будет ее частью.

И зал раздался свистом. Студенты воспринимают это так:

Вам придётся конкурировать с машинами за вашу первую работу.

Но с другой стороны, они находятся в лучшей позиции, чем предшественники и могут использовать мощные ИИ-инструменты уже на самом старте своей карьеры.

298 105

✔️ Black Forest Labs запустила MCP-сервер Сервер доступен по адресу mcp.bfl.ai и позволяет создавать и редактировать изображения в чат-клиентах, поддерживающих этот протокол. Заявлена совместимость с Claude, Cursor, Codex, Windsurf и другими MCP-клиентами. MCP-сервер предоставляет несколько инструментов: генерацию до 8 изображений параллельно, создание вариаций на основе предыдущего результата, просмотр истории запросов и проверку остатка средств на счёте. Нужную модель клиент выбирает автоматически в зависимости от запроса. Доступно несколько моделей линейки FLUX.2: от быстрой Klein до топовой Мax. По умолчанию используется Flux2 Pro. Оплата, согласно документации, производится напрямую BFL: счёт выставляется той организации, которая была выбрана при авторизации. Актуальные тарифы - на странице bfl.ai/pricing. @ai_machinelearning_big_data #news #ai #ml