Machinelearning

Open in Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Network:Machinelearning Russia1 260 Technologies & Applications323...

📈 Analytical overview of Telegram channel Machinelearning

Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 297 959 subscribers, ranking 323 in the Technologies & Applications category and 1 260 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 297 959 subscribers.

According to the latest data from 11 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -7 224 over the last 30 days and by -206 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 7.69%. Within the first 24 hours after publication, content typically collects 5.95% reactions from the total number of subscribers.
Post reach: On average, each post receives 22 918 views. Within the first day, a publication typically gains 17 745 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 176.
Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Thanks to the high frequency of updates (latest data received on 12 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

297 959

Subscribers

-20624 hours

-1 5177 days

-7 22430 days

22 918

Post views

~ 17 74524 hours

~ 20 01448 hours

7.69%

Engagement rate

~ 6

Posts per day

Ads index

beta

Posts Archive

297 947

🌟 Google DeepMind выпустила Gemini Robotics-ER 1.6 Gemini Robotics-ER 1.6 - обновлённая модель воплощенного ризонинга, которая отвечает за пространственное понимание, планирование задач и детекцию успеха робота, но сама не управляет приводами.

За моторные команды по-прежнему отвечает отдельная VLA-модель Gemini Robotics 1.5. ER-версия лишь подсказывает ей, что и в каком порядке делать, и при необходимости вызывает внешние инструменты (от поиска Google Search пользовательских функций.

🟡Чтение приборов Совместно с Boston Dynamics в DeepMind научили модель интерпретировать аналоговые манометры, уровнемеры, смотровые стёкла и цифровые табло.

Задача нетривиальная: нужно распознать стрелки, риски, единицы измерения и корректно сложить разряды, а для смотровых стёкол - оценить уровень жидкости с поправкой на перспективу камеры. Сценарий заточен под обходы промышленных объектов, которыми занимается робот Spot.

Точность достигается за счёт связки визуального ризонинга и исполнения кода. Модель сначала зумит целевой участок снимка, затем расставляет точки по ключевым элементам шкалы и через код считает пропорции и интервалы. На задаче чтения приборов Gemini Robotics-ER 1.6 с показывает 93%, без ризонинга - 86%. 🟡Подтянули базовые навыки 🟢Указание точных пиксельных координат стало точнее в счёте, обработке отношений «from-to», построении траекторий и выборе точек захвата. 🟢Заметно вырос успех детекции в мультикамерных сетапах, где сцену одновременно снимают обзорная камера и камера на манипуляторе. 🟢Модель стала лучше сопоставлять виды между собой и во времени, что критично в динамичных сценах: без надёжной детекции завершения шага агент не понимает, повторять ли попытку или переходить к следующему этапу плана.

По безопасности DeepMind заявляет лучший результат в линейке: модель стабильнее соблюдает физические ограничения и точнее распознаёт травмоопасные ситуации (+6% на текстовых сценариях и +10% на видео по сравнению с Gemini 3.0 Flash).

Gemini Robotics-ER 1.6 доступна через Gemini API и Google AI Studio. Deepmind также собрал Colab с примерами промптов для типовых задач воплощенного ризонинга. @ai_machinelearning_big_data #news #ai #ml

297 947

Роскошный максимум: получить приглашение в команду SberAds за один день! 😉 Сделать это можно на One Day Offer* для Data Analyst**, который пройдёт уже 25 апреля. Сбер ждёт специалистов, которые готовы: ✔️ создавать и улучшать модели для real-time аукционов ✔️ трансформировать SberAds — вывести на пик эффективности, качества и релевантности рекламы ✔️ стать частью команды из 8000+ коллег (это вау! 🤩) Занимай место в проекте мечты! * One Day Offer — предложение о работе за один день. ** Data Analyst — аналитик данных.

297 947

За моторные команды по-прежнему отвечает отдельная VLA-модель Gemini Robotics 1.5. ER-версия лишь подсказывает ей, что и в каком порядке делать, и при необходимости вызывает внешние инструменты (от поиска Google Search пользовательских функций.

Задача нетривиальная: нужно распознать стрелки, риски, единицы измерения и корректно сложить разряды, а для смотровых стёкол - оценить уровень жидкости с поправкой на перспективу камеры. Сценарий заточен под обходы промышленных объектов, которыми занимается робот Spot.

По безопасности DeepMind заявляет лучший результат в линейке: модель стабильнее соблюдает физические ограничения и точнее распознаёт травмоопасные ситуации (+6% на текстовых сценариях и +10% на видео по сравнению с Gemini 3.0 Flash).

297 947

✔️ ElevenLabs анонсировала локальное развертывание моделей. Платформа открыла ранний доступ к 2 вариантам деплоя: 🟢On-Premise - для стандартных серверов с GPU, 🟢On-Device - для edge-устройств и систем с поддержкой NPU, ARM-чипов и бюджетных видеокарт. Обе версии работают с более чем 30 языками. Инференс и обработка аудио будут выполнятся целиком внутри инфраструктуры клиента. Лицензионная валидация и телеметрия опциональны вплоть до полностью изолированных контуров. Обещают доступность тонкой настройки под конкретные языки и диалекты. Обновления в этих вариантах развертывания будут поставляться по контролируемому графику. Пока открыта запись в лист ожидания, срок запуска - без даты, но указано что в первой половине 2026 года. Тарификация индивидуальная: лицензия плюс оплата по использование. @ai_machinelearning_big_data #news #ai #ml

297 947

⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде! Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»? Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright. И 90% таких систем ломаются между ноутбуком и продом. AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker. На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят. 👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/

297 947

⚡️ OpenAI обновила Agents SDK Вышло крупное обновление Agents SDK и главное изменение в том, что агенты теперь могут читать и записывать файлы, устанавливать зависимости, запускать код и обращаться к внешним инструментам, а не ограничиваться диалогом с пользователем. В обновлённый исполнительный каркас добавлены настраиваемая память, оркестрация с учётом песочниц и встроенные инструменты работы с файловой системой. Эти возможности ранее были характерны для Codex. Помимо этого, SDK поддерживает вызов инструментов через MCP, пользовательские инструкции AGENTS.md и прогрессивные объявления возможностей Skills. Из коробки SDK работает с 7 провайдерами песочниц: Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop и Vercel. Есть возможность подключить и собственную инфраструктуру. Новая абстракция Manifest описывает рабочее пространство агента единообразно - позволяет монтировать локальные файлы, задавать каталоги вывода и подключаться к облачным хранилищам AWS S3, Google Cloud Storage, Azure Blob Storage и Cloudflare R2. По заявлению компании, одна и та же конфигурация работает и при локальной разработке, и при развёртывании в рабочей среде. Архитектурно SDK отделяет логику управления агентом от среды, в которой выполняется его код, в результате чего: 🟢учётные данные не попадают в среду исполнения сгенерированного моделью кода, что снижает риски промпт-инъекций и утечек данных; 🟢вынесенное состояние агента позволяет делать снимки и восстанавливать работу при сбое контейнера песочницы; 🟢несколько субагентов могут выполнять задачи параллельно в разных контейнерах. Обновление доступно всем пользователям API и тарифицируется по стандартной схеме - за токены и вызовы инструментов. Пока поддерживается только Python. Выпуск TypeScript-версии, по словам OpenAI, запланирован на более поздний срок. @ai_machinelearning_big_data #news #ai #ml

297 947

📌 The Nation связывает сокращение научного финансирования в США с ростом ИИ-платформ Издание The Nation опубликовало материал о связи между сокращением государственного финансирования науки в США и быстрым ростом индустрии, где исследователи с докторскими степенями выполняют задачи для обучения ИИ-моделей за почасовую плату. По данным Американской ассоциации содействия развитию науки, предложенный бюджет на 2026 финансовый год предусматривал сокращение финансирования Национальных институтов здравоохранения на 40%, Национального научного фонда - на 57%, NASA - на 24%. Конгресс частично откатил эти меры, однако, по данным журнала Science, за последний год федеральную службу покинули более 10 тыс. сотрудников с PhD в STEM-дисциплинах.

Университетские лаборатории, как сообщает The Atlantic, увольняли сотрудников и сворачивали исследования.

The Nation связывают эту политику с венчурными инвесторами, близкими к Белому дому, прежде всего с Питером Тилем и Марком Андриссеном.

В утечке переписки, опубликованной The Washington Post в 2025 году, Андриссен призвал подвергнуть Национальный научный фонд «бюрократической смертной казни».

Сами Тиль и Андриссен публично обосновывают свою позицию тем, что академическая наука, по их мнению, стала забюрократизированной и утратила продуктивность.

Тиль в интервью Hoover Institution утверждал, что число PhD за столетие выросло в 100 раз, тогда как темп научного прогресса почти не изменился

Одновременно растёт рынок платформ, нанимающих учёных для подготовки данных и проверки ответов ИИ-моделей.

По словам всех опрошенных изданием исследователей, именно урезание федерального финансирования сделало для них почти недоступными позиции в академии: закрывались постдокторские ставки, исчезали летние стипендии, сворачивались гранты.

Обучение ИИ-моделей, в свою очередь, требует специалистов, способных составлять сложные задачи и проверять ответы на уровне эксперта с докторской степенью - и освободившийся в результате бюджетных сокращений пул кандидатов оказался удобным ресурсом для ИИ-платформ.

Реклама занятости в этих сервисов во многом повторяет приёмы Uber и Lyft: упор на гибкость, удалённый режим и «свободу»: в роликах учёные гуляют по лесу, читают в гамаках, а закадровый голос объясняет, что подработка позволяет «оставаться в профессии».

В реальности, опрошенные The Nation исследователи высказывают претензии к условиям работы у техно-гигантов. Объявленные ставки (от 30 до 90 долларов в час) на практике часто оказываются ниже из-за неоплачиваемого времени, лимитов на сложные задачи и отказа оплачивать неполные или неверные решения. @ai_machinelearning_big_data

297 947

Клод, когда я кидаю в него сложные задачи @ai_machinelearning_big_data #claude

297 947

✔️ DeepSeek впервые привлекает внешние инвестиции Китайский ИИ-стартап, до сих пор существовавший на деньги хедж-фонда High-Flyer, впервые ведёт переговоры о внешнем финансировании. DeepSeek рассчитывает привлечь минимум $300 млн, что выведет ее оценку за пределы $10 млрд. Раньше компания отказывала китайским VC, но теперь деньги нужны для закупки вычислений - обучение моделей дорожает быстрее, чем High-Flyer может финансировать. Параллельно стартап теряет инженеров. Один из авторов архитектуры V3 ушёл возглавить ИИ-направление в Xiaomi, исследователя Го Дая переманила ByteDance. С инфраструктурой тоже напряжённо. В апреле 2026 DeepSeek пережил 7-часовой сбой, который затронул 355 млн пользователей. Чтобы снизить зависимость от сторонних облаков, компания планирует строить собственный дата-центр во Внутренней Монголии. theinformation.com ✔️ OpenAI выпустила первую модель в новой серии Life Sciences GPT-Rosalind, названная в честь биофизика Розалинд Франклин, создана для ускорения разработки лекарств на ранних этапах поиска, улучшения выбора биологических мишеней и планирования экспериментов. Модель уже показала лучший результат на биологических бенчмарках BixBench и в закрытых тестах по прогнозированию функций РНК-последовательностей, где модель превзошла 95% исторических результатов экспертов-людей. Вместе с релизом OpenAI выложила на GitHub плагин Codex Life Sciences Research. Инструмент предоставляет доступ к более чем 50 базам данных и биологическим утилитам, причем его можно использовать в связке с любыми моделями общего назначения. Модель доступна в режиме preview участникам Trusted Access Program - корпоративным клиентам в США. openai.com ✔️ Anthropic исправила баг учёта лимитов в Opus 4.7 Anthropic устранила ошибку, из-за которой 5-часовые и недельные квоты в Opus 4.7 списывались быстрее, чем должны, особенно при длинных промптах. Баг существовал ещё в Opus 4.6, но в новой модели стал заметнее: Opus 4.7 перешёл на новый токенизатор, который тратит до 1,35× токенов на тот же текст. Вкупе с ошибкой биллинга лимиты сгорали почти мгновенно. В качестве компенсации Anthropic обнулила счётчики использования всем подписчикам. Но обрадовало это не всех. Недельная квота считается по индивидуальному 7-дневному окну, поэтому сброс был выгоден только тем, кто уже упёрся в потолок. Разработчики, которые берегли токены на сложные задачи к концу недели, из-за компенсации лишились накопленного запаса. ClaudeDevs в сети Х ✔️ Google показал фреймворк генерации синтетических датасетов Simula Google Research опубликовал в TMLR работу о фреймворке для генерации синтетических датасетов, который проектирует датасет целиком, с независимым управлением охватом, сложностью и качеством, а не наращивает примеры по одному. Simula работает без seed-данных: ризонинг-модель сама разворачивает домен в иерархическую таксономию, из каждого узла генерирует разные формулировки сценария. Часть промптов дополнительно усложняется, а корректность ответов проверяют 2 независимых критика, чтобы снизить сикофантию. Внутри Google Simula уже используется для обучения ShieldGemma, FunctionGemma, MedGemma, классификаторов Gemini, а также фильтров мошеннических звонков и спама в Android. research.google ✔️ Из OpenAI одновременно ушли 2 топовых сотрудника Об отставке объявили Билл Пиблз и Кевин Вейл. Пиблз руководил созданием видеомодели Sora: он стоял у истоков проекта, когда команда состояла всего из двух человек, и принимал непосредственное участие в развитии продукта вплоть до релиза Sora 2. Кевин Вейл, ранее занимавший пост директора по продукту, в октябре 2025 года перешел в исследовательский блок, где с нуля запустил направление OpenAI for Science. Из-за его ухода профильный научный отдел решено расформировать, а инженеров и исследователей распределят по другим командам. В своем прощальном письме Вейл понадеялся, что ускорение научных открытий станет одним из главных и самых позитивных результатов на пути человечества к созданию AGI. Kevin Weil и Bill Peebles в сети Х @ai_machinelearning_big_data #news #ai #ml

297 947

🚀 Anthropic запустила Claude Design - отдельный продукт, который заточен на генерацию готовых макетов, прототипов, слайдов и сайтом. Под капотом Claude Opus 4.7, их самая сильная модель с пониманием визуала. Главная фишка не в генерации картинок, а в том, что Claude читает твою кодовую базу и дизайн-файлы, вытаскивает оттуда дизайн-систему продукта и дальше сам держит всё в рамках бренда. Никакого ручного объяснения, какие у вас шрифты, цвета и отступы. Пока это research preview на планах Pro, Max, Team и Enterprise, раскатка идёт в течение дня. Пробовать тут: claude.ai/design. Попробовать: claude.ai/design @ai_machinelearning_big_data #claude #Anthropic

297 947

📌 EvoMap обвинила Hermes Agent в копировании архитектуры. Команда EvoMap, разрабатывающая эволюционный движок для ИИ-агентов Evolver, опубликовала детальное техническое сравнение, в котором обвинила проект Hermes Agent от Nous Research в систематическом заимствовании архитектурных решений без указания источника.

Разрыв в популярности между проектами значителен: 88 тысяч звёзд на GitHub у Hermes Agent против 2 тысяч у Evolver.

В списке перечислены более 10 совпадений на уровне модулей: трёхуровневая система памяти с идентичным распределением ролей между слоями, замкнутый цикл автоматического извлечения переиспользуемого опыта, механизм периодической рефлексии, динамическое обнаружение и подгрузка навыков, десятишаговая оркестрация эволюционного цикла и ряд инженерных паттернов. Хронология, на которую опирается EvoMap: ключевой протокол GEP был раскрыт с 1 по 16 февраля в 136 релизах, а система навыков Hermes появилась лишь 12 марта. Аргументация EvoMap строится на вероятностной логике: каждое совпадение по отдельности объяснимо независимой конвергенцией - трёхуровневая память и извлечение опыта активно обсуждаются в сообществе ИИ-агентов, но их совокупность, по мнению авторов, выходит за рамки случайности. При этом EvoMap признает: 🟢репозиторий Hermes Agent создан в июле 2025 года, на полгода раньше Evolver; эволюционный модуль Hermes построен на фреймворке GEPA; 🟢стандарт Agent Skills предшествует обоим проектам; 🟢код написан на разных языках - JavaScript и Python Основатель Nous Research в ответ на претензии написал, что никогда не слышал ни о проекте, ни о его авторах, назвал сравнительный анализ «полной чушью», а позднее посоветовал EvoMap удалить свой аккаунт. На технические аргументы Nous Research не отвечала. Вслед за этим EvoMap выпустила открытое письмо, объявив о смене лицензии Evolver с MIT на GPL-3.0 и переходе к выпуску ключевых модулей в обфусцированном виде. Команда также признаёт, что судебное разбирательство с Nous Research ей не по силам. Главный тезис письма выходит за рамки конкретного спора: способен ли институт открытых лицензий работать, когда ИИ сводит стоимость воспроизведения кодовой логики почти к нулю?

При этом позиция EvoMap упирается в тупик: GPL-3.0 обязывает раскрывать код производных продуктов, но без текстуального пересечения полезность лицензии не срабатывают. Обфускация же блокирует вклад сообщества и противоречит самому принципу открытого кода.

@ai_machinelearning_big_data #news #ai #ml

297 947

Потанин: бюрократия замедляет развитие ИИ Владелец «Норникеля» Владимир Потанин рассказал о ML‑стеке компании в интервью «России 24». Это любопытный кейс того, как industrial AI уходит от «ещё один CV на конвейере» к собственным foundation‑моделям и ML‑driven R&D. ▪️ MetalGPT — доменная foundation model «Норникеля», обученная на отраслевых данных металлургии. Используется для предиктивной аналитики агрегатов и R&D новых материалов. ▪️ Продакшн‑инференс на заводе: нейросети управляют 70% агрегатов на обогащении и принимают решения в 100 раз чаще, чем операторы. По уровню внедрения ИИ «Норникель» — мировой топ‑3 вместе с Tata Steel и POSCO. ▪️ ML для материаловедения. Модели применяются для подбора замещений: палладий вместо платины и иридия (первые 500 кг уже ушли в Китай на стекловолокно). Следующий шаг — предсказание и дизайн кристаллической решётки палладия для получения металла с заданными свойствами. ▪️ Экономика: «десятки миллиардов рублей» эффекта в год, к 2030 — 50+ млрд. ▪️ Уровень внедрения ИИ в РФ втрое ниже среднемирового, Россия претендует на третье место после США и Китая. Потанин против жёсткой регуляторики: модели обновляются раз в 2–3 месяца, бюрократия убьёт темп.

297 947

✔️ Apple отправила инженеров Siri на обучение ИИ-кодингу Пытаясь преодолеть многолетнее технологическое отставание, компания запустила программу переобучения для почти 200 сотрудников. Инженеры на практике освоят Claude Code и Codex. После курсов структура команды поменяется: ядро разработки сформируют из 60 специалистов, ещё 60 человек переведут на мониторинг и безопасность продукта. Эти изменения завершают реорганизацию начала 2025 года - подразделение уже перешло под контроль старшего вице-президента по разработке ПО Крейга Федериги, а бывший глава ИИ-направления Джон Джаннандреа покидает Apple на этой неделе. Цель переобучения - релиз обновлённой Siri на летней конференции WWDC. theinformation.com ✔️ Windsurf добавила в редактор центр управления агентами и облачного ИИ-инженера Cognition выпустила крупное обновление IDE, смещающее акцент с написания кода на управление роем ИИ-агентов. Центральный элемент релиза - Agent Command Center, который собирает все запущенные агенты (локальные и облачные) на единой Kanban-доске с группировкой по статусу. Задачи организуются через Spaces: пространство объединяет сессии агентов, пул-реквесты, файлы и контекст проекта. Например, в одном Space локальная сессия прототипирует UI, а две облачных правят API и пишут тесты. Новые сессии наследуют накопленный контекст. Вторая часть релиза - автономный облачный агент Devin с собственной виртуальной машиной и браузером. Он ведёт задачи от отладки до деплоя и продолжает работать после выключения компьютера. Готовый PR можно отревьюить в Windsurf или передать локальному агенту на доработку. Devin включён во все тарифы, доступ разворачивается постепенно. windsurf.com ✔️ В Gemini CLI появилась поддержка субагентов Google добавил в утилиту систему специализированных ИИ-ассистентов: основной агент работает как координатор и делегирует ресурсоёмкие или рутинные задачи субагентам. Каждый из них работает в собственном окне контекста, использует индивидуальные системные инструкции и выделенный набор инструментов, включая серверы MCP. Многоэтапные операции выполняются автономно, а в главный чат возвращается только итоговый результат. Для ускорения субагенты могут запускаться параллельно. Из коробки доступны 3 базовых ассистента: универсального профиля, специалиста по анализу кодовой базы и эксперта по документации самой утилиты. Можно создавать кастомных агентов через Markdown-файлы с YAML-заголовками - конфигурации сохраняются локально или добавляются в репозиторий проекта для всей команды. googleblog.com ✔️ Alibaba анонсировала модель генерации 3D-миров в реальном времени Китайский ИТ-гигант представил модель Happy Oyster, способную создавать физически достоверные трёхмерные пространства и интерактивные видео, работая непрерывно и на лету реагируя на новые инструкции. Инструмент поддерживает два формата. «Режиссура» создает связный мир длительностью до 3 минут в 720p, позволяя менять ракурсы камер или действия персонажей через текст, голос или картинки. «Wandering» создает локацию, которую можно бесконечно расширять и исследовать от первого лица. Доступ предоставляется через лист ожидания на сайте проекта. happyoyster.cn ✔️ Adobe представила ИИ-ассистента Firefly Платформа Firefly пополнилась ИИ-агентом, который объединяет инструменты Creative Cloud в едином диалоговом интерфейсе. Достаточно описать результат текстом и ассистент сам выстроит и выполнит цепочку задач в Photoshop, Premiere, Illustrator и других программах. Агент обучается на предпочтениях автора и учитывает контекст текущих файлов. Параллельно обновился видеоредактор: добавлены инструменты очистки звука, цветокоррекции и прямая интеграция с Adobe Stock. Для изображений появились функция генерации визуальных вариаций и инструмент ИИ-разметки кистью. Также добавили модели Kling 3.0 - общий парк теперь превышает 30 моделей от разных поставщиков. Публичное бета-тестирование ассистента начнётся в ближайшие недели. adobe.com @ai_machinelearning_big_data #news #ai #ml

297 947

⭐️ Всего через час после выхода Opus 4.7 OpenAI выкатывают крупное обновление Codex. Теперь Codex умеет работать в фоне на macOS. Он кликает, печатает, ходит по файловой системе. Встроенный браузер, генерация изображений через gpt-image-1.5, постоянная память, долгоживущие автоматизации и больше 90 плагинов включая Atlassian, CircleCI и Microsoft Suite. Anthropic концентрируются на качестве модели. Claude Code остаётся топ инструментом разработчика. Codex заточен стать твоим ИИ для повседневных задач. Имхо, на этой неделе лидерство по качеству модели остаётся за Anthropic. https://x.com/OpenAI/status/2044827705406062670 @ai_machinelearning_big_data

297 947

⚡️ Anthropic выкатили Opus 4.7 Что поменялось: - лучше держит длинные задачи - точнее следует инструкциям - валидирует ответы перед выдачей То есть меньше «галлюцинаций на уверенном лице» и меньше необходимости перепроверять руками По бенчмаркам относительно 4.6: - SWE Bench Pro +11% - SWE Bench Verified +7% - Terminal Bench 2.0 +4% Без сюрпризов, но стабильный рост. Модель явно двигают в сторону автономной работы где её можно дольше держать в цикле без постоянного контроля Цифры ниже, чем у Mythos но это ожидаемо, там другая история с метриками и позиционированием https://x.com/claudeai/status/2044785261393977612 @ai_machinelearning_big_data

297 947

⚡️ Qwen3.6-35B-A3B - ставка на эффективную архитектуру, а не на размер 35B параметров, ~3B активных за счёт MoE. Главное: - по agentic coding показывает уровень моделей с ~10x большим активным объёмом - превосходит Qwen3.5-27B (dense) и предыдущую Qwen3.5-35B-A3B - нативно мультимодальная архитектура (text + vision) - в VLM-бенчмарках сопоставима с Claude Sonnet 4.5, в ряде задач выше - сильные метрики в задачах spatial reasoning Практическое значение: - MoE даёт кратное снижение compute без потери качества - подходит для агентных сценариев, где важны последовательные действия и планирование - можно использовать как единый стек для code + vision задач Apache 2.0 - без ограничений для продакшена qwen.ai/blog?id=qwen3.6-35b-a3b chat.qwen.ai huggingface.co/Qwen/Qwen3.6-35B-A3B modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

297 947

🌟 Lyra 2.0: фреймворк для генерации исследуемых 3D-миров по одной фотографии. NVIDIA опубликовала веса модели и код Lyra 2.0 - системы, которая принимает на вход изображение, генерирует видео с управляемой траекторией камеры, а затем реконструирует его в 3D-гауссианы и полигональные меши. Готовые ассеты можно напрямую импортировать в игровые движки и робототехнические симуляторы. Система будет полезна для массовой генерации тренировочных 3D-сред для воплощенного ИИ. Главная задача, которую решает фреймворк - сохранение согласованности сцены при длительном пролете камеры. Lyra 2.0 хранит 3D-геометрию каждого кадра в отдельном кэше, при возврате извлекает релевантные исторические кадры по степени перекрытия видимости и устанавливает плотные геометрические соответствия через варпинг канонических координат.

Геометрия используется только для маршрутизации информации - какие кадры извлечь и как их сопоставить с текущим ракурсом. За синтез внешнего вида отвечает диффузионная модель.

Базовая модель построена на архитектуре Wan 2.1-14B с выходным разрешением 832×480. Для 3D-реконструкции применяется дообученная версия Depth Anything v3 в feed-forward режиме, а поверхностные меши извлекаются через иерархический подход на основе OpenVDB.

На бенчмарках DL3DV и Tanks and Temples Lyra 2.0 превзошла все аналоги (GEN3C, CaM, SPMem, VMem, Yume-1.5 и HY-WorldPlay) практически по всем метрикам: FID, SSIM, LPIPS, субъективное качество и стилистическая согласованность.

Первая версия фреймворка, вышедшая в сентябре, поддерживала лишь генерацию на коротких дистанциях. Ближайший конкурент второй версии, Genie 3 от Google, обладает схожими возможностями, но остаётся закрытым. 🟡Страница проекта 🟡Arxiv 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI #ML #3DWorlds #Lyra2 #NVIDIA

297 947

✔️ OpenAI представила модель GPT-5.4-Cyber для специалистов по кибербезопасности В отличие от базовых версий, у модели снижен порог отказов: фильтры безопасности не блокируют запросы на поиск багов и оборонительное программирование. GPT-5.4-Cyber получила продвинутые возможности бинарного реверс-инжиниринга - исследователи могут анализировать скомпилированное ПО на наличие вредоносных компонентов и уязвимостей, даже не имея доступа к исходному коду. Из-за двойного назначения функционала доступ к модели строго регулируется. OpenAI распространяет новинку через программу Trusted Access for Cyber: нужна верификация личности, а корпоративным клиентам - одобрение профильного менеджера. openai.com ⚡️ Anthropic внедряет систему верификации личности Компания начала проверять личность пользователей в рамках регулярных процедур безопасности. Технический партнёр инициативы - сервис Persona. Для процедуры понадобится паспорт, водительские права или ID-карта, а также камера для селфи. Цифровые версии документов, ксерокопии и студенческие билеты система не принимает. В Anthropic обещают не использовать собранные данные для обучения ИИ-моделей. Фото документов и биометрия шифруются и хранятся на серверах Persona. Разработчик Claude выступает лишь контроллером данных и запрашивает доступ к записям только в спорных ситуациях - например, при апелляции на блокировку аккаунта. support.claude.com ✔️ World Labs выложила в опенсорс движок рендеринга 3D-сцен в браузере Стартап представил открытый рендерер Spark 2.0 на базе THREE.js и WebGL2, который плавно отрисовывает локации из 100 млн 3D-гауссианов прямо в браузере. Обычное железо с трудом переваривает больше пяти миллионов точек, поэтому разработчикам пришлось полностью перестроить пайплайн загрузки графики. Производительность обеспечивают три механизма. Иерархическая система детализации подбирает оптимальное количество гауссианов под выделенный бюджет рендеринга, сохраняя стабильный FPS. Тяжёлые ассеты обрабатываются стримингом: новый формат .RAD выводит базовый каркас, а затем динамически подтягивает детали в зависимости от угла обзора камеры. Память управляется через резервирование фиксированного пула на GPU и постраничного тасования блоков данных. Ядро Spark 2.0 написано на Rust, скомпилировано в WebAssembly и вынесено в фоновый Web Worker. Изначально это был внутренний инструмент для ИИ-генератора 3D-миров Marble, но теперь он общедоступен. worldlabs.ai ✔️ В Google Chrome добавили функцию Skills для промптов В десктопной версии Chrome появилась функция Skills: больше не нужно повторно вводить запросы к Gemini. Удачные промпты теперь можно сохранять из истории чата и запускать в один клик через слэш или кнопку плюса. Инструмент умеет обрабатывать как активную страницу, так и сразу несколько выбранных вкладок - это позволяет быстро сравнивать информацию или искать нужные данные в объёмных документах. Google также подготовил библиотеку готовых skills, каждый из которых можно кастомизировать. Новая функция разворачивается на macOS, Windows и ChromeOS для англоязычных пользователей. blog.google ✔️ Midjourney выпустила версию 8.1 ИИ-генератор изображений Midjourney обновился до версии 8.1. Главное нововведение - поддержка 2K. Создатели заявляют рост производительности в 3 раза по сравнению с V8, а стоимость генерации снизилась на две трети. В 1K-режиме V8.1 работает быстрее draft-режимов седьмого поколения модели. Помимо оптимизации архитектуры, Midjourney прислушались к критике пользователей и вернули платформе узнаваемую художественную эстетику. В арсенал инструментов снова добавлена функция image-to-image, временно отключённая в предыдущей сборке. Также команда обновила систему референсов стилей, доработала мудборды и представила обновлённую утилиту Describe для реверс-инжиниринга текстовых промптов по готовым изображениям. Midjourney в сети Х @ai_machinelearning_big_data #news #ai #ml

297 947

Google DeepMind представил Gemini 3.1 Flash TTS - свою самую настраиваемую модель синтеза речи Главная фишка - Audio Tags. Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст. Что ещё важно: — Более естественное звучание речи — Поддержка 70+ языков (русский, японский, немецкий и др.) — Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей) На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179). Где попробовать: → Рreview через Gemini API и Google AI Studio → Бизнесу -а Vertex AI → Всем пользователям - скоро появится в Google Vids https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/ @ai_machinelearning_big_data #google `#tts

297 947

🌟 Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут. Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях. 🟡Архитектура собрана из 4-х блоков: 🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц); 🟢Двухслойный MLP-адаптер; 🟢Qwen-2.5-7B с расширенным контекстом 128K токенов; 🟢Потоковый TTS-модуль для голосовых диалогов. Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение. 🟡Релиз состоит из 3-х версий AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам.

На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2. На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9.

AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода.

Именно она устанавливает новые планки среди LALM по ASR. WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.)

AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий).

75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4).

📌Лицензирование: NVIDIA OneWay Noncommercial License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #Audio #AudioFlamingo #NVIDIA