Machinelearning

Открыть в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Больше

Сеть:Machinelearning Россия1 272 Технологии и приложения329...

📈 Аналитический обзор Telegram-канала Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 296 427 подписчиков, занимая 329 место в категории Технологии и приложения и 1 272 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 296 427 подписчиков.

Согласно последним данным от 19 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 252, а за последние 24 часа — -213, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.08%. В первые 24 часа после публикации контент обычно набирает 5.74% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 23 972 просмотров. В течение первых суток публикация набирает 17 005 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 185.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Благодаря высокой частоте обновлений (последние данные получены 20 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

296 427

Подписчики

-21324 часа

-1 4247 дней

-6 25230 день

23 972

Просмотры поста

~ 17 00524 часа

~ 19 20848 часов

8.08%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

296 396

✔️ Тенденция регулирования ИИ меняется: техгиганты переходят от «стремления к регулированию» к «отказу от регулирования». Сэм Альтман, генеральный директор OpenAI, на слушаниях в Сенате заявил, что государственное одобрение для запуска мощных ИИ-систем губительно для технологического лидерства США. Это резкий разворот позиции после его же призывов к созданию регуляторного агентства два года назад. Теперь акцент сместился: вместо предупреждений об «экзистенциальных рисках» ИИ топ-менеджеры и власти требуют ускорить разработки, чтобы обогнать Китай. OpenAI не одинока в резком смене курса: Google DeepMind отказался от запрета на военные ИИ-проекты, а Microsoft и компания Марка Цукерберга сняли ограничения на сотрудничество с армией. washingtonpost.com ✔️ Nvidia адаптирует чип H20 для Китая, чтобы обойти экспортный контроль США. Nvidia планирует выпустить упрощенную версию чипа H20 для китайского рынка уже в июле. Модификация связана с ужесточением экспортных ограничений США, которые заблокировали поставки оригинального чипа без специальной лицензии. Новый вариант H20 получит значительно урезанную память и другие технические ограничения, но позволит Nvidia сохранить позиции на ключевом рынке, где за прошлый год компания заработала $17 млрд. По данным инсайдеров, китайские клиенты Tencent, Alibaba и ByteDance уже активно интересовались чипом, нарастив заказы до $18 млрд только с начала года. Глава Nvidia Дженсен Хуанг недавно посетил Пекин, подчеркнув стратегическую важность региона для компании. reuters.com ✔️ Google инвестирует в 3 площадки для развития ядерной энергетики в США. Google расширяет свое участие в энергетическом секторе, выделив финансирование стартапу Elementl Power для подготовки 3 площадок под современные ядерные проекты в США. Каждый объект планируют оснастить реакторами мощностью от 600 МВт, что должно помочь корпорации обеспечить стабильное энергоснабжение для своих дата-центров. Сумма вложений не раскрывается, но цель партнерства — ускорить ввод новых мощностей до 2035 года. Elementl Power, основанная в 2022 году, позиционирует себя как разработчика «под ключ», предлагающего решения для клиентов, которые хотят доступ к чистой энергии. world-nuclear-news.org ✔️ LegoGPT генерирует конструкции LEGO по текстовым описаниям. Исследователи из Университета Карнеги-Меллон представили LegoGPT — нейросеть, которая превращает текстовые запросы в рабочие схемы сборки LEGO. Модель обучалась на 47 тысячах структур, что позволяет ей создавать оригинальные дизайны с нуля. Система поэтапно подбирает блоки, проверяя их совместимость и устойчивость. Если деталь пересекается с другими или «висит в воздухе», LegoGPT откатывается к стабильному шагу и продолжает сборку. Результат всегда можно собрать руками или роботом. Код проекта доступен на GitHub. tomshardware.com ✔️ Google создала Gemini Nano для защиты от мошенничества в реальном времени. Google усилила борьбу с онлайн-мошенничеством, интегрировав модель Gemini Nano в браузер Chrome. Технология работает прямо на устройстве, анализируя сайты в режиме реального времени и блокируя фишинговые страницы до того, как пользователь успеет ввести данные. В Android-версии Chrome появились ИИ-уведомления: если система заподозрит спам в push-сообщениях, предложит отписаться или заблокировать. Аналогичные алгоритмы теперь сканируют звонки и SMS — Gemini Nano распознает подозрительные шаблоны, даже если схема новая. blog.google @ai_machinelearning_big_data #news #ai #ml

296 396

🔥 В Qwen теперь есть песочницы для генерации и запуска кода. Web Dev — новый инструмент для создания готовых фронтенд-страниц и приложений в Qwen Chat. 🎨 Просто напишите: «Создай сайт как ...» — и готово! Вы получаете полностью готовый код. Сгенерировали парочку лендингов и простенькую игру для теста - хорошо понимает промпты, работает шустро. ➡️ Попробовать: hat.qwen.ai/?inputFeature=web_dev @ai_machinelearning_big_data #qwen #codegenerator #online

296 396

⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком. Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами. В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями. Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации. Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание. Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах. Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше. ⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM. Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт. 📌Лицензирование кода : Tencent Hunyuan Community License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Video #HunyuanCustom #Tencent

296 396

✔️ OpenAI пригласила гендиректора Instacart возглавить направление разработки приложений. OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации. В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI. cnbc.com ✔️ Anthropic открыла API для веб-поиска. Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок. В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов. anthropic.com ✔️ Google внедряет неявное кэширование в Gemini API. Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка). Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами. developers.googleblog.com ✔️ Робота для пинг-понга создали в MIT. Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов. Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA. interestingengineering.com ✔️ Infinix анонсировала умные наушники с переводом 162 языков в реальном времени. Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос. Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми. prnewswire.co.uk @ai_machinelearning_big_data #news #ai #ml

296 396

🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа. Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением. Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий. Тестовую модель обучали в 3 стадии: 🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT. 🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки. 🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок. Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #CoT #UnifiedReward #Tencent

296 396

✔️ IBM Linux ONE Emperor 5: мейнфрейм для эпохи ИИ. IBM представила новый мейнфрейм IBM Linux ONE Emperor 5. Основа системы — процессор Telum II с 5-нм технологией Samsung: 8 ядер на 5.5 ГГц, кэш L4 до 2.88 ГБ и встроенный ИИ-ускоритель на 24 трлн. операций в секунду. Для тех, кому мало, к концу 2025 года обещают IBM Spyre Accelerator с 32 ядрами. Платформа оптимизирована под ИИ: AI Toolkit упростит разработку, а ОС Red Hat OpenShift AI позволит управлять VM и контейнерами в одном интерфейсе. Безопасность тоже не забыли. Данные шифруются даже в памяти (confidential computing), а поддержка постквантовых алгоритмов NIST защитит от атак будущего. IBM заявляет, что Emperor 5 сократит для владельцев совокупную стоимость владения на 44% за 5 лет по сравнению с x86-серверами. Система обещает доступность 99.999999% — почти без простоев. zdnet.com ✔️ Figma запустила ИИ-инструменты для сайтов, прототипирования и маркетинга. Figma Sites, в нем на основе прототипов можно генерировать адаптивные сайты с анимациями. Инструмент позволяет быстро публиковать проекты, а правки вносить без сохранения, контент можно редактировать совместно напрямую в интерфейсе. Для сложных элементов доступна генерация кода или ручная настройка. Figma Make — инструмент для прототипирования веб-приложений: по описанию ИИ создает каркас, который команда может дорабатывать. Figma Buzz: шаблоны с бренд-ассетами, массовая генерация креативов из таблиц и ИИ-фоны для изображений. Обновленный Figma Draw теперь включает продвинутое векторное редактирование — кисти и текстуры. Все инструменты доступны в рамках подписки от 8$/месяц. figma.com ✔️ К 2026 году большинство компаний введут должность Chief AI Officer. Согласно исследованию Amazon, 60% организаций уже имеют Chief AI Officer (CAIO), а еще 26% планируют создать эту роль к 2026 году. CAIO станет ключевым звеном в координации ИИ-стратегий на фоне интереса к генеративному ИИ: 45% компаний назвали его приоритетом на 2025 год, обогнав традиционные инструменты кибербезопасности (30%). Несмотря на активные эксперименты (90% компаний тестируют ИИ), только 44% перешли к полноценному внедрению. Главные барьеры — дефицит кадров (55%), высокая стоимость разработки (48%) и проблемы с качеством данных. При этом 92% организаций намерены усиленно нанимать специалистов по ИИ в 2025 году, а 56% уже запустили программы обучения. Однако лишь 14% компаний имеют четкий план цифровой трансформации — к 2026 году показатель вырастет до 76%, но четверть все еще останется без стратегии. amazon.com ✔️ ChatGPT набирает обороты по трафику. Свежие данные Similarweb показывают, что ChatGPT стал одним из самых посещаемых сайтов в мире — в апреле 2025 года на него пришлось 4,78 млрд визитов. Это на 18% больше, чем у сети X. При этом трафик сервиса резко падает по выходным: в будни активность выше на 50%. Это подтверждает, что инструментом в основном пользуются для работы, учебы и исследований. Техническая сторона тоже отражает тренд: на выходных API OpenAI обрабатывает запросы быстрее из-за снижения нагрузки. Интересно, что пользователи ChatGPT редко переключаются на другие ИИ-сервисы — только 4% из них пробуют Perplexity. Для сравнения: 86% аудитории Claude параллельно используют ChatGPT. Google Gemini хотя и набирает популярность, особенно на Android, он все еще уступает ChatGPT по лояльности и охвату. SimilarWeb в сети X(ex-Twitter) ✔️ OpenAI запускает инициативу развития ИИ для стран. OpenAI анонсировала программу "OpenAI for Countries" в рамках проекта Stargate — масштабного плана по развитию ИИ-инфраструктуры. Компания предлагает странам за пределами США присоединиться к созданию локальных дата-центров, обеспечивающих суверенитет данных и адаптацию ИИ под национальные нужды. Инициатива включает кастомизацию ChatGPT для здравоохранения, образования и госуслуг с учетом языковых и культурных особенностей. Участие в проекте подразумевает вклад в глобальную сеть Stargate. Первая фаза — 10 пилотных проектов с отдельными странами. Переговоры с заинтересованными государствами уже ведутся через представительства компании. openai.com

296 396

🤖 В Калифорнии открылся ресторан, где роботы готовят бургеры за 27 секунд Вот именно для таких задач и нужны роботы — рутинная и однообразная работа, освобождая людей для более креативных и сложных задач. @ai_machinelearning_big_data #роботы #автоматизация #технологии

296 396

🚀 Релиз: Mistral Medium 3ё Компания Mistral представила Mistral Medium 3 — обновлённую версию своей модели среднего размера, созданную с упором на баланс качества, скорости и гибкости. Mistral Medium 3 обеспечивает топовую производительность, оставаясь на порядок дешевле конкурентов. Например, модель работает на уровне или обходит Claude Sonnet 3.7 на большинстве бенчмарков при значительно более низкой цене ($0.4 за 1M токенов входа / $2 за 1M токенов выхода). По производительности Mistral Medium 3 также опережает ведущие открытые модели, такие как Llama 4 Maverick, и корпоративные решения вроде Cohere Command A. По стоимости модель выигрывает у лидеров по цене, например, DeepSeek v3 — как при использовании API, так и при самостоятельном размещении. Особенно заметно, что Mistral Medium 3 выделяется в задачах программирования и STEM, где она приближается по качеству к значительно более крупным и медленным моделям-конкурентам. Кроме того, Mistral Medium 3 можно развернуть в любом облаке, включая self-hosted окружения от четырёх GPU и выше. https://mistral.ai/news/mistral-medium-3 @ai_machinelearning_big_data #Mistral #AI #нейросети #новости #mistralmedium3 #opensourcemodel #генерациякода #AIразработка

296 396

🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток. NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова. Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач. В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.

Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.

Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025. Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений. Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи. 📌Лицензирование: CC-BY-4.0 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #ASR #Parakeet #NVIDIA

296 396

🌟 Pocket Flow: минималистичный фреймворк для LLM в 100 строках кода Популярные фреймворки превращают простые задачи в квест по разгадыванию чужого кода. Бесконечные обертки, конфликты версий, устаревшая документация… Всё это не просто раздражает, это замедляет разработку. После года борьбы с перегруженными инструментами по типу LangChain, разработчик из Microsoft Research Zachary Huang посвятил свободное время созданию Pocket Flow — фреймворка, который уместил всю магию LLM в 100 строк кода. Pocket Flow предлагает радикально иной подход: минимализм. В основе — идея, что любой LLM-пайплайн можно представить как граф из узлов и переходов. Никаких скрытых слоёв, только логика и прозрачность. Чтобы разобраться как работает Pocket Flow, представьте кухню, где каждый узел — зона для готовки. BaseNode выполняет три шага: подготовка (собрать данные), выполнение (обработать запрос), постобработка (сохранить результат). Flow управляет «рецептом»: решает, куда передать управление дальше. Все взаимодействие происходит через общее хранилище данных — как стол, на котором лежат ингредиенты для всех поваров. Пример? Допустим, вы строите поискового агента. Создаёте узлы: DecideAction (решает, нужен ли поиск), SearchWeb (ищет в интернете), AnswerQuestion (формирует ответ). Связываете их в граф, где решение одного узла определяет следующий шаг. Если модель не знает ответ тогда запускается поиск, результаты добавляются в контекст, и цикл повторяется. Все это — пара сотен строк кода поверх ядра Pocket Flow. Главное преимущество Pocket Flow - свобода. Нет привязки к конкретным API, подключайте любые модели, даже локальные. Нет зависимостей: ваш проект остается «легким», а интерфейсы не ломаются после обновлений. Хотите кеширование запросов или потоковую обработку? Реализуйте сами, без борьбы с чужими абстракциями. Безусловно, у минимализма есть цена: вы не получите готовых решений для каждой задачи. Но именно в этом сила Pocket Flow. Он дает контроль и понимание процесса, а не готовый, но черный ящик. Если вы устали от фреймворков-монстров и хотите начать с чистого листа — загляните в репозиторий Pocket Flow. Там есть примеры агентов, RAG-систем и мультиагентных сценариев. 📌Лицензирование: MIT License. 🟡Статья 🟡Документация 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Framework #Github

296 396

✔️ Google анонсировала функцию Simplify для iOS. В приложении Google для iOS появилась новая функция Simplify, которая с помощью ИИ делает сложные или технические тексты в интернете проще для понимания. Разработка использует модель Gemini от Google Research: она переформулирует контент, сохраняя ключевые детали, но убирая лишнюю сложность. Тесты показали, что после упрощения пользователи лучше усваивают информацию. Функция не только облегчает обучение, но и удерживает пользователей в экосистеме Google, конкурируя с ChatGPT. Обновление уже доступно в AppStore для iOS. 9to5google.com ✔️ Вышла Gemini 2.5 Pro Preview. Google досрочно выпустила обновлённую версию Gemini 2.5 Pro Preview. Модель теперь лидирует в рейтинге WebDev Arena благодаря способности создавать эстетичные и функциональные веб-приложения. Среди новшеств — продвинутая работа с видео: модель преобразует ролики в интерактивные приложения, например, учебные программы на базе YouTube-видео. Для фронтенд-разработчиков упростилась реализация фич: Gemini 2.5 Pro генерирует CSS-код, подбирая стили под дизайн, и даже создает анимации. Обновление также устраняет прошлые ошибки в вызове функций и повышает их срабатывание. Модель доступна через Gemini API в Google AI Studio и Vertex AI для корпоративных клиентов — цена осталась прежней. developers.googleblog.com ✔️ OpenAI достигла соглашения о покупке Windsurf. OpenAI договорилась о покупке Windsurf за $3 млрд. Это станет крупнейшей сделкой компании в условиях растущей конкуренции на рынке ИИ-инструментов для программистов. По данным источников, соглашение ещё не закрыто, а стороны пока отказались от комментариев. Этим шагом OpenAI стремится закрепиться в нише, где набирают обороты стартапы вроде Anysphere. Покупка Windsurf не только расширит ее инструментарий, но и даст преимущество в гонке за лидерство в создании систем, генерирующих код по текстовым запросам. bloomberg.com ✔️ LTX Studio выпустила открытую видео-модель с рекордной скоростью и качеством. LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах. Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами. Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace. LTX в сети Х (ex-Twitter) ✔️ Обновление ComfyUI: нативные API-ноды и новый дизайн. ComfyUI выпустила масштабное обновление. Теперь пользователи получают 65 готовых API-нод, которые позволяют подключать платные облачные модели — от Veo2 от Google до GPT4o от OpenAI. Обновление объединяет 11 семейств моделей, включая генерацию видео (Pika 2.2, MiniMax) и изображений (Stable Diffusion 3.5, Ideogram V3). Цены совпадают с оригинальными API, а платформа остается бесплатной и открытой. В планах — поддержка своих API-ключей, параллельное выполнение задач и оптимизация для видео. Вместе с этим ComfyUI обновила внешний вид: логотип из «кубиков» отсылает к графам воркфлоу, а яркие цвета подчеркивают баланс между творчеством и серьезностью инструмента. blog.comfy.org @ai_machinelearning_big_data #news #ai #ml

296 396

🌟 Voila: набор голосовых моделей для взаимодействия в реальном времени и roleplay. Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa. Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека. В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi). ▶️ Состав релиза: 🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий. 🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов. 🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени. 🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру. 🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Demo 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #ASR #TTS #VOILA #Matrix

296 396

Нейросеть GigaChat 2.0 — тот самый сеньор, который уверенно затащит любую задачу. Сохраняем топ-5 промптов и тестируем в вебе или Телеграм-боте: 1. Работа с кодом

Посмотри мой скрипт для парсинга данных с сайта на Python. Он выполняется слишком медленно. Объясни, что я делаю неэффективно, и покажи, как его улучшить [вставить фрагмент]

2. Обучение

Подбери практические задания, чтобы прокачаться в TypeScript и научиться писать устойчивый фронтенд

3. Советы по самопрезентации

Помоги подготовиться к собеседованию на вакансию техлида [добавить ссылку]

4. Персональные подборки

Составь топ-10 книг по программированию для геймдева — от движков до оптимизации

5. Актуальные события

Привет, я специалист по машинному обучению, стараюсь развивать свои компетенции. Порекомендуй конференции по машинному обучению в России, на которые я ещё успею попасть.

296 396

🌟 NeMo-Inspector: продвинутый анализ генерации языковых моделей. NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные. NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы. Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной. ▶️NeMo-Inspector работает в двух режимах: 🟢Inference Page позволяет экспериментировать с промптами в реальном времени. Вы можете писать запросы вручную или использовать шаблоны с плейсхолдерами: например, подставлять разные задачи в структуру «Проблема: {вопрос}; Решение: {ответ}». Это удобно, когда нужно тестировать гипотезы без постоянной перезагрузки модели. 🟢Analyze Page заточен под глубокий разбор уже сгенерированных данных. Загрузите JSON-файлы и инструмент покажет выборки в читаемом формате с подсветкой кода и формул. Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции. Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%. 📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #NeMoInspector #NVIDIA

296 396

Учитесь в универе и хотите вырваться из рутины? Уедьте на бесплатный ИИ-интенсив в Новосиб! NLP-студкемп от Яндекс Образования и НГУ уже ждёт! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений! За две недели — с 14 по 26 июля — вы разложите NLP по полочкам — от теории до практики: 💡 сравните модели YandexGPT и Qwen; 💡 поработаете с бенчмарками и обучающими датасетами; 💡 узнаете, как устроены новейшие технологии — от механизма внимания и авторегрессии до мультимодальности и RAG; 💡 создадите свой проект на стыке науки и бизнеса. Всё это — бесплатно и под руководством экспертов из Яндекса и НГУ. С вас — только желание развиваться и пройти отбор. Заявку нужно оставить до 18 мая. Причём студентов ждут со всей страны: неважно, где вы учитесь или работаете, — дорогу и проживание оплатят всем, кто прошёл отбор. Регистрируйтесь прямо сейчас и проведите лето с пользой!

296 396

🔥 Калифорнийский стартап объявляет о прорыве в области робототехники для повседневных задач с помощью ИИ π0.5 — модели «зрение-язык-действие». Все, что видит робот, он видит впервые. 🧪 В экспериментах Робот успешно справился с посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям. ➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков. Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний ✔️ Подробнее про π0.5 мы писали в новостном дайджесте @ai_machinelearning_big_data #robots #ai #ml

296 396

✔️ ОАЭ вводит обязательное обучение ИИ для школьников всех возрастов. ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий. Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем. bloomberg.com ✔️ OpenAI остается некоммерческой структурой, но есть нюансы. OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров. Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее. Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям. openai.com ✔️ Tether анонсирует ИИ-платформу с поддержкой криптоплатежей. Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии. Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act. pymnts.com ✔️ Anthropic запускает программу "ИИ для науки" с бесплатным доступом к API. Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни. Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов. anthropic.com ✔️ Microsoft предложила стратегию развития социально-ориентированного ИИ. Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений. Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа. microsoft.com @ai_machinelearning_big_data #news #ai #ml

296 396

⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple. Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов. Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации. Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений. Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов. В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели. Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting. Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции. Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Photogrammetry #Matrix3D #Apple

296 396

✨ Arenadata представила новую дата-платформу Arenadata One: облачную экосистему хранения и обработки данных следующего поколения ✨ Arenadata запустила Arenadata One (AD.One) — cloud-native платформу хранения и обработки данных, созданную специально для работы в мультитенантных облачных средах на базе Kubernetes®. Что делает AD.One особенной? 🔹 Разделённые Compute и Storage → легко масштабировать ресурсы 🔹 Поддержка S3 Object Storage → единое унифицированное хранилище 🔹 Форматы данных на любой вкус 🔹 Одновременная аналитическая и транзакционная нагрузка 🔹 AI-хранилище для ML/AI задач 🔹 Встроенные инструменты Data Governance, оркестрации, мониторинга и аудита 🔹 Multi-tiering-архитектура → быстрый доступ к «горячим» данным 🔹 Гибридный обмен данными (Public/Private Cloud) Платформа покрывает задачи от ad hoc-запросов до real-time-аналитики (Spark, Impala), а также поддерживает транзакции на Serverless Postgres (Neon) и хранение векторов и features для AI. 💥 В чём отличие от классических bare-metal СУБД? AD.One не требует резервирования оборудования и работает в эластичных облачных средах. Это снижает TCO и Time to Market благодаря: ✅ автоматическому масштабированию нагрузки ✅ переиспользованию вычислительных ресурсов ✅ DBaaS-сервису ✅ единой self-service-консоли управления с шаблонами развёртывания Платформа подходит для построения современных архитектур больших данных (включая Lakehouse) и будет интересна компаниям с неоднородными пиками нагрузки, стремящимися снизить стоимость владения СУБД. 👉 Подробнее о Arenadata One: arenadata.tech/products/arenadata-one

296 396