Machinelearning

Відкрити в Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Сітка:Machinelearning Росія1 272 Технології та додатки329...

📈 Аналітичний огляд Telegram-каналу Machinelearning

Канал Machinelearning (@ai_machinelearning_big_data) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 296 427 підписників, посідаючи 329 місце в категорії Технології та додатки та 1 272 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 296 427 підписників.

За останніми даними від 19 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -6 252, а за останні 24 години на -213, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 8.08%. Протягом перших 24 годин після публікації контент зазвичай збирає 5.74% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 23 972 переглядів. Протягом першої доби публікація в середньому набирає 17 005 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 185.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як openai, claude, api, gemini, контекст.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Завдяки високій частоті оновлень (останні дані отримано 20 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

296 427

Підписники

-21324 години

-1 4247 днів

-6 25230 день

23 972

Перегляди допису

~ 17 00524 години

~ 19 20848 годин

8.08%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

296 396

✔️ Тенденция регулирования ИИ меняется: техгиганты переходят от «стремления к регулированию» к «отказу от регулирования». Сэм Альтман, генеральный директор OpenAI, на слушаниях в Сенате заявил, что государственное одобрение для запуска мощных ИИ-систем губительно для технологического лидерства США. Это резкий разворот позиции после его же призывов к созданию регуляторного агентства два года назад. Теперь акцент сместился: вместо предупреждений об «экзистенциальных рисках» ИИ топ-менеджеры и власти требуют ускорить разработки, чтобы обогнать Китай. OpenAI не одинока в резком смене курса: Google DeepMind отказался от запрета на военные ИИ-проекты, а Microsoft и компания Марка Цукерберга сняли ограничения на сотрудничество с армией. washingtonpost.com ✔️ Nvidia адаптирует чип H20 для Китая, чтобы обойти экспортный контроль США. Nvidia планирует выпустить упрощенную версию чипа H20 для китайского рынка уже в июле. Модификация связана с ужесточением экспортных ограничений США, которые заблокировали поставки оригинального чипа без специальной лицензии. Новый вариант H20 получит значительно урезанную память и другие технические ограничения, но позволит Nvidia сохранить позиции на ключевом рынке, где за прошлый год компания заработала $17 млрд. По данным инсайдеров, китайские клиенты Tencent, Alibaba и ByteDance уже активно интересовались чипом, нарастив заказы до $18 млрд только с начала года. Глава Nvidia Дженсен Хуанг недавно посетил Пекин, подчеркнув стратегическую важность региона для компании. reuters.com ✔️ Google инвестирует в 3 площадки для развития ядерной энергетики в США. Google расширяет свое участие в энергетическом секторе, выделив финансирование стартапу Elementl Power для подготовки 3 площадок под современные ядерные проекты в США. Каждый объект планируют оснастить реакторами мощностью от 600 МВт, что должно помочь корпорации обеспечить стабильное энергоснабжение для своих дата-центров. Сумма вложений не раскрывается, но цель партнерства — ускорить ввод новых мощностей до 2035 года. Elementl Power, основанная в 2022 году, позиционирует себя как разработчика «под ключ», предлагающего решения для клиентов, которые хотят доступ к чистой энергии. world-nuclear-news.org ✔️ LegoGPT генерирует конструкции LEGO по текстовым описаниям. Исследователи из Университета Карнеги-Меллон представили LegoGPT — нейросеть, которая превращает текстовые запросы в рабочие схемы сборки LEGO. Модель обучалась на 47 тысячах структур, что позволяет ей создавать оригинальные дизайны с нуля. Система поэтапно подбирает блоки, проверяя их совместимость и устойчивость. Если деталь пересекается с другими или «висит в воздухе», LegoGPT откатывается к стабильному шагу и продолжает сборку. Результат всегда можно собрать руками или роботом. Код проекта доступен на GitHub. tomshardware.com ✔️ Google создала Gemini Nano для защиты от мошенничества в реальном времени. Google усилила борьбу с онлайн-мошенничеством, интегрировав модель Gemini Nano в браузер Chrome. Технология работает прямо на устройстве, анализируя сайты в режиме реального времени и блокируя фишинговые страницы до того, как пользователь успеет ввести данные. В Android-версии Chrome появились ИИ-уведомления: если система заподозрит спам в push-сообщениях, предложит отписаться или заблокировать. Аналогичные алгоритмы теперь сканируют звонки и SMS — Gemini Nano распознает подозрительные шаблоны, даже если схема новая. blog.google @ai_machinelearning_big_data #news #ai #ml

296 396

🔥 В Qwen теперь есть песочницы для генерации и запуска кода. Web Dev — новый инструмент для создания готовых фронтенд-страниц и приложений в Qwen Chat. 🎨 Просто напишите: «Создай сайт как ...» — и готово! Вы получаете полностью готовый код. Сгенерировали парочку лендингов и простенькую игру для теста - хорошо понимает промпты, работает шустро. ➡️ Попробовать: hat.qwen.ai/?inputFeature=web_dev @ai_machinelearning_big_data #qwen #codegenerator #online

296 396

⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком. Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами. В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями. Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации. Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание. Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах. Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше. ⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM. Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт. 📌Лицензирование кода : Tencent Hunyuan Community License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Video #HunyuanCustom #Tencent

296 396

✔️ OpenAI пригласила гендиректора Instacart возглавить направление разработки приложений. OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации. В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI. cnbc.com ✔️ Anthropic открыла API для веб-поиска. Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок. В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов. anthropic.com ✔️ Google внедряет неявное кэширование в Gemini API. Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка). Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами. developers.googleblog.com ✔️ Робота для пинг-понга создали в MIT. Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов. Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA. interestingengineering.com ✔️ Infinix анонсировала умные наушники с переводом 162 языков в реальном времени. Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос. Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми. prnewswire.co.uk @ai_machinelearning_big_data #news #ai #ml

296 396

🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа. Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением. Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий. Тестовую модель обучали в 3 стадии: 🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT. 🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки. 🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок. Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI #ML #MMLM #CoT #UnifiedReward #Tencent

296 396

✔️ IBM Linux ONE Emperor 5: мейнфрейм для эпохи ИИ. IBM представила новый мейнфрейм IBM Linux ONE Emperor 5. Основа системы — процессор Telum II с 5-нм технологией Samsung: 8 ядер на 5.5 ГГц, кэш L4 до 2.88 ГБ и встроенный ИИ-ускоритель на 24 трлн. операций в секунду. Для тех, кому мало, к концу 2025 года обещают IBM Spyre Accelerator с 32 ядрами. Платформа оптимизирована под ИИ: AI Toolkit упростит разработку, а ОС Red Hat OpenShift AI позволит управлять VM и контейнерами в одном интерфейсе. Безопасность тоже не забыли. Данные шифруются даже в памяти (confidential computing), а поддержка постквантовых алгоритмов NIST защитит от атак будущего. IBM заявляет, что Emperor 5 сократит для владельцев совокупную стоимость владения на 44% за 5 лет по сравнению с x86-серверами. Система обещает доступность 99.999999% — почти без простоев. zdnet.com ✔️ Figma запустила ИИ-инструменты для сайтов, прототипирования и маркетинга. Figma Sites, в нем на основе прототипов можно генерировать адаптивные сайты с анимациями. Инструмент позволяет быстро публиковать проекты, а правки вносить без сохранения, контент можно редактировать совместно напрямую в интерфейсе. Для сложных элементов доступна генерация кода или ручная настройка. Figma Make — инструмент для прототипирования веб-приложений: по описанию ИИ создает каркас, который команда может дорабатывать. Figma Buzz: шаблоны с бренд-ассетами, массовая генерация креативов из таблиц и ИИ-фоны для изображений. Обновленный Figma Draw теперь включает продвинутое векторное редактирование — кисти и текстуры. Все инструменты доступны в рамках подписки от 8$/месяц. figma.com ✔️ К 2026 году большинство компаний введут должность Chief AI Officer. Согласно исследованию Amazon, 60% организаций уже имеют Chief AI Officer (CAIO), а еще 26% планируют создать эту роль к 2026 году. CAIO станет ключевым звеном в координации ИИ-стратегий на фоне интереса к генеративному ИИ: 45% компаний назвали его приоритетом на 2025 год, обогнав традиционные инструменты кибербезопасности (30%). Несмотря на активные эксперименты (90% компаний тестируют ИИ), только 44% перешли к полноценному внедрению. Главные барьеры — дефицит кадров (55%), высокая стоимость разработки (48%) и проблемы с качеством данных. При этом 92% организаций намерены усиленно нанимать специалистов по ИИ в 2025 году, а 56% уже запустили программы обучения. Однако лишь 14% компаний имеют четкий план цифровой трансформации — к 2026 году показатель вырастет до 76%, но четверть все еще останется без стратегии. amazon.com ✔️ ChatGPT набирает обороты по трафику. Свежие данные Similarweb показывают, что ChatGPT стал одним из самых посещаемых сайтов в мире — в апреле 2025 года на него пришлось 4,78 млрд визитов. Это на 18% больше, чем у сети X. При этом трафик сервиса резко падает по выходным: в будни активность выше на 50%. Это подтверждает, что инструментом в основном пользуются для работы, учебы и исследований. Техническая сторона тоже отражает тренд: на выходных API OpenAI обрабатывает запросы быстрее из-за снижения нагрузки. Интересно, что пользователи ChatGPT редко переключаются на другие ИИ-сервисы — только 4% из них пробуют Perplexity. Для сравнения: 86% аудитории Claude параллельно используют ChatGPT. Google Gemini хотя и набирает популярность, особенно на Android, он все еще уступает ChatGPT по лояльности и охвату. SimilarWeb в сети X(ex-Twitter) ✔️ OpenAI запускает инициативу развития ИИ для стран. OpenAI анонсировала программу "OpenAI for Countries" в рамках проекта Stargate — масштабного плана по развитию ИИ-инфраструктуры. Компания предлагает странам за пределами США присоединиться к созданию локальных дата-центров, обеспечивающих суверенитет данных и адаптацию ИИ под национальные нужды. Инициатива включает кастомизацию ChatGPT для здравоохранения, образования и госуслуг с учетом языковых и культурных особенностей. Участие в проекте подразумевает вклад в глобальную сеть Stargate. Первая фаза — 10 пилотных проектов с отдельными странами. Переговоры с заинтересованными государствами уже ведутся через представительства компании. openai.com

296 396

🤖 В Калифорнии открылся ресторан, где роботы готовят бургеры за 27 секунд Вот именно для таких задач и нужны роботы — рутинная и однообразная работа, освобождая людей для более креативных и сложных задач. @ai_machinelearning_big_data #роботы #автоматизация #технологии

296 396

🚀 Релиз: Mistral Medium 3ё Компания Mistral представила Mistral Medium 3 — обновлённую версию своей модели среднего размера, созданную с упором на баланс качества, скорости и гибкости. Mistral Medium 3 обеспечивает топовую производительность, оставаясь на порядок дешевле конкурентов. Например, модель работает на уровне или обходит Claude Sonnet 3.7 на большинстве бенчмарков при значительно более низкой цене ($0.4 за 1M токенов входа / $2 за 1M токенов выхода). По производительности Mistral Medium 3 также опережает ведущие открытые модели, такие как Llama 4 Maverick, и корпоративные решения вроде Cohere Command A. По стоимости модель выигрывает у лидеров по цене, например, DeepSeek v3 — как при использовании API, так и при самостоятельном размещении. Особенно заметно, что Mistral Medium 3 выделяется в задачах программирования и STEM, где она приближается по качеству к значительно более крупным и медленным моделям-конкурентам. Кроме того, Mistral Medium 3 можно развернуть в любом облаке, включая self-hosted окружения от четырёх GPU и выше. https://mistral.ai/news/mistral-medium-3 @ai_machinelearning_big_data #Mistral #AI #нейросети #новости #mistralmedium3 #opensourcemodel #генерациякода #AIразработка

296 396

🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток. NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова. Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач. В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.

Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.

Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025. Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений. Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи. 📌Лицензирование: CC-BY-4.0 License. 🟡Модель 🟡Demo @ai_machinelearning_big_data #AI #ML #ASR #Parakeet #NVIDIA

296 396

🌟 Pocket Flow: минималистичный фреймворк для LLM в 100 строках кода Популярные фреймворки превращают простые задачи в квест по разгадыванию чужого кода. Бесконечные обертки, конфликты версий, устаревшая документация… Всё это не просто раздражает, это замедляет разработку. После года борьбы с перегруженными инструментами по типу LangChain, разработчик из Microsoft Research Zachary Huang посвятил свободное время созданию Pocket Flow — фреймворка, который уместил всю магию LLM в 100 строк кода. Pocket Flow предлагает радикально иной подход: минимализм. В основе — идея, что любой LLM-пайплайн можно представить как граф из узлов и переходов. Никаких скрытых слоёв, только логика и прозрачность. Чтобы разобраться как работает Pocket Flow, представьте кухню, где каждый узел — зона для готовки. BaseNode выполняет три шага: подготовка (собрать данные), выполнение (обработать запрос), постобработка (сохранить результат). Flow управляет «рецептом»: решает, куда передать управление дальше. Все взаимодействие происходит через общее хранилище данных — как стол, на котором лежат ингредиенты для всех поваров. Пример? Допустим, вы строите поискового агента. Создаёте узлы: DecideAction (решает, нужен ли поиск), SearchWeb (ищет в интернете), AnswerQuestion (формирует ответ). Связываете их в граф, где решение одного узла определяет следующий шаг. Если модель не знает ответ тогда запускается поиск, результаты добавляются в контекст, и цикл повторяется. Все это — пара сотен строк кода поверх ядра Pocket Flow. Главное преимущество Pocket Flow - свобода. Нет привязки к конкретным API, подключайте любые модели, даже локальные. Нет зависимостей: ваш проект остается «легким», а интерфейсы не ломаются после обновлений. Хотите кеширование запросов или потоковую обработку? Реализуйте сами, без борьбы с чужими абстракциями. Безусловно, у минимализма есть цена: вы не получите готовых решений для каждой задачи. Но именно в этом сила Pocket Flow. Он дает контроль и понимание процесса, а не готовый, но черный ящик. Если вы устали от фреймворков-монстров и хотите начать с чистого листа — загляните в репозиторий Pocket Flow. Там есть примеры агентов, RAG-систем и мультиагентных сценариев. 📌Лицензирование: MIT License. 🟡Статья 🟡Документация 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Framework #Github

296 396

✔️ Google анонсировала функцию Simplify для iOS. В приложении Google для iOS появилась новая функция Simplify, которая с помощью ИИ делает сложные или технические тексты в интернете проще для понимания. Разработка использует модель Gemini от Google Research: она переформулирует контент, сохраняя ключевые детали, но убирая лишнюю сложность. Тесты показали, что после упрощения пользователи лучше усваивают информацию. Функция не только облегчает обучение, но и удерживает пользователей в экосистеме Google, конкурируя с ChatGPT. Обновление уже доступно в AppStore для iOS. 9to5google.com ✔️ Вышла Gemini 2.5 Pro Preview. Google досрочно выпустила обновлённую версию Gemini 2.5 Pro Preview. Модель теперь лидирует в рейтинге WebDev Arena благодаря способности создавать эстетичные и функциональные веб-приложения. Среди новшеств — продвинутая работа с видео: модель преобразует ролики в интерактивные приложения, например, учебные программы на базе YouTube-видео. Для фронтенд-разработчиков упростилась реализация фич: Gemini 2.5 Pro генерирует CSS-код, подбирая стили под дизайн, и даже создает анимации. Обновление также устраняет прошлые ошибки в вызове функций и повышает их срабатывание. Модель доступна через Gemini API в Google AI Studio и Vertex AI для корпоративных клиентов — цена осталась прежней. developers.googleblog.com ✔️ OpenAI достигла соглашения о покупке Windsurf. OpenAI договорилась о покупке Windsurf за $3 млрд. Это станет крупнейшей сделкой компании в условиях растущей конкуренции на рынке ИИ-инструментов для программистов. По данным источников, соглашение ещё не закрыто, а стороны пока отказались от комментариев. Этим шагом OpenAI стремится закрепиться в нише, где набирают обороты стартапы вроде Anysphere. Покупка Windsurf не только расширит ее инструментарий, но и даст преимущество в гонке за лидерство в создании систем, генерирующих код по текстовым запросам. bloomberg.com ✔️ LTX Studio выпустила открытую видео-модель с рекордной скоростью и качеством. LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах. Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами. Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace. LTX в сети Х (ex-Twitter) ✔️ Обновление ComfyUI: нативные API-ноды и новый дизайн. ComfyUI выпустила масштабное обновление. Теперь пользователи получают 65 готовых API-нод, которые позволяют подключать платные облачные модели — от Veo2 от Google до GPT4o от OpenAI. Обновление объединяет 11 семейств моделей, включая генерацию видео (Pika 2.2, MiniMax) и изображений (Stable Diffusion 3.5, Ideogram V3). Цены совпадают с оригинальными API, а платформа остается бесплатной и открытой. В планах — поддержка своих API-ключей, параллельное выполнение задач и оптимизация для видео. Вместе с этим ComfyUI обновила внешний вид: логотип из «кубиков» отсылает к графам воркфлоу, а яркие цвета подчеркивают баланс между творчеством и серьезностью инструмента. blog.comfy.org @ai_machinelearning_big_data #news #ai #ml

296 396

🌟 Voila: набор голосовых моделей для взаимодействия в реальном времени и roleplay. Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa. Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека. В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi). ▶️ Состав релиза: 🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий. 🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов. 🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени. 🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру. 🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Demo 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #ASR #TTS #VOILA #Matrix

296 396

Нейросеть GigaChat 2.0 — тот самый сеньор, который уверенно затащит любую задачу. Сохраняем топ-5 промптов и тестируем в вебе или Телеграм-боте: 1. Работа с кодом

Посмотри мой скрипт для парсинга данных с сайта на Python. Он выполняется слишком медленно. Объясни, что я делаю неэффективно, и покажи, как его улучшить [вставить фрагмент]

2. Обучение

Подбери практические задания, чтобы прокачаться в TypeScript и научиться писать устойчивый фронтенд

3. Советы по самопрезентации

Помоги подготовиться к собеседованию на вакансию техлида [добавить ссылку]

4. Персональные подборки

Составь топ-10 книг по программированию для геймдева — от движков до оптимизации

5. Актуальные события

Привет, я специалист по машинному обучению, стараюсь развивать свои компетенции. Порекомендуй конференции по машинному обучению в России, на которые я ещё успею попасть.

296 396

🌟 NeMo-Inspector: продвинутый анализ генерации языковых моделей. NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные. NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы. Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной. ▶️NeMo-Inspector работает в двух режимах: 🟢Inference Page позволяет экспериментировать с промптами в реальном времени. Вы можете писать запросы вручную или использовать шаблоны с плейсхолдерами: например, подставлять разные задачи в структуру «Проблема: {вопрос}; Решение: {ответ}». Это удобно, когда нужно тестировать гипотезы без постоянной перезагрузки модели. 🟢Analyze Page заточен под глубокий разбор уже сгенерированных данных. Загрузите JSON-файлы и инструмент покажет выборки в читаемом формате с подсветкой кода и формул. Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции. Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%. 📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #NeMoInspector #NVIDIA

296 396

Учитесь в универе и хотите вырваться из рутины? Уедьте на бесплатный ИИ-интенсив в Новосиб! NLP-студкемп от Яндекс Образования и НГУ уже ждёт! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений! За две недели — с 14 по 26 июля — вы разложите NLP по полочкам — от теории до практики: 💡 сравните модели YandexGPT и Qwen; 💡 поработаете с бенчмарками и обучающими датасетами; 💡 узнаете, как устроены новейшие технологии — от механизма внимания и авторегрессии до мультимодальности и RAG; 💡 создадите свой проект на стыке науки и бизнеса. Всё это — бесплатно и под руководством экспертов из Яндекса и НГУ. С вас — только желание развиваться и пройти отбор. Заявку нужно оставить до 18 мая. Причём студентов ждут со всей страны: неважно, где вы учитесь или работаете, — дорогу и проживание оплатят всем, кто прошёл отбор. Регистрируйтесь прямо сейчас и проведите лето с пользой!

296 396

🔥 Калифорнийский стартап объявляет о прорыве в области робототехники для повседневных задач с помощью ИИ π0.5 — модели «зрение-язык-действие». Все, что видит робот, он видит впервые. 🧪 В экспериментах Робот успешно справился с посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям. ➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков. Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний ✔️ Подробнее про π0.5 мы писали в новостном дайджесте @ai_machinelearning_big_data #robots #ai #ml

296 396

✔️ ОАЭ вводит обязательное обучение ИИ для школьников всех возрастов. ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий. Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем. bloomberg.com ✔️ OpenAI остается некоммерческой структурой, но есть нюансы. OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров. Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее. Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям. openai.com ✔️ Tether анонсирует ИИ-платформу с поддержкой криптоплатежей. Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии. Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act. pymnts.com ✔️ Anthropic запускает программу "ИИ для науки" с бесплатным доступом к API. Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни. Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов. anthropic.com ✔️ Microsoft предложила стратегию развития социально-ориентированного ИИ. Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений. Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа. microsoft.com @ai_machinelearning_big_data #news #ai #ml

296 396

⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple. Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов. Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации. Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений. Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов. В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели. Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting. Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции. Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #Photogrammetry #Matrix3D #Apple

296 396

✨ Arenadata представила новую дата-платформу Arenadata One: облачную экосистему хранения и обработки данных следующего поколения ✨ Arenadata запустила Arenadata One (AD.One) — cloud-native платформу хранения и обработки данных, созданную специально для работы в мультитенантных облачных средах на базе Kubernetes®. Что делает AD.One особенной? 🔹 Разделённые Compute и Storage → легко масштабировать ресурсы 🔹 Поддержка S3 Object Storage → единое унифицированное хранилище 🔹 Форматы данных на любой вкус 🔹 Одновременная аналитическая и транзакционная нагрузка 🔹 AI-хранилище для ML/AI задач 🔹 Встроенные инструменты Data Governance, оркестрации, мониторинга и аудита 🔹 Multi-tiering-архитектура → быстрый доступ к «горячим» данным 🔹 Гибридный обмен данными (Public/Private Cloud) Платформа покрывает задачи от ad hoc-запросов до real-time-аналитики (Spark, Impala), а также поддерживает транзакции на Serverless Postgres (Neon) и хранение векторов и features для AI. 💥 В чём отличие от классических bare-metal СУБД? AD.One не требует резервирования оборудования и работает в эластичных облачных средах. Это снижает TCO и Time to Market благодаря: ✅ автоматическому масштабированию нагрузки ✅ переиспользованию вычислительных ресурсов ✅ DBaaS-сервису ✅ единой self-service-консоли управления с шаблонами развёртывания Платформа подходит для построения современных архитектур больших данных (включая Lakehouse) и будет интересна компаниям с неоднородными пиками нагрузки, стремящимися снизить стоимость владения СУБД. 👉 Подробнее о Arenadata One: arenadata.tech/products/arenadata-one

296 396