Machinelearning

Ir al canal en Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Red:Machinelearning Rusia1 272 Tecnologías y Aplicaciones329...

📈 Análisis del canal de Telegram Machinelearning

El canal Machinelearning (@ai_machinelearning_big_data) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 296 427 suscriptores, ocupando la posición 329 en la categoría Tecnologías y Aplicaciones y el puesto 1 272 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 296 427 suscriptores.

Según los últimos datos del 19 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -6 252, y en las últimas 24 horas de -213, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 8.08%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 5.74% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 23 972 visualizaciones. En el primer día suele acumular 17 005 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 185.
Intereses temáticos: El contenido se centra en temas clave como openai, claude, api, gemini, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 20 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

296 427

Suscriptores

-21324 horas

-1 4247 días

-6 25230 días

23 972

Visitas de la publicación

~ 17 00524 horas

~ 19 20848 horas

8.08%

Tasa de compromiso

~ 5

Mensajes por día

Ads index

beta

Archivo de publicaciones

296 372

🔥 Вышел QwQ-32B — новая модель рассуждений на 32 миллиарда параметров Блог: https://qwenlm.github.io/blog/qwq-32b HF: https://huggingface.co/Qwen/QwQ-32B МодельОбласть: https://modelscope.cn/models/Qwen/QwQ-32B Демо: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo Чат Qwen: https://chat.qwen.ai @ai_machinelearning_big_data #Qwen

296 372

📌SycEval: почему языковые модели демонстрируют склонность к сикофантии. Исследование Стэнфордского университета о распространенной и насущной проблеме: языковые модели все чаще жертвуют точностью ради того, чтобы угодить пользователям. Эксперименты с ChatGPT-4o, Claude-Sonnet и Gemini показали, что в 58% случаев модели меняют ответы под давлением — даже если изначально были правы. Ресерч проводился на 2 наборах данных: AMPS (математика) и MedQuad (медицина). Сначала модели отвечали на вопросы, затем их «поправляли» через опровержения — от простых («вы ошиблись») до сложных, с цитатами и абстрактными конструкциями. Если модель меняла ответ вопреки истине, это считалось регрессивной сикофантией, если исправляла ошибку — прогрессивной.

Сикофантия - это поведение, когда человек (в исследовании - языковая модель) пытается понравиться другим, часто лестью или подхалимством, чтобы получить выгоду или одобрение.

Ответы оценивали двумя подходами: автоматически (GPT-4o в роли «судьи») и вручную. Gemini лидирует по сикофантии (62%), ChatGPT — скромнее (56%), а Claude-Sonnet набрала 57.44%, заняв среднюю позицию среди трех тестируемых моделей. Превентивные опровержения (вне контекста диалога) провоцируют больше регрессивных сдвигов, особенно в математике. Например, добавление цитат к опровержению заставляло модели чаще отказываться от верных ответов. А вот простые возражения, наоборот, помогали исправить ошибки (прогрессивная сикофантия). В медицине разница между типами опровержений менее выражена, но риски выше из-за специфики вопросов. Устойчивость сикофантии тоже вызывает вопросы. После первого изменения ответа модели продолжали «прогибаться» в 78% случаев, независимо от контекста или темы. Это говорит о системной проблеме: LLM слишком зависимы от пользовательского фидбэка, даже если он противоречат фактам. Как эта склонность влияет на практические кейсы? Во-первых, в медицине или финансах слепое доверие к моделям опасно: они могут поддержать ложные утверждения, если пользователь настаивает. Во-вторых, дизайн промптов становится ключевой техникой — опровержения с отсылками к авторитетам манипулируют сильнее. Авторы предлагают точечную настройку моделей под конкретные задачи и усиление механизмов проверки фактов. Выводы исследования заставляют задуматься: как балансировать между «удобными» ответами и правдой? Пока что модели часто выбирают первое. Исправлять это придется через улучшение архитектур, создание механизмов фактчекинга, фильтрацию и прозрачность — в противном случае внедрение LLM в критических сферах останется авантюрой. 🔜 Читать статью @ai_machinelearning_big_data #AI #ML #LLM #Research

296 372

Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере. Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым. ✔️ Как это работает? В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем: 1. Улучшение качества zero-shot синтеза Переход на фонемное представление текста. Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах. 🟡Интеграция биометрических эмбеддингов. Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка. 🟡Управление качеством через UTMOS. В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности. 2. Решение проблемы акцента Создание синтетического параллельного датасета. Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥 3. Оптимизация скорости инференса Сокращение количества гипотез и итераций. Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества. Ускорение вычислений. Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее. 4. Повышение качества аудиопромптов Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом. Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра. 🌟 Чего удалось добиться? Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса. 🟢Голос сохраняет интонации и тембр оригинала. 🟢Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе. 🟢Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере. 🔜 Оценка качества Внутренние тесты методом попарного сравнения (side-by-side) показали: Новый перевод предпочтительнее старой версии в 72% случаев. При сравнении с ElevenLabs: - В полном переводе видео Яндекс выигрывает в 62% случаев. При сравнении только качества озвучки Яндекс выигрывает в 46% случаев. Где работает? Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления. 🌟 Что дальше? Команда Яндекса продолжает развивать технологию. В планах: 🟢Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия. 🟢Дальнейшее ускорение инференса без потерь в качестве. Итог: Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным. @ai_machinelearning_big_data #yandex #tts

296 372

🦾 Berkeley Humanoid Lite — открытый человекоподобный робот Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов. Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере. 🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры ✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере ➡️ Итоговая стоимость сборки — примерно 5 000 USD ⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота ➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры ⏩ Что доступно: - Исходный код робота на C++ и Python - Модели машинного обучения для контроллера движений - Чертежи пластиковых деталей - Полный список комплектующих с ссылками на покупку - Пошаговый сборочный план - Симуляционные окружения для тренировки и запуска робота 🌟 Что робот умеет уже сейчас - локомоция: RL-контроллер приводит в заданную точку - телеприсутствие: человек управляет манипулятором через VR-контроллеры - навигация: экспериментальные алгоритмы обхода препятствий - поддержка мелкой моторики 🔥 Как удалось удешевить: - пластиковые шестерни, напечатанные на 3D-принтере - циклоидные редукторы, повышающие надёжность пластика - использование типовых драйверов и контроллеров без кастомных плат *Clone → Print → Build → Hack!* 🤓 🔜 Проект 🔜 Код 🔜 Схемы @ai_machinelearning_big_data #robots #ai #ml #opensource

296 372

🌟 Kimi-Audio: открытая модель для аудиозадач. Kimi-Audio — инструктивная модель с 7 млрд. параметров, разработанная командой MoonshotAI, которая объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру. Модель показала SOTA-результаты на множестве аудиобенчмарков, от распознавания речи до эмоционального анализа. Архитектура Kimi-Audio — это 3 компонента: 🟢Гибридный токенизатор, который преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper. 🟢Модифицированная LLM (на базе Qwen 2.5 7B) с общими слоями для мультимодальных данных и раздельными «головами» для генерации текста и аудио. 🟢Детокенизатор на основе flow matching и BigVGAN. Он превращает токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму. Отдельного внимания заслуживает пайплайн обучения, к нему команда разработки подошла ответственно и скрупулезно: 13 млн часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию. Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предобучения на задачах ASR и TTS модель прошла этап SFT на 300 тыс. часов данных (развернутые диалоги и аудиочаты). В тестах ASR Kimi-Audio показала: WER 1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке). 📌 Лицензирование кода : Apache 2.0 License. 📌 Лицензирование модели: MIT License. 🟡Модель 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #KimiAudio #MoonshotAI

296 372

Начните свой путь в ML для финансового анализа — три открытых вебинара Если вы хотите погрузиться в мир машинного обучения и финансов, эти 3 урока — именно то, что вам нужно! 🎓 Урок 1: Инструменты тестирования торговых стратегий: https://otus.pw/LWNcA/ Познакомьтесь с основами тестирования торговых стратегий и узнайте, как избежать ошибок при backtest. 🎓 Урок 2: Технический анализ финансовых рынков: графики и индикаторы: https://otus.pw/LWNcA/ Углубитесь в методы технического анализа, научитесь читать графики, распознавать тренды и использовать индикаторы для генерации торговых сигналов. 🎓 Урок 3: Построение торгового агента на базе алгоритмов обучения с подкреплением: https://otus.pw/LWNcA/ Разработайте своего первого торгового агента, использующего обучение с подкреплением. Этот урок позволит вам применить современные методы искусственного интеллекта для автоматизации торговых стратегий. ➡️ Регистрируйтесь на бесплатные уроки, чтобы ознакомиться с форматом обучения и получить скидку на большое обучение «ML для финансового анализа»: https://otus.pw/LWNcA/?erid=2W5zFGXLspU #реклама О рекламодателе

296 372

✔️ Google анонсировали Genie 2 — крупномасштабную «foundation»-модель мира, способную на лету порождать интерактивные 3D-окружения. Ключевые моменты: 📌 Что такое Genie 2 Это автрорегрессивная латентно-диффузионная модель, обученная на огромном видеодатасете. Получив всего одно изображение-подсказку (например, кадр, сгенерированный Imagen 3), Genie 2 разворачивает целый виртуальный мир, в котором можно свободно перемещаться клавиатурой и мышью — как человеку, так и ИИ-агенту. Длительность консистентного эпизода достигает минуты. Зачем она нужна Главный барьер в исследованиях «телесных» (embodied) агентов — ограниченный спектр тренировочных сред. Genie 2 снимает это ограничение: модель способна бесконечно генерировать новые ландшафты, объекты, физику и взаимодействия, создавая «безграничный учебник» для RL-агентов. В работе демонстрируется связка с SIMA — многоцелевым агентом DeepMind: тот получает языковые инструкции («открой синюю дверь») и действует внутри миров, созданных Genie 2. Такое сочетание позволяет быстро генерировать unseen-задачи для оценки или дообучения агентов. Deepmind ✔️ Компания Марка Цукерберга и Booz Allen Hamilton запустили Llama на МКС для помощи астронавтам. Компании представили проект «Space Llama» — открытую ИИ-модель Llama 3.2, которая отправилась на Международную космическую станцию. Технология должна помочь экипажу в исследованиях на орбите, сократив зависимость от бумажных инструкций и связи с Землей. Система работает на базе компьютера Spaceborne Computer-2 от Hewlett Packard Enterprise и GPU Nvidia. Это уже второй шаг Booz Allen Hamilton в области космического ИИ: в августе компания развернула первую языковую модель на МКС. Новый стек технологий обещает ускорить реакцию на нештатные ситуации и снизить затраты на вычисления. cnbc.com ✔️ Perplexity планирует релиз браузера Comet в мае. CEO Perplexity Аравинд Шринивас в подкасте TBPN раскрыл планы компании: их новый браузер Comet, запуск которого запланирован на май, будет отслеживать действия пользователей за пределами приложения. Цель — собрать данные о покупках, посещаемых сайтах, отелях и ресторанах, чтобы формировать детальные профили для таргетированной рекламы. По словам Шриниваса, это повысит релевантность объявлений, а пользователи «не будут против». Comet уже столкнулся с задержками, но команда уверена в сроках. Параллельно Perplexity укрепляет позиции в мобильном сегменте: приложение предустановят на смартфоны Motorola Razr, а с Samsung ведутся переговоры. techcrunch.com ✔️ Криптогигант Paradigm вложил 50млн. долл. в ИИ−стартап NousResearch. Сделка оценила проект NousResearch в 1 млрд. долларов. Nous разрабатывает открытые ИИ-модели, конкурирующие с решениями OpenAI, но с упором на распределенные вычисления: вместо дата-центров стартап использует мощности обычных пользователей через блокчейн Solana. Основатели Nous — исследователи ИИ, ранее выпустившие популярные в opensource-сообществе модели Hermes. Их новый подход позволяет обучать нейросети на «простаивающих» GPU, стимулируя участников криптовалютными вознаграждениями. fortune.com ✔️ Ziff Davis подала в суд на OpenAI из-за незаконного использования контента для обучения ИИ. Крупный медиа-холдинг Ziff Davis подал иск против OpenAI в федеральный суд Делавэра, обвинив компанию в использовании своих статей для обучения нейросетей без разрешения. По данным иска, OpenAI копировала материалы PCMag, Mashable и IGN — активов Ziff Davis, которые ежегодно публикуют около 2 млн статей. Компания требует компенсацию в сотни миллионов долларов, утверждая, что действия OpenAI нарушают авторские права и вводят пользователей в заблуждение: ChatGPT якобы приписывает Ziff Davis информацию, которую та не публиковала. OpenAI настаивает, что обучение моделей на публичных данных попадает под «добросовестное использование», критичное для инноваций. Однако Ziff Davis заявляет, что после блокировки GPTBot в мае и августе 2024 года компания продолжила сбор контента. news.bloomberglaw.com @ai_machinelearning_big_data #news #ai #ml

296 372

✔️ Baidu представила модели ERNIE 4.5 Turbo, ERNIE X1 Turbo и набор ИИ-инструментов для разработчиков. На конференции Baidu Create 2025 компания анонсировала две новые модели: ERNIE 4.5 Turbo и ERNIE X1 Turbo. Обе версии улучшены в мультимодальности, логике и скорости, а их стоимость снижена: ERNIE X1 Turbo обходится в 4 раза дешевле аналогов (input стоит 1 юань за 1 млн токенов, а output 4 юаня). Модель ERNIE 4.5 Turbo, по заявлениям, сравнима с GPT-4.1. Baidu также показала «цифровых людей» с реалистичной речью и внешностью, которых можно создать за две минуты из видео. Также представлен Xinxiang — мультиагентный инструмент для решения сложных задач, от планирования поездок до офисной работы. Уже сейчас он охватывает 200 сценариев, а к 2030 году их станет более 100 тысяч. Для разработчиков запущена программа AI Open с доступом к трафику и монетизации, а MCP упростит интеграцию сервисов с большими моделями. prnewswire.com @ai_machinelearning_big_data #ERNIE

296 372

Repost from Анализ данных (Data analysis)

🧩 Rivet — визуальная среда для создания сложных AI-агентов. Этот проект предлагает необычный подход к работе с LLM: вместо написания цепочек промптов в коде, вы собираете их как ноды в визуальном редакторе. Особенность инструмента возможность встраивать созданные графы прямо в ваше приложение через TypeScript-библиотеку. Это превращает его из просто IDE в инструмент для production-разработки. 🤖 GitHub @data_analysis_ml

296 372

Дайджест первого дня ICLR 2025 от делегации Яндекса ✔️ Computer Vision: прорывы в генерации и анализе изображений. Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных. ✔️ NLP: оптимизация предпочтений и эффективный инференс. Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking. ✔️ Speech: расширенные бенчмарки и новые токенизации. Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами. ✔️ RecSys: инновационные архитектуры для рекомендаций. Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций. @ai_machinelearning_big_data #news #AI #ML #LLM

296 372

📌Mobility AI от Google: Как ИИ меняет городской транспорт. Городские пробки, рост выброса CO₂ и тысячи ДТП ежегодно — эти проблемы знакомы каждому мегаполису. В 2023 году в США на дорогах погибло 38,5 тысяч человек, а рост онлайн-коммерции и сервисов шеринга транспорта усложняет логистику. В Google Research разработали решение: проект Mobility AI, который объединяет последние достижения в ИИ для анализа, моделирования и оптимизации транспортных систем. В основе проекта — 3 направления: измерение, симуляция и оптимизация. ▶️ Данные Mobility AI собирает информацию из Google Maps, датчиков дорожного движения и логи событий резкого торможения (которые, как оказалось, сильно коррелируют с авариями). Эти сведения помогают не только отслеживать пробки в реальном времени, но и прогнозировать риски. ▶️ Симуляция Чтобы тестировать гипотезы на основе собранных данных без риска для реального мира, Google создает цифровых двойников — виртуальные копии транспортных сетей. Раньше такие симуляции работали только на отдельных участках, но теперь их масштабируют до уровня целых городов. Калибровка "двойников" стала точнее благодаря ML: алгоритмы учитывают не только данные с датчиков, но и обезличенные скорости, маршруты и метео-факторы. Симуляция дает возможность прогнозировать, как повлияет на дорожную ситуацию новый светофор или, скажем, эвакуация при ЧС. ▶️ Оптимизация Здесь ИИ предлагает конкретные решения: от перенастройки сигналов светофоров до маршрутов для грузового транспорта. В Сиэтле, например, алгоритмы помогли улучшить транспортные потоки после массовых мероприятий, а в Милл-Вэлли — спланировать эвакуационные пути. Причем система учитывает даже «социальные факторы» (как перенаправление машин повлияет на разные районы). Уже есть и практические результаты. Благодаря эко-маршрутам в Google Maps только в США удалось избежать выброса 2,9 млн. тонн CO₂, это как будто с дорог убрали 650 тысяч авто. А анализ данных о «жестких торможениях» помогает городам находить аварийно-опасные участки до того, как там произойдет ДТП. Внедрение таких масштабных технологий требует сотрудничества с городскими властями и Google делает ставку на открытость: сервисы вроде Google Public Sector и инструменты для симуляции уже доступны госструктурам. Mobility AI — не панацея, но большой шаг вперед. Главное, что Google сочетает науку с практикой: вместо абстрактных теорий создаются работающие модели, которые уже меняют города. Для инженеров и урбанистов это шанс перейти от ситуационного менеджмента к продуманному управлению транспортом. 🔜 Читать статью в оригинале

296 372

Machinelearning ✔️ MWS Octapi признана лучшей платформой в области цифровой трансформации В Москве состоялся Российский саммит и премия CDO/CDTO Summit & Awards 2025 - она присуждается руководителям по цифровизации, а также организациям с наибольшими успехами в области цифровой трансформации. Сразу две награды в этом году взяла МТС Web Services. Гран-при в номинации «Digital-платформа года» получило решение MWS Octapi. Это платформа, которая позволяет бизнесу бесшовно интегрировать сервисы в экосистему без участия разработчиков и обеспечивать их эффективное взаимодействие. Кроме того, лауреатом премии CDO/CDTO стал генеральный директор MWS Павел Воронин, который вошел в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании». @ai_machinelearning_big_data

296 372

🌟 Математические датасет OpenMathReasoning и модели OpenMath-Nemotron - победители олимпиады AIMO-2. NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место в конкурсе Kaggle AIMO-2. Секрет — в огромном датасете OpenMathReasoning, который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR). Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством. OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений. Модели OpenMath-Nemotron (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах. 📌Лицензирование: CC-BY-4.0 License. 🟡Набор моделей 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI #ML #Math #Dataset #NVIDIA

296 372

📌 Новая методика обучения больших языковых моделей (LLM): как ученым удалось увеличить точность и безопасность ИИ На основе существующих методов Trust Region ученые создали новый метод обучения LLM. С его помощью качество ответов ИИ повышается до 15% по пяти показателям: точность, связность, стиль, логика рассуждений и информативность. Согласно исследованию, качество текстов по этим критериям превосходило результаты, полученные с использованием традиционных методов оптимизации. Использование нового подхода приводит к снижению эффекта избыточной оптимизации. Модели меньше “зацикливаются” на случайных ошибках и избегают выдачу странных текстов, которые могут выдаваться при обучении на узкопрофильную задачу. Чтобы избежать избыточной оптимизации ученые ввели периодическое обновление “настроек по умолчанию” модели. Так, она отмечает основные “ориентиры” на своем пути, что помогает избежать отклонений и быстрее достичь целевой точки. Результаты исследования ученых из лаборатории исследований искусственного интеллекта T-Bank AI Research были вчера представлены на международной конференции по обучению представлениям (ICRL) и признаны мировым научным сообществом. 🔜 Подробнее в полном тексте исследования: https://arxiv.org/abs/2404.09656 @ai_machinelearning_big_data #news #AI #ML #LLM

296 372

✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений. Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах. Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис. Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз. blog.adobe.com ✔️ Tavus представила липсинк-модель Hummingbird-0. Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения. Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня. tavus.io ✔️ Классические игры стали новым бенчмарком для ИИ. Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты. Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен. Проект открыт для разработчиков — код доступен на GitHub. lmgame.org ✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox. Google DeepMind представила обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени. Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист. deepmind.google ✔️ YouTube тестирует AI Overviews в поиске. YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке. Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции. searchengineland.com @ai_machinelearning_big_data #news #ai #ml

296 372

🌟 Периодическая таблица машинного обучения. Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning). Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы. В основе I-Con лежит уравнение, минимизирующее расхождение Кульбака-Лейблера между двумя распределениями: «идеальным» (на основе данных) и тем, что обучает модель. Это уравнение, найденное почти случайно, стало ключом к объединению таких разных подходов, как k-средних, SimCLR и PCA. Для примера - алгоритм кластеризации в I-Con рассматривается как способ выравнивания распределений сходства точек, а контрастивное обучение — как работа с аугментациями изображений. Такая унификация позволила ресерчерам буквально «скрещивать» методы: комбинация идей из контрастивного обучения и спектральной кластеризации дала новый алгоритм, который на 8% точнее предсказывает классы изображений без меток. I-Con — не просто теория. В экспериментах на ImageNet-1K фреймворк показал, как перенос приемов между областями машинного обучения улучшает результаты. Например, техника дебайсинга (исправления смещений в данных), изначально созданная для контрастивного обучения, повысила точность кластеризации. А добавление проходов по neighbor propagation в алгоритмы помогло моделям лучше учитывать локальную структуру данных. Но главное преимущество I-Con — его предсказательная сила. Пустые клетки в таблице указывают на гипотетические алгоритмы, которые ещё предстоит создать. Иными словами, комбинируя подходы из supervised и unsupervised обучения, можно разработать методы, эффективные для задач с частично размеченными данными. Уже сейчас фреймворк помогает избежать «изобретения велосипеда»: вместо того чтобы перебирать варианты наугад, исследователи могут целенаправленно комбинировать элементы из таблицы. Пока рано говорить, станет ли I-Con общепринятым стандартом, но его потенциал очевиден. Как минимум, он предлагает свежий взгляд на машинное обучение — не как на набор разрозненных алгоритмов, а как на систему со скрытой структурой. И если химики когда-то заполняли пустоты в таблице Менделеева, то ML-исследователи теперь могут делать то же самое — осознанно, а не методом проб и ошибок. ▶️Практическое применение:

# Clone the repo
git clone https://github.com/ShadeAlsha/ICon.git
cd ICon

# Create a conda env
conda create -n ICon
conda activate ICon

# Install dependencies
pip install -e . 

# Evaluate Models
cd ICon
python evaluate.py

# After evaluation, see the results in tensorboard
cd ../logs/evaluate
tensorboard --logdir .

# Train a Model
cd ICon
python train.py

🟡Страница проекта 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #ICon #Framework #Algorithms

296 372

Мечтаете не просто разбираться в управлении данными, а использовать уникальные инструменты для работы с Big Data? Научитесь этому на бесплатном студкемпе Яндекс Образования и ИТМО по дата-инженерии! 🧠 Программа — интенсивная, актуальная, от лидеров индустрии. С 30 июня по 12 июля вы погрузитесь в мир распределённых хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А ещё познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке! 🏙 Кампус — в самом центре Санкт-Петербурга. Несмотря на то, что студкемп проходит на базе ИТМО, заявки ждут от студентов из любых вузов и регионов России. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях. 🕐 Регистрация — открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с топовыми айтишниками и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке.

296 372

✔️ OpenAI добавила в API модель генерации изображений GPT-Image-1. OpenAI открыла доступ к GPT-Image-1 через API — ранее она работала только в ChatGPT. Стоимость генерации тарифицируется по токенам: текст ($5/млн), ввод изображений ($10/млн), вывод ($40/млн). Одно изображение обходится в $0,02–0,19. Например, картинка 1024×1024 в высоком качестве «съест» 4160 токенов. Модель превосходит Midjourney-v7 в точности следования запросам, но имеет ограничения: плохо распознаёт мелкий текст, нелатинские шрифты, медицинские данные. Изображения можно загружать через URL или Base64 (PNG, JPEG до 20 МБ). Максимальное разрешение — 768×2000 пикселей. API анализирует объекты, цвета, текст, но не подходит для задач с высокой точностью. Для безопасности добавлены фильтры контента и метаданные C2PA. Тестировать модель можно в Playground OpenAI — подробности в гайдах по работе с API. openai.com ✔️ Kortix AI выпустила Suna — первый в мире опенсорсный ИИ-агент общего назначения. Suna — открытый ИИ-агент, способный выполнять реальные задачи через чат-интерфейс. В отличие от закрытых коммерческих моделей, Suna работает офлайн, бесплатен и доступен для самостоятельного хостинга. Suna не просто отвечает на вопросы: он автоматизирует рутину — от парсинга сайтов и генерации отчетов до развертывания веб-приложений. В основе лежит изолированная Docker-среда, React/Next.js для интерфейса и интеграция с LiteLLM, Supabase и Redis. Помимо исходного кода, есть подписка на развернутый у Kortix AI сервис: бесплатно 10 минут в месяц, за 29$ - 4 часа, а за 199\мес - 40 часов работы Suna. suna.so ✔️ Firefox анонсировал предпросмотр ссылок с локальным ИИ. Пользователи Firefox теперь могут заглянуть в содержимое ссылки, не открывая ее. Экспериментальная функция в Firefox Labs 138 показывает карточку с заголовком, описанием, временем чтения и тремя ключевыми пунктами, сгенерированными локальной языковой моделью. Все работает через HTTPS-запросы без загрузки страницы или выполнения скриптов — данные парсятся из метатегов Open Graph и Reader View. Приватность в приоритете: модель SmolLM2-360M (369 МБ) запускается на устройстве через WebAssembly (wllama), избегая передачи данных в облако. Функция пока в тесте: разработчики ждут фидбека об опыте использования от пользователей. blog.mozilla.org ✔️ xAI добавила 3 новые функции в Grok. xAI расширила возможности голосового ассистента Grok: Grok Vision, поддержка многоязыкового аудио и поиск в реальном времени в голосовом режиме. Все это уже доступно пользователям iOS, а для Android-устройств две последние опции открыты только с подпиской SuperGrok. Grok Vision, как заявляют разработчики, позволяет ассистенту анализировать экран смартфона и комментировать происходящее «здесь и сейчас» — например, распознавать объекты или текст. Ebby Amir (xAI) в X (ex-Twitter) ✔️ BMW внедрит ИИ DeepSeek в свои автомобили для Китая . BMW объявил о партнерстве с DeepSeek для интеграции ИИ-технологий в машины, продаваемые в Китае. Сотрудничество, представленное на Шанхайском автосалоне, направлено на улучшение «Умного персонального ассистента» — система получит новые функции и расширенный доступ к данным. Интеграция ИИ DeepSeek ускорит переход BMW к «программно-определяемым» автомобилям. Ожидается, что обновления затронут не только ассистента, но и улучшат интерфейсы, а также поддержат более сложные сценарии автономного управления. bmwblog.com @ai_machinelearning_big_data #news #ai #ml

296 372

🪰 Виртуальная дрозофила: зачем DeepMind «оживили» плодовую мушку — и что это даёт науке Кратко: исследователи создали самую точную на сегодня цифровую модель Drosophila melanogaster. Она умеет ходить, летать и ориентироваться в пространстве. Её «тело» рассчитано в физическом движке MuJoCo, а «мозг» — нейросеть, обученная на реальных видеозаписях поведения мух. 🌟 Как это сделали: 1) Физика тела Исследователи запрограммировали 52 степени свободы суставов, добавили моделирование аэродинамики крыльев и «клейких» лапок-актуаторов, имитирующих силу сцепления с поверхностью. Источник: Nature 2) Нейроконтроль Нейросеть обучалась на сотнях видеозаписей реальных траекторий и затем управляла виртуальной мухой в MuJoCo, выбирая, как двигать крыльями и лапками в каждый момент. 3) Зрение Виртуальные фасеточные глаза передают изображение контроллеру: модель может следовать по заданной траектории и корректировать курс по ходу движения. 4) Открытый код Весь проект опубликован на GitHub (flybody) под лицензией Apache-2.0 — можно запускать симулятор, писать собственных агентов и экспериментировать с поведением мухи. ✔️Зачем это нужно ▪️ Нейронаука без электродов. Модель — это «песочница», в которой можно виртуально перерезать нервы, добавлять шум, менять форму крыла и мгновенно видеть, как это влияет на поведение. Такие эксперименты на живых организмах часто невозможны. ▪️ Тест-полигон для ИИ и робототехники. Готовая референс-модель движений и сенсорики, вдохновлённая природой — идеальна для обучения автономных систем. ▪️ От мушки к зебре — и дальше. Методика уже применяется к виртуальным грызунам, а следующим объектом станет зебра-данио (у неё 70 % белков кодируются теми же генами, что у человека). Это даёт уникальную возможность изучить, как мозг приспосабливается к различной морфологии тела — не выходя из симулятора. Источник: Janelia Research Campus 🔥 Что это даёт ▪️ Исследователи получают бесплатный инструмент для быстрой проверки гипотез о связке «нейроны → движение». ▪️ Робототехники — возможность адаптировать природные механизмы управления и баланса. ▪️ Для нас— ещё один пример того, как ИИ позволяет разбирать живые системы на компоненты, не причиняя вреда природе. ✔️ Посмотреть код, скомпилировать модель и погонять виртуальную мушку можно уже сейчас: 🔜 GitHub 🔜 Статья в Nature @ai_machinelearning_big_data #DeepMind #nature #science

296 372

🌟 Describe Anything: сегментное аннотирование изображений и видео. Describe Anything Model (DAM) - архитектура, разработанная Nvidia, для генерации точных и детальных описаний для конкретных областей на изображениях и видео. Традиционные VLM-модели как отдельная сущность или в связке с SAM-помощниками часто теряют ньюансы, особенно при наличии мелких объектов или динамичных сцен на целевом источнике. DAM справляется с этим за счет 2 инноваций в своей архитектуре: 🟢Фокальный промпт — комбинация полного изображения и его маски с обрезанной областью интереса, расширенной для захвата контекста (например, увеличение bounding box в 3 раза). 🟢Локализованный визуальный бэкбон — два параллельных энкодера: глобальный (обрабатывает все изображение) и региональный (анализирует фокальный промпт). Они объединяются механизм cross-attention, позволяя сохранять детали объекта и его связь с окружением. Модель принимает изображение или видео и бинарную маску целевой области интереса. Глобальный энкодер извлекает общие признаки, региональный — фокусируется на деталях выбранной зоны. Через адаптеры с кросс-вниманием признаки объединяются, после чего LLM генерирует описание. Для видео маски применяются к каждому кадру, а признаки агрегируются во времени. ▶️В релизе DAM представлены 3 модели: 🟠DAM-3B - базовая модель для аннотирования изображений; 🟠DAM-3B-Video - модель для работы с видео; 🟠DAM-3B-Self-Contained - автономная версия базовой модели для интеграций без сторонних зависимостей. ▶️Локальный инференс с интерактивным Gradio WebUI:

# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything

# Create a conda env
conda create -n describe-anything
conda activate describe-anything

# Install dependencies
pip install -v 

# Gradio Demo for Image Descriptions
python demo_simple.py

# Gradio Demo for Video Descriptions
python demo_video.py

📌Лицензирование моделей: NVIDIA Noncommercial License. 📌Лицензирование кода : Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Demo 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #DAM #NVIDIA #Annotation