Machinelearning

Open in Telegram

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Network:Machinelearning Russia1 270 Technologies & Applications328...

📈 Analytical overview of Telegram channel Machinelearning

Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 296 497 subscribers, ranking 328 in the Technologies & Applications category and 1 270 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 296 497 subscribers.

According to the latest data from 19 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -6 252 over the last 30 days and by -213 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.08%. Within the first 24 hours after publication, content typically collects 5.74% reactions from the total number of subscribers.
Post reach: On average, each post receives 23 972 views. Within the first day, a publication typically gains 17 005 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 185.
Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri”

Thanks to the high frequency of updates (latest data received on 20 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

296 497

Subscribers

-21324 hours

-1 4247 days

-6 25230 days

23 972

Post views

~ 17 00524 hours

~ 19 20848 hours

8.08%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

296 491

📌100+ готовых блокнотов Google Collab от Unsloth. Unsolth выложила в открытый доступ в своем репозитории на Github больше сотни готовых ipynb-блокнотов для запуска различных операций в Google Collab практически всех популярных семейств языковых моделей, BERT, TTS-моделей и VLM: 🟢Llama v.3 -3.2 🟢Qwen v.2-3 🟢Gemma v.2-3 + Code Gemma 🟢Mistral Family 🟢Phi v.3-4 🟠TTS (Sesame, Orpheus, Spark, Oute, Llasa, Whisper) 🟠VLM и MMLM (Llama 3.2, Qwen 2.5VL, Pixtral) 🟠BERT (ModernBERT-large) Блокноты включают пошаговые руководства и примеры для вызова инструментов, классификации, синтетических данных, подготовки сетов, инференса и файнтюна моделей и примеры методов GRPO, DPO, SFT, Continued Pretraining, Reasoning и других.

Unsloth известна тем, что помогает делать большие языковые модели быстрее, компактнее и доступнее при помощи динамического квантования, что позволяет запускать их без сильной потери качества . Их технологии ускоряют обучение и настройку ИИ-моделей в 2 раза и экономят до 70% памяти. Инструменты Unsloth, на сегодняшний день, скачали более 10 млн раз.

Есть подробная документация по использованию, а для тех, кто больше привык к Kaggle - такой же набор блокнотов для запуска на этой платформе. 📌Лицензирование: LGPL-3.0-1 🖥GitHub @ai_machinelearning_big_data #AI #ML #LLM #Notebooks #Github #Unsloth

296 491

🛎 Готовы делиться опытом в прикладном машинном обучении? Practical ML Conf возвращается 27 сентября — это ежегодная конференция от Яндекса про технологии, которые уже сегодня работают на бизнес. Команда ждёт практичные и глубокие доклады по направлениям: • CV • NLP • Speech • Recommendation Systems • MLOps • Data Science 🎯 Темы оцениваются по 4 критериям: полезность, новизна, сложность и применимость. 👥 Что получают спикеры: ⚪️ Консультации от экспертов по структуре и содержанию ⚪️ Прогоны с тренером по публичным выступлениям ⚪️ Помощь дизайнеров с презентацией ⚪️ Нетворкинг с другими спикерами и экспертами ⚪️ Поддержку в продвижении — о лучших докладах расскажут в каналах Яндекса ⚪️ Участие в конференции без отбора + инвайт для +1 ⚪️ И главное — возможность стать частью сильного ML-сообщества 🗓 Заявки принимаются до 23 июня. 🛄 Встретимся на Practical ML Conf!

296 491

⚡️ Anthropic ограничила доступ Windsurf к моделям Claude. Anthropic отключила Windsurf от прямого использования моделей Claude 3.5 и 3.7 Sonnet, объяснив это слухами о возможной покупке стартапа OpenAI. По словам сооснователя Anthropic Джареда Каплана, компания хочет сосредоточиться на долгосрочных партнерствах, так как сейчас сталкивается с нехваткой вычислительных мощностей. Windsurf, получавший доступ к Claude для разработки своих продуктов, теперь вынужден переходить на сторонние платформы, что может временно нарушить стабильность сервиса для пользователей. В то же время Anthropic анонсировал сотрудничество с Cursor. Каплан подчеркнул, что фокус компании смещается с чат-ботов на «агентные» решения вроде Claude Code, которые, по его мнению, окажутся более полезными в будущем. Источник: Techcrunch @ai_machinelearning_big_data #news #ai #ml

296 491

🌟 Google опенсорснул стек Deep Search. Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph. Проект включает в себя все необходимое: и фронтенд, и бэкенд. 🟢Фронтенд на React и он про взаимодействие с пользователем (принимает запросы и отображает результаты.) 🟢Бэкенд, на LangGraph, управляет «мозгом» системы: здесь работает агент, который генерирует поисковые запросы, анализирует результаты и решает, нужно ли уточнять данные. Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс. Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа. Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках. ⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith. 📌Лицензирование: Apache 2.0 License. 🖥 GitHub @ai_machinelearning_big_data #AI #ML #DeepSearch #Google #Gemini #LangGraph

296 491

Repost from .ml

Как обучать модели, если данных мало Глубокое обучение показало SOTA-результаты во многих задачах, но есть нюанс: современные нейросети требуют огромного количества размеченных данных.

Разметка — это дорого, долго и нередко требует привлечения экспертов с доменными знаниями, что ещё больше усложняет процесс. Эта проблема возродила интерес к методам, которые позволяют работать с частично размеченными или даже неразмеченными данными.

Как обучать модели с минимумом разметки: 📌 Active Learning — модель сама выбирает примеры для разметки, которые дадут наибольший прирост качества. 📌 Semi-Supervised Learning — используем небольшое число размеченных данных вместе с неразмеченными, например, через псевдоразметку. 📌 Transfer Learning — переносим знания с одной задачи на другую, что помогает значительно сократить потребность в разметке. Обучать модели без ручной разметки позволяет Weak supervision. Она использует слабые источники меток, например: 📝 Distant Supervision — автоматическая разметка данных с использованием внешних баз знаний. 📝 Эвристики и правила — разметка с помощью регулярных выражений, ключевых слов и логических правил. 📝 Краудсорсинг — использование данных, размеченных пользователями, даже если разметка содержит шум. Важно понимать, что слабые метки не обладают высокой точностью (иногда даже 60% достаточно!), но их массовое использование в правильной комбинации даёт отличные результаты. Programmatic Weak Supervision (PWS): объединяем слабые источники

PWS — это метод, который умно комбинирует разные источники слабых меток. Он агрегирует их, учитывает корреляции и противоречия между источниками, что минимизирует шум.

Как это работает? Допустим, мы решаем задачу классификации текстов. Для этого мы: 📌 Читаем тексты и привлекаем экспертов, чтобы сформулировать эвристики и регулярные выражения. 📌 Оформляем их в виде разметочных функций, которые автоматически назначают метки. 📌 Тестируем и дорабатываем разметочные функции на небольшой dev-выборке. 📌 Применяем их к большому объёму данных. Асимптотически, наш лосс уменьшается с той же скоростью, что и при разметке вручную. 📌 Используем генеративную модель, чтобы оценить вероятность принадлежности к классу. 📌 Обучаем поверх этой разметки классическую дискриминативную модель, которая теперь улавливает более общие закономерности, чем исходные разметочные функции. Такой подход позволяет получать качество, сопоставимое с ручной разметкой, но при этом автоматизирует процесс.

Среди популярных библиотек для weak supervision — Snorkel, которая реализует PWS и гибко комбинирует слабые источники разметки.

LLM можно использовать как дополнительный источник слабых меток. Например: 📝 Заменять ключевые слова и эвристики вопросами к тексту на естественном языке. 📝 Генерировать эвристики для автоматической разметки. 📝 Комбинировать LLM с традиционными методами weak supervision, чтобы улучшать итоговое качество разметки. Исследования показывают, что PWS + LLM уже опережает few-shot и zero-shot подходы по качеству! 📢 Подробнее о weak supervision и о том, как мы применяем его в Точке — в следующих постах. А пока можете почитать хороший обзор на тему обучения со слабым контролем. 💜 Этот пост написал Артур Сосновиков, тимлид нескольких ML-команд в Точке.

296 491

Ребята из финтеха Точка сделали классный разбор того, как обучать ML-модели, когда размеченных данных мало, а времени и бюджета на ручную разметку нет. В посте собрали описания несколько подходов, которые реально работают: Active Learning, Semi-Supervised Learning, Transfer Learning. Главный фокус — на Weak Supervision и том, как автоматизировать разметку с помощью эвристик, баз знаний, краудсорсинга и языковых моделей. Подробно разложен по полочкам Programmatic Weak Supervision (PWS). Рассказали: - как создавать разметочные функции; - как агрегировать противоречивые слабые метки; - как использовать генеративную модель для оценки качества; - как на основе этой автоматической разметки обучать полноценную дискриминативную модель. Если в ваших проектах нет разметки, этот пост поможет обойти это ограничение и быстро и качественно обучить модели. Читать пост Подписывайтесь на канал Точки .ml — там разборы инструментов, обзоры фреймворков и выжимки из статей.

296 491

✔️ Mistral запустил инструмент для "вайб-кодинга" Mistral Code. Mistral представил Mistral Code — инструмент для программистов, который будет бороться за внимание пользователей с GitHub Copilot и другими аналогами. Продукт основан на открытом проекте Continue и включает в себя собственные модели Mistral: Codestral для автозаполнения кода, Devstral для решения задач через агенты, Mistral Medium для чатов и Codestral Embed для поиска. Поддерживаются 80+ языков программирования, интеграция с VS Code и JetBrains уже в бета-тестировании. В компании говорят, что ассистент уже используют Capgemini, SNCF и банк Abanca. Mistral Code позволяет работать локально, обрабатывает файлы, ошибки в терминале и даже обсуждения из тикетов. Beta-версия доступна для тестирования, а часть улучшений обещают добавлять в опенсорс. mistral.ai ✔️ Phonely, Maitai и Groq решили проблему задержек голосовом ИИ. Компании совместно добились успеха, сократив задержку на 70% и повысив комплексную точность (ASR+генерация ответа) с 81,5% до 99,2%. Проблема «неловких пауз» в разговорах с роботами, которая выдавала их, устранена благодаря технологии Groq - «горячей замене» легких моделей LoRA без потерь в скорости. Система работает так: Maitai выбирает оптимальную модель для каждого запроса, Groq обрабатывает ее на специализированных чипах LPU, а данные о слабых местах моделей собираются и используются для их доработки. В итоге время первого ответа снизилось с 661 до 176 мс, а синтез диалога стал в 4 раза быстрее. Один из клиентов Phonely уже заменит 350 операторов колл-центра на ИИ, а количество качественных лидов выросло на 32%. venturebeat.com ✔️ Aria Gen 2: подробности об умных очках с ИИ-обработкой. Компания Марка Цукерберга раскрыла подробности об очках Aria Gen 2. Новинка весит 74–76 грамм, имеет 8 вариантов оправ и складные дужки для удобства. Главное изменение: 4 камеры с датчиками затвора, которые устойчивы к искажения при движении. Динамический диапазон вырос до 120 дБ, а угол перекрытия стереокамер увеличился до 80°, что улучшает определение глубины. В наносном узле разместили контактный вибромикрофон и датчик пульса PPG. Для ИИ-задач предусмотрен отдельный процессор, а система VIO отслеживает движение в 6DoF. Очки следят за глазами, фиксируют зрачки, отслеживают руки в 3D. Устройства планируют выдавать исследователям позже в 2025 году, а демо покажет на конференции CVPR в июне этого года. mashable.com ✔️ Anthropic создала специальные модели Claude Gov для нужд национальной безопасности США. Anthropic разработала версии моделей Claude, предназначенных исключительно для правительственных структур, занимающихся вопросами национальной безопасности. Решение создано на основе обратной связи от госзаказчиков и прошло проверки на безопасность. Модели оптимизированы для работы с секретными данными, лучше понимают документы из сферы разведки и обороны, анализируют киберугрозы и поддерживают редкие языки, важные для спецопераций. Использование ограничено закрытыми системами, где доступ к информации строго регламентирован. anthropic.com ✔️ Higgsfield анонсировал инструмент для реалистичных видео с ИИ-аватарами. Higgsfield представил Higgsfield Speak — платформу, которая превращает текст в видео с анимированными персонажами, передающими эмоции, жесты и движения. В отличие от обычного липсинка, новый инструмент использует 80 параметров движения и 40 визуальных эффектов, чтобы сделать анимацию похожей на «живую» съемку. Платформа подходит для подкастов, обучающих роликов или рекламных кампаний: пользователи выбирают стиль, аватар и сценарий — остальное система обрабатывает автоматически. Продукт позиционируется как решение для креативщиков, которым нужно быстро создавать контент без камеры - от влогов до рекламных лендингов. Подписки Pro и Ultimate открывают доступ к инструментам, которые, по словам разработчиков, изменят подход к производству видео в ближайшее полугодие. HiggsField AI в сети Х (ex-Twitter) @ai_machinelearning_big_data #news #ai #ml

296 491

🎙️ ElevenLabs представила Eleven v3 (alpha) — самую выразительную модель озвучки текста Самая выразительная модель озвучки текста на сегодня. Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи. 🧠 Новая архитектура лучше понимает текст и контекст, создавая естественные, "живые" аудио. 🗣️ Что умеет Eleven v3: • Генерировать реалистичный диалог с несколькими голосами • Считывать эмоциональные переходы • Реагировать на контекст и менять тон в процессе речи 🎛 МОдель уаправляется через теги: - Эмоции: [sad], [angry], [happily] - Подача: [whispers], [shouts] - Реакции: [laughs], [sighs], [clears throat] 📡 Публичный API обещают выкатить очень скоро. ⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет 💸 ** Весь июнь* дают 80% скидки на генерацию * 🟡 Промпт-гайд для v3: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3 Eleven v3. 🟡 Eleven v3: https://elevenlabs.io/v3 @ai_machinelearning_big_data #ElevenLabs #tts

296 491

✔️ Google представила превью обновлённой модели Gemini 2.5 Pro Новая версия уже доступна для тестирования и показывает заметные улучшения в: 🧠 кодинге 📊 логическом выводе 🔬 задачах по науке и математике Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470. 💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей. 🔧 Попробовать можно уже сейчас в: - AI Studio - Vertex AI - Gemini app https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/ @ai_machinelearning_big_data #Gemini #Google

296 491

Знакомимся с фичей нейросети GigaChat 2.0 — редактирование картинок Новый инструмент удалит из кадра случайного прохожего, восстановит старый снимок и преобразит внешность. Помимо многофункциональности, умный ассистент обладает и другими достоинствами: • Предлагает свободный доступ без лимита запросов • Сохраняет идентичность людей и персонажей • Исправляет только нужные участки изображения Кстати о последнем. В отличие от аналогов, этот AI-сервис не перерисовывает исходник и чётко выполняет поставленную задачу. Для начала работы нажмите на кнопку «Редактирование картинок» в Телеграм-боте. А далее — выберите команду и загрузите файл с промптом. Например, в таком формате 👇

Замени кепку на шляпу

Добавь спагетти на стол

Поменяй фон на горы

296 491

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker ✨ Главное: ✅ Модели на 0.6B, 4B и 8B параметров ✅ Поддержка 119 языков ✅ Sota на MMTEB, MTEB и MTEB-Code ✅ Открытый код на Hugging Face, GitHub и ModelScope ✅ Доступ через API на Alibaba Cloud 🔍 Применение: Поиск документов, RAG, классификация, анализ настроений, поиск кода и др. 🔗 Ссылки: Hugging Face https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea GitHub: https://github.com/QwenLM/Qwen3-Embedding

296 491

Reddit подаёт в суд на Anthropic за незаконное использование данных Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных. Согласно иску: 🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных 🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии 🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии" 📣 Цитата из иска: > “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.” 😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ? Судебная битва за контент только начинается. https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd @ai_machinelearning_big_data #reddit #Anthropic #ai #claude

296 491

🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат. GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели. Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.

Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям. Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели. Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки. Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1). На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам. ▶️В открытый доступ опубликованы веса моделей: 🟢GUI-Actor-7B-Qwen2-VL; 🟢GUI-Actor-2B-Qwen2-VL; 🟠GUI-Actor-Verifier-2B. В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #GUIActor #Microsoft

296 491

✔️ Cursor 1.0 — стабильный релиз с полезными фичами Новая стабильная версия Cursor, и в ней появилось много обновлений, которые делают работу с кодом удобнее. Вот что стоит отметить: 🐞 Bugbot Автоматически проверяет Pull Request'ы на баги и предлагает исправления. Можно внести правку прямо в редакторе — в один клик. 🧠 Memory (beta) Cursor теперь запоминает контекст проекта, что помогает при командной работе и упрощает навигацию по коду. ⚙️ One-Click MCP Setup Настройка подключения к Model Context Protocol — теперь через одну кнопку, без ручной конфигурации. 📌 Дополнительно в 1.0: • Возможность редактировать несколько мест в коде одновременно • Поддержка таблиц, Markdown и диаграмм Mermaid в чате • Обновлённые настройки и админ-панель • Фоновая работа агентов — можно интегрировать их со Slack и Jupyter Notebooks Cursor постепенно становится более удобной средой для совместной работы с ИИ-помощником. https://www.cursor.com/changelog @ai_machinelearning_big_data #CursorAI #AIcoding #DevTools #Jupyter #CodeAssistant

296 491

Это реклама открытой технологической конференции от Сбера GigaConf 2025. На ней технари рассказывают сложные вещи о прикладном применение генеративного искусственного интеллекта. Контент конференции будет сложно понять простому обывателю, а разработчиков и членов инженерных команд мы приглашаем пройти регистрацию на сайте. GigaConf 2025 // Москва, 25 июня https://gigaconf.ru/

296 491

✔️ OpenAI расширила возможности ChatGPT для бизнеса. ChatGPT для корпоративных пользователей теперь поддерживает интеграцию с Dropbox, Box, SharePoint, OneDrive и Google Drive, позволяя анализировать данные из корпоративных хранилищ в реальном времени. Плюс, добавили функцию record mode - это запись встреч с автоматической генерацией заметок, таймкодами и выделением задач. Это как у Zoom и Notion, но с возможностью превращать темы обсуждений в структурированные документы в Canvas. Для Deep Research стали доступны бета-коннекторы к HubSpot, Linear и инструментам Microsoft/Google. А еще Pro, Team и Enterprise пользователи получили доступ к MCP . OpenAI в сети X (ex-Twitter) ✔️ Anthropic добавила новые функции в план Claude Pro. Anthropic обновила подписку Claude Pro, добавив в нее несколько полезных функций для тех, кто работает с кодом. Подписчикам плана стал доступен Claude Code - инструмент для работы с небольшими проектами (до 1000 строк кода). Правда, лимиты остаются: около 10-40 запросов каждые 5 часов, а модель Opus 4 здесь не поддерживается. Еще одна возможность - Claude-Squad. Он позволяет запускать несколько агентов одновременно. Интеграция с VS Code и Cursor уже есть, а Figma добавила официальный MCP-сервер, который активируется в настройках. Anthropic в сети Х (ex-Twitter) ✔️ OpenAudio S1: синтез речи с эмоциями на 12 языках. OpenAudio (создатели FishSpeech) представила TTS-модель S1, способную воссоздавать естественную речь с эмоциями и акцентами. Обученная на 2 млн часов аудио, она использует архитектуру Qwen3 с 4 млрд параметров, RLHF-оптимизацию и кодек, подобный Descript Audio Codec. Модель поддерживает метки точного контроля: от злых интонаций до шепота или смеха. S1 работает на 12 языках, включая русский. Старшая модель (4B) доступна только как сервис по цене $0.8 за час синтеза, а S1-mini (0.5 млрд параметров) опубликована для некоммерческого использования на HuggingFace. openaudio.com ✔️ DeepSeek обвиняют в использовании данных конкурентов для обучения своей модели. Исследователи подозревают, что часть обучающих данных модели DeepSeek R1-0528 могла быть взята из инференса Google Gemini. Независимые эксперты заметили сходство в выборе слов и логике работы. Модель «думает» так же, как Gemini. Ранее DeepSeek уже обвиняли в копировании данных OpenAI. Их предыдущая версия, V3, иногда выдавала себя за ChatGPT. Microsoft и OpenAI тогда заявили, что через API-аккаунты компании якобы утекали данные. В ответ на утечки усилили защиту: Google и Anthropic теперь скрывают процесс размышлений своих моделей, чтобы затруднить копирование. techcrunch.com ✔️ ИИ научили определять границы своих знаний. MIT через стартап Themis AI решила ключевую проблему современных ИИ-систем: их неспособность честно признать, когда они не уверены в ответе. Платформа Capsa модифицирует любую ML-модель, выявляя ненадежные выводы. Она анализирует паттерны обработки данных, сигнализирующие о неоднозначности, неполноте информации или скрытых смещениях. Capsa может показать, основан ли прогноз на реальных данных или это чистая спекуляция модели. Так же она помогает большим языковым моделям "самоотчитываться" о своей уверенности в каждом ответе, отсеивая "галлюцинации". Технология уже тестируется в телекоме, нефтегазе и фарме. news.mit.edu @ai_machinelearning_big_data #news #ai #ml

296 491

✔️ Holo1 — ИИ, который управляет веб-интерфейсами, как человек Holo1 — новое семейство open-source моделей от H Company, созданных специально для понимания и автоматизации веб-интерфейсов. Это Action VLM-модели, которые могут "видеть" сайт, распознавать кнопки, поля, меню и действовать, как реальный пользователь. Доступні • Holo1-3B и Holo1-7B — последняя достигает 76.2% точности на UI-бенчмарках (лучший результат среди компактных моделей) • WebClick — датасет из 1 639 задач, имитирующих поведение человека в интерфейсе 💸 И главное: Автоматизация реальных веб-задач (читать, кликать, вводить) с точностью 92.2% всего за $0.13 за задачу. Раньше за такую точность приходилось переплачивать в разы. ⚙️ Surfer-H — ИИ, который сам "читаeт", "думаeт", "кликаeт" и "проверяет" Построен на базе Holo1 и работает прямо в браузере — никаких API и костылей. Состоит из 3 модулей: 1. Policy — планирует поведение агента 2. Localizer — находит нужные элементы на экране 3. Validator — проверяет, всё ли сделано правильно 🔗 Hugging Face @ai_machinelearning_big_dat #Holo #web

296 491

✔️ Функционал облачной b2b-платформы MWS GPT серьезно расширен. MWS GPT доступна в облаке с быстрым масштабированием и on-premise. 📄 Что дает платформа: • Доступ к единой среде для сравнивания и тестирования моделей - в арсенале больше 40 LLM, включая Open Source • Автоматизацию различных сценариев - за это отвечает поддержка мультиагентных архитектур в low-code-конструкторе • ИИ-анализ объемных текстов и изображений благодаря RAG и Vision в ChatUI • Создание голосовых ассистентов, а также обучение готовых языковых моделей под конкретные задачи благодаря FineTune Последний инструмент пока доступен ограниченному числу пользователей, но скоро откроется для всех - следите за обновлениями. @ai_machinelearning_big_data

296 491

✔️ Llama Nemotron Nano VL от NVIDIA — один из лучших OCR инструментов для работы с документами. Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей. 📄 Что это такое: Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая: • разбирает PDF • вытаскивает таблицы • парсит графики и диаграммы • работает на одной GPU 🔍 Заточена под: – Вопрос-ответ по документам – Извлечение таблиц – Анализ графиков – Понимание диаграмм и дешбордов 🧠 Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением. 📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат. 🟡Hf 🟡 Подробнее @ai_machinelearning_big_data #Nemotron #NVIDIA

296 491

📂 Подборка каналов по ML и Data Science Если вы не только строите модели, но и ищете точки роста, то присмотритесь к нашей подборке. Собрали каналы мощных инженеров, которые рассказывают о технологиях, кейсах и найме. Все авторы — практикующие специалисты, которые делятся карьерным опытом в анализе данных. Подписывайтесь на папку целиком или отдельные каналы, чтобы быть в курсе трендов рынка.