Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Show more📈 Analytical overview of Telegram channel Machinelearning
Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 297 620 subscribers, ranking 323 in the Technologies & Applications category and 1 258 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 297 620 subscribers.
According to the latest data from 13 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -7 002 over the last 30 days and by -157 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 8.06%. Within the first 24 hours after publication, content typically collects 5.70% reactions from the total number of subscribers.
- Post reach: On average, each post receives 24 001 views. Within the first day, a publication typically gains 16 986 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 182.
- Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Thanks to the high frequency of updates (latest data received on 14 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
На демонстрации модель прошла цикл онлайн-покупки автономно: нашла отзывы на Xiaohongshu, сравнила продавцов на JD.com, поторговалась с поддержкой, оформила заказ. Второе демо: получила одно текстовое задание, сняла 15-секундный ролик из 4 сцен, синтезировала звук, исправила ошибку рендеринга шрифта, загрузила на TikTok и опубликовала.🟡MiMo-V2-TTS Модель обучена на сотнях миллионов часов аудио, и допилена через многомерный RL. Синтезирует речь с управлением эмоциями на уровне отдельных предложений, поёт с сохранением высоты и ритма, воспроизводит китайские диалекты: сычуаньский, хэнаньский, кантонский, тайваньский. Поддержка других языков не заявлена. Форматные маркеры в тексте: пунктуацию, частицы и выделение сама переводит в просодику без дополнительной разметки. Доступ на ограниченный период - бесплатно. Сроки предложения не указаны.
Кстати, команду MiMo возглавляет Ло Фули, один из ключевых авторов DeepSeek R1.Все модели релиза доступны через API на platform.xiaomimimo.com и в MiMo Studio. @ai_machinelearning_big_data #news #ai #ml
reasoning_effort. Если поставить none будет быстрый чат-режим, как в Small 3.2, а с ключом high модель начнет разворачивать цепочку рассуждений, сопоставимую с Magistral. Переключение в рантайме, без смены модели.
🟡Тесты
Small 4 с включенным reasoning обходит GPT-OSS 120B на LiveCodeBench и генерирует при этом на 20% меньше токенов.
На AA LCR набирает 0.72 при длине ответа 1.6K символов. Для сравнения, модели Qwen для тех же результатов нужно от 5.8K до 6.1K.
Для self-hosted деплоя минимальный стенд - 4× NVIDIA HGX H100, 2× HGX H200 или 1× DGX B200.Попробовать бесплатно можно на build.nvidia.com, через Mistral API или AI Studio. 📌 Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей @ai_machinelearning_big_data #AI #ML #LLM #MistralSmall4 #MistralAI
GTC продолжится до 19 марта. Впереди порядка 1000+ сессий по Robotics, Physical AI и открытым моделям.🔜 Посмотреть запись трансляции на Youtube @ai_machinelearning_big_data #news #ai #ml
Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев. Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах. 🟡Тесты 🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше. 🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера. 🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B. После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет @ai_machinelearning_big_data #AI #ML #LLM #OLMoHybrid #Ai2
Авторы проводят параллель с PyTorch: OpenJarvis должен стать для локального ИИ тем, чем PyTorch стал для глубокого обучения - стандартной инфраструктурой, на которой строится все остальное.Фреймворк структурирован вокруг 5 примитивов: 🟢Intelligence - слой языковых моделей с единым каталогом, где не нужно самому отслеживать релизы и считать память. 🟢Engine - бэкенд инференса: Ollama, vLLM, SGLang, llama.cpp, Apple Foundation Models и другие. Openjarvis сам определяет железо и рекомендует конфигурацию. 🟢Agents - слой поведения: роли оркестратора и исполнителя рутинных сценариев, адаптированные под ограниченный контекст и память на устройстве. 🟢Tools & Memory - интеграции через MCP и Google A2A, семантическая индексация локальных документов, подключение к iMessage, Telegram и т.д. 🟢Learning - механизм адаптации: локальные трейсы превращаются в обучающие данные через SFT, LoRA и GRPO. Система сама упаковывает этот процесс в рабочий флоу. Отдельная фишка - подход к эффективности. OpenJarvis профилирует энергопотребление на NVIDIA, AMD и Apple Silicon с интервалом 50 мс. Использовать можно через CLI, браузерный дашборд или десктопное приложение для macOS, Linux и Windows. ⚠️ Для полного функционала (безопасность, инструменты, агенты) потребуется Rust.
Помимо самого проекта, команда запустила конкурс-лидерборд экономии денег, энегрии и компьюта, в котором принять участие может любой желающий. В качестве приза самому экономному обещают Mac Mini.📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Документация 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI #ML #Framework #OpenJarvis #Stanford
from src.client import DeerFlowClient
client = DeerFlowClient()
response = client.chat("Analyze this paper", thread_id="my-thread")
📌Лицензирование: MIT License.
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Agents #DeerFlow #ByteDanceTerminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии. Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest.🟡Результаты прогонов на бенчах. На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%.
Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок.🟡Несколько внезапных выводов из абляции. Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными. Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением. Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее. 📌Лицензирование моделей: NVIDIA Open Model License 📌Лицензирование датасетов : CC-BY-4.0 License. 🟡Набор моделей 🟡Arxiv @ai_machinelearning_big_data #AI #ML #LLM #NemotronTerminal #NVIDIA
Available now! Telegram Research 2025 — the year's key insights 
