Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Больше📈 Аналитический обзор Telegram-канала Machinelearning
Канал Machinelearning (@ai_machinelearning_big_data) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 296 427 подписчиков, занимая 329 место в категории Технологии и приложения и 1 272 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 296 427 подписчиков.
Согласно последним данным от 19 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -6 252, а за последние 24 часа — -213, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.08%. В первые 24 часа после публикации контент обычно набирает 5.74% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 23 972 просмотров. В течение первых суток публикация набирает 17 005 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 185.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как openai, claude, api, gemini, контекст.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Благодаря высокой частоте обновлений (последние данные получены 20 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
RealtimeSTT (на базе Whisper)
4. Ответ от LLM (Ollama, OpenAI и др.)
5. Озвучка ответа через RealtimeTTS (Coqui XTTSv2, Kokoro и др.)
6. Обратная передача аудио в браузер
7. Поддержка прерываний и динамики через turndetect.py
✨ Особенности:
- Задержка ~500 мс
- Поддержка разных LLM и TTS движков
- Быстрый запуск через Docker Compose
- Чистый веб-интерфейс на Vanilla JS + Web Audio API
✔️ Стек:
- Backend: Python + FastAPI
- Frontend: JS + WebSockets
- ML: transformers, torchaudio, Ollama, Whisper, TTS
- Контейнеризация: Docker
✔️ Требуется CUDA-совместимая видеокарта (для Whisper/TTS) и Docker.
🔥 Отличный проект для тех, кто хочет интегрировать голосовой интерфейс с LLM — например, для ассистентов, чат-ботов, презентаций или UX-экспериментов.
🔜 Репозиторий: https://github.com/KoljaB/RealtimeVoiceChat
🔜 Демо: https://www.youtube.com/watch?v=-1AD4gakCKw
@ai_machinelearning_big_data
#tts #llm #opensourceCTM строится на рекуррентной обработке временных паттернов. Каждый нейрон обновляет свое состояние через персональную MLP, которая анализирует историю пре-активаций — выходов «синаптической» модели, объединяющей предыдущие состояния и данные через внимание. Синхронизация вычисляется как взвешенное скалярное произведение пост-активаций с экспоненциальным затуханием, где параметр "забывания прошлых взаимодействий"обучается, контролируя вклад временных шагов. Выходы модели формируются проекцией синхронизации, а адаптивность достигается динамическим выбором критических тиков через минимизацию потерь и максимизацию уверенности.Эксперименты показали, что такой подход работает не только в теории. На ImageNet-1K CTM демонстрирует точность 72.47% (top-1), а ее внимание плавно перемещается по изображению, фокусируясь на ключевых деталях, также, как человек рассматривает объект. Самый интересный эксперимент - решение лабиринтов. Без позиционных эмбедингов модель строит внутреннюю «карту», анализируя структуру шаг за шагом, и даже обобщает знания на лабиринты большего размера. Это косвенно доказывает, что CTM способна к планированию, а не просто запоминанию паттернов. CTM умеет экономить ресурсы: для простых задач (классификации очевидных изображений) она останавливает вычисления раньше, а для сложных — «думает» дольше. Это происходит без явных инструкций. В качестве примера: в задаче сортировки чисел модель тратит больше «мысленных шагов» на сложные перестановки, а в вычислении четности последовательности обучается стратегиям, напоминающим алгоритмическую логику. Пока CTM не SOTA, но она открывает возможности применения в RL-средах (как конкурент LSTM), а в калибровке предсказаний даже превосходит человеческую точность на CIFAR-10. Архитектура не привязана к определенному типу данных, она работает с изображениями, последовательностями и текстом (хотя на NLP ее масштабно не тестировали). В открытом доступе на Github опубликован код практической демонстрации CTM в задачах классификации ImageNet, решения двумерных лабиринтов, сортировку, вычисления четности, QA и задачи RL. Датасеты и тестовые модели доступны по запросу через форму Google Drive. 🟡Статья 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #CTM #SakanaAI
DecideAction (решает, нужен ли поиск), SearchWeb (ищет в интернете), AnswerQuestion (формирует ответ). Связываете их в граф, где решение одного узла определяет следующий шаг. Если модель не знает ответ тогда запускается поиск, результаты добавляются в контекст, и цикл повторяется. Все это — пара сотен строк кода поверх ядра Pocket Flow.
Главное преимущество Pocket Flow - свобода. Нет привязки к конкретным API, подключайте любые модели, даже локальные. Нет зависимостей: ваш проект остается «легким», а интерфейсы не ломаются после обновлений. Хотите кеширование запросов или потоковую обработку? Реализуйте сами, без борьбы с чужими абстракциями.
Безусловно, у минимализма есть цена: вы не получите готовых решений для каждой задачи. Но именно в этом сила Pocket Flow. Он дает контроль и понимание процесса, а не готовый, но черный ящик.
Если вы устали от фреймворков-монстров и хотите начать с чистого листа — загляните в репозиторий Pocket Flow. Там есть примеры агентов, RAG-систем и мультиагентных сценариев.
📌Лицензирование: MIT License.
🟡Статья
🟡Документация
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Framework #Github«Это как ископаемое топливо, только хуже — вы сжигаете человеко-часы», — говорит Фан.Очевидное решение — использовать симуляции. NVIDIA запустила проект Dr. Eureka, где роботов учат в виртуальных мирах. Например, робособака учится балансировать на мяче, а гуманоид осваивает ходьбу за два часа симуляции вместо десяти лет проб и ошибок. Для этого запускают 10 000 параллельных сред с разной гравитацией, трением и весом (это называют «рандомизацией домена»). Если нейросеть справляется в миллионе вариаций, она справится и в реальности. Но симуляции, к сожалению, не панацея. Традиционные методы требуют ручной настройки каждого объекта. Тут на помощь приходят генеративные модели: Stable Diffusion создает текстуры, ИИ генерирует 3D-сцены, а язык XML пишется через запросы к нейросети. Так появился фреймворк Robocasa — «цифровой двойник» реального мира, где всё, кроме робота, создано алгоритмами. Даже видео с роботом, играющим на укулеле, — фейк, сгенерированный видео-диффузионной моделью. Ключевой прорыв - модель GROOT, которую NVIDIA открыла для сообщества. Она преобразует изображения и команды в движения, управляя роботом «из коробки». GROOT N1 ловко наливает шампанское или сортирует детали на конвейере. А все благодаря компактной архитектуре, всего 1.5 млн параметров, что меньше, чем у многих мобильных приложений. Что дальше? Фан говорит о «физическом API» — слое, который превратит роботов в универсальных исполнителей. Представьте: вы запрашиваете навык «приготовить ужин от Мишлен» через облако, и робот делает это без программирования. Или роботы-курьеры сами перестраивают логистику, общаясь через язык действий.
«Все, что движется, станет автономным», — цитирует Фан CEO NVIDIA Дженсена Хуанга.Главное препятствие кроется в этапе перехода от «цифровых близнецов» к нейросетевым симуляциям («цифровым кочевникам»), которые смогут предсказывать миллионы сценариев. Тут уже не хватит классических методов - нужны гибридные системы, где физика сочетается с генеративными моделями. И судя по темпам (за год нейросети научились реалистично имитировать жидкости и деформации), будущее ближе, чем кажется. Так когда же мы пройдем физический тест Тьюринга? Возможно, это случится в один из обычных вторников — без анонсов и громких презентаций, как это произошло с языковыми моделями. И тогда роботы станут невидимым фоном жизни, как электричество или Wi-Fi. А мы очень быстро забудем, как жили без них. 🔜 Посмотреть все доклады с мероприятия AI Ascent 2025 на Youtube. @ai_machinelearning_big_data #AI #ML #Robotics #AIAscent2025 #NVIDIA
[useful] или [noisy] . В инференсе модель возвращает 5 документов заданного типа.
🔜 Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в этой коллекции
🟡Arxiv
🟡Датасет
🟡Набор Simulation моделей
🟡Коллекция обученных моделей
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #ZeroSearch #Alibaba
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
