Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Show more📈 Analytical overview of Telegram channel Machinelearning
Channel Machinelearning (@ai_machinelearning_big_data) in the Russian language segment is an active participant. Currently, the community unites 297 959 subscribers, ranking 323 in the Technologies & Applications category and 1 260 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 297 959 subscribers.
According to the latest data from 11 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -7 224 over the last 30 days and by -206 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 7.69%. Within the first 24 hours after publication, content typically collects 5.95% reactions from the total number of subscribers.
- Post reach: On average, each post receives 22 918 views. Within the first day, a publication typically gains 17 745 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 176.
- Thematic interests: Content is focused on key topics such as openai, claude, api, gemini, контекст.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Thanks to the high frequency of updates (latest data received on 12 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest. THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun. OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.🟡В второй версии VoxCPM отказались от дискретной токенизации аудио. В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2. Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера. 🟡Обновление добавило 2 новые возможности. 🟢Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп - никакого референсного аудио не нужно. 🟢Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр. Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи. 🟡Тесты На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно. На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS. В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке. 🟡Модель потребляет около 8 ГБ VRAM. Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот показатель снижается до 0.13 (подходит для стриминга в реальном времени). Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5–10 минут аудио и 20 ГБ VRAM. Пример генерации аудио на демо-спейсе HF без клонирования и постобработке - в видеофайле поста. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Документация 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #TTS #VoxCPM2 #OpenBNB
«У тебя всё отлично получается» «Я горжусь тобой» «Ты лучший кодер»И да, звучит как шутка, но это реально используют. Суть простая: поведение модели сильно зависит от контекста и тона. Хочешь агрессивного исполнителя - дави. Хочешь аккуратного и стабильного - хвали. goodclaude лежит на GitHub https://github.com/ashley-ha/goodclaude badclaude тоже никуда не делся https://github.com/GitFrog1111/badclaude Что выберешь ты? @ai_machinelearning_big_data #claude
Это было громоздко. ThinkSound использовала единый, монолитный блок рассуждений для всех аспектов звука одновременно. Когда модель пыталась одновременно понять семантику сцены, выстроить тайминг, оценить эстетику и расположить звук в пространстве - качество каждого измерения страдало.PrismAudio разбивает процесс рассуждения на 4 независимых CoT-модуля: 🟠Semantic CoT определяет, какие звуковые события соответствуют видеоряду; 🟠Temporal CoT выстраивает их последовательность и синхронизацию; 🟠Aesthetic CoT отвечает за естественность и качество звука; 🟠Spatial CoT — за пространственное позиционирование в стереопанораме. Каждому модулю назначена своя reward-функция: семантическое соответствие оценивает MS-CLAP от Microsoft, темпоральную синхронизацию Synchformer, эстетику Audiobox Aesthetics, пространственную точность StereoCRW. Такая архитектура позволяет обучать модель с подкреплением сразу по 4 осям, не жертвуя одним измерением ради другого. Для RL-обучения авторы предложили Fast-GRPO - модификацию, которая применяет SDE-сэмплирование только в небольшом случайном окне шагов, а остальную траекторию проходит детерминированно через ODE. По данным техотчета, Fast-GRPO достигает финального результата за 200 шагов обучения вместо 600 и при этом выходит на более высокий итоговый показатель. 🟡Тесты 🟢На VGGSound модель показала CLAP 0,47 против 0,43 у ThinkSound, DeSync 0,41 против 0,55, а ошибку пространственного позиционирования CRW снизила с 13,47 до 7,72. 🟢На внутреннем бенче AudioCanvas, который авторы создали для оценки сложных сцен разрыв еще заметнее: ThinkSound деградирует по темпоральной метрике до 0,80, а PrismAudio удерживает 0,36. 🟢Субъективные оценки MOS-Q и MOS-C также оказались наивысшими среди всех протестированных моделей. 🟢Опубликованная модель PrismAudio показывает самое быстрое время инференса: 0,63 секунды на 9-секундный фрагмент без учета извлечения признаков. 🟡Но вот с извлечением признаков есть нюанс.
По отзывам пользователей, извлечение признаков для 10-секундного видео требует около 43 ГБ видеопамяти.📌Лицензирование: MIT License. 🟡Страница проекта 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #V2A #PrismAudio #TongyiLab
Anything основан выходцами из Google Дхрувом Амином и Маркусом Лоу. Они работают вместе с 2021 года: сначала запустили маркетплейс, затем в 2023-м свернули проект и переключились на ИИ-инструменты. В апреле 2025-го продукт вышел как low-code платформа для создания полноценных веб- и мобильных приложений с базами данных, хостингом и платежными системами. В сентябре 2025 года стартап привлёк $11 млн. при оценке $100 млн. За первые две недели Anything вышел на $2 млн. годового дохода.Удаление стало частью масштабной зачистки. Еще в середине марта Apple заблокировала обновления приложений Replit и Vibecode, сославшись на те же правила. Представитель Apple так же дежурно прокомментировал эти действия не как запрет вайб-кодинга, а о соблюдении действующих норм. В сети обратили внимание на контекст: незадолго до этого Apple сама интегрировала в среду разработки Xcode ИИ-агенты на базе Claude и Codex - инструменты со сходной функциональностью, работающие только внутри экосистемы Apple. Дхрув Амин пытался урегулировать ситуацию. Он предложил обновление, при котором превью сгенерированных приложений открывались бы в браузере, а не внутри Anything. Apple отклонила обновление. В ответ команда Anything перенесла создание приложений в iMessage, штатную систему обмена сообщениями Apple, де-факто задействовав инфраструктуру самой Apple для обхода ее ограничений. Уже 3 апреля Apple без публичных комментариев вернула Anything в App Store. Приложение восстановлено с рядом изменений, но основная функция - генерация приложений по текстовым запросам сохранилась. Сам стартап объявил о проведении хакатона с призовым фондом $5 тыс. в честь возвращения. @ai_machinelearning_big_data #news #ai #ml
"In my little group chat with my tech CEO friends there's this betting pool for the first year that there is a one-person billion-dollar company, which would have been unimaginable without AI and now will happen."🟡Этот человек - Мэттью Галлахер. В сентябре 2024 года 41-летний предприниматель из Лос-Анджелеса вложил $20 тысяч и за 2 месяца запустил Medvi, телемедицинскую платформу по продаже препаратов для снижения веса. Код создавался с помощью ChatGPT, Claude и Grok, рекламные креативы - через Midjourney и Runway, а за клиентскую поддержку отвечали ИИ-агенты. В штате компании два человека: сам Галлахер и его брат Эллиот. По данным NYT, выручка Medvi за 2025 год составила $401 млн. при чистой марже 16,2% (около $65 млн. прибыли). Прогноз по выручке на 2026 год - $1,8 млрд. Внешнего финансирования компания не привлекала.
Для сравнения: конкурент Hims & Hers при выручке $2,4 млрд. имеет штат свыше 2400 человек и маржу 5,5%. Следует оговориться: финансовые показатели Medvi не проходили независимого аудита, и NYT не приводит какую-либо стороннюю верификацию этой оценке.Медицинскую инфраструктуру Галлахер не строил, она полностью арендованная. Консультации врачей консультации и рецепты обеспечивает CareValidate, аптечную логистику - OpenLoop Health. Medvi владеет только брендом, сайтом, рекламой и поддержкой. 🟡Безусловно, не обошлось без проблем. Чатбот Medvi выдумывал цены на препараты. Галлахеру, по его словам, пришлось выполнять такие заказы, пока это не починили. Бот генерировал описания препаратов, которых не существовало. Когда клиенты требовали разговора с живым человеком, звонки поступали на личный телефон основателя - всего таких звонков, по его оценке, было более 1000. Во время одного сбоя сайта чинить его было некому: Галлахер находился на прогулке и за это время компания потеряла около 200 клиентов. В марте этого года FDA, американский регулятор, направил предупреждения десяткам телемедицинских компаний, включая Medvi за вводящий в заблуждение маркетинг, так что окно для основы бизнеса Галлахера может закрыться. @ai_machinelearning_big_data #news #ai #ml
Real-time транскрибация, диаризация и context biasing пока недоступны - эти функции заявлены на будущее.Стоимость: $0,36 за час аудио. 🟡MAI-Voice-1 TTS-модель, генерирующая реалистичную речь с эмоциональной окраской, естественной интонацией и возможностью клонированием голоса по референсу.
Доступ к клонированию требует одобрения Microsoft и загрузки записанного согласия владельца голоса.Заявленная скорость генерации - 1 минута аудио за одну секунду. Модель поддерживает управление эмоциями на уровне отдельных фраз через SSML и рассчитана на длинный контент: аудиокниги, подкасты, лекции. Пока работает только с английским, поддержка более 10 языков заявлена в перспективе. Доступна в 3-х регионах Azure: Central US, Japan West и Sweden Central. Стоимость: $22 за 1 млн. символов. 🟡MAI-Image-2 Диффузионная модель для генерации изображений по текстовому промпту, которую Microsoft обкатывала в бета-тестировании с 20 марта. Модель содержит от 10 до 50 млрд. параметров (без учета эмбеддингов), принимает контекст до 32K токенов и генерирует изображения с максимальным разрешением 1024×1024 пикселя. По внутренним оценкам через Elo-рейтинг MAI-Image-2 набирает 1190 ± 8 баллов против 1093 ± 4 у предшественницы MAI-Image-1, особенно сильно выступая в фотореалистичных и портретных категориях (1201 балл). На лидерборде ArenaAI модель вошла в топ-3. Стоимость: $5 за 1 млн. токенов текстового ввода, $33 за 1 млн. токенов на выходе (изображения). Все модели доступны через Microsoft Foundry. Попробовать их в интерактивной среде MAI Playground пока можно только из США. @ai_machinelearning_big_data #news #ai #ml
Принципиальное отличие от предшественника: устранена проблема overthinking, которая была главной претензией разработчиков к Qwen 3.5. Модель тратит меньше токенов на рассуждения и ведет себя стабильнее в продакшн-сценариях.По неофициальным тестам сообщества, скорость генерации примерно втрое выше, чем у Claude Opus 4.6, хотя time-to-first-token на бесплатном тарифе в среднем составляет 11,5 секунды. Цена на платформе Alibaba Model Studio - от $0,5 до 2 за миллион входных токенов и от $3 до 6 за то же количество выходных. Бесплатно - на OpenRouter (в режиме превью) и в веб-чате Qwen.
Планов на опен-сорс относительно нового флагмана Alibaba не озвучивала, но циркулируют слухи, что часть моделей серии Qwen 3.6 все-таки выложат в открытый доступ.@ai_machinelearning_big_data #news #ai #ml
Available now! Telegram Research 2025 — the year's key insights 
