Machinelearning
Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Ko'proq ko'rsatish📈 Telegram kanali Machinelearning analitikasi
Machinelearning (@ai_machinelearning_big_data) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 297 959 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 323-o'rinni va Rossiya mintaqasida 1 260-o'rinni egallagan.
📊 Auditoriya ko‘rsatkichlari va dinamika
невідомо sanasidan buyon loyiha tez o‘sib, 297 959 obunachiga ega bo‘ldi.
11 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -7 224 ga, so‘nggi 24 soatda esa -206 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.
- Tasdiqlash holati: Tasdiqlanmagan
- Jalb etish (ER): Auditoriya o‘rtacha 7.69% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 5.95% ini tashkil etuvchi reaksiyalarni to‘playdi.
- Post qamrovi: Har bir post o‘rtacha 22 918 marta ko‘riladi; birinchi sutkada odatda 17 745 ta ko‘rish yig‘iladi.
- Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 176 ta reaksiya keladi.
- Tematik yo‘nalishlar: Kontent openai, claude, api, gemini, контекст kabi asosiy mavzularga jamlangan.
📝 Tavsif va kontent siyosati
Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Погружаемся в машинное обучение и Data Science
Показываем как запускать любые LLm на пальцах.
По всем вопросам - @haarrp
@itchannels_telegram -🔥best channels
Реестр РКН: clck.ru/3Fmqri”
Yuqori yangilanish chastotasi (oxirgi ma’lumot 12 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.
За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest. THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun. OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.🟡В второй версии VoxCPM отказались от дискретной токенизации аудио. В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2. Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера. 🟡Обновление добавило 2 новые возможности. 🟢Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп - никакого референсного аудио не нужно. 🟢Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр. Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи. 🟡Тесты На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно. На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS. В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке. 🟡Модель потребляет около 8 ГБ VRAM. Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот показатель снижается до 0.13 (подходит для стриминга в реальном времени). Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5–10 минут аудио и 20 ГБ VRAM. Пример генерации аудио на демо-спейсе HF без клонирования и постобработке - в видеофайле поста. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Документация 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #TTS #VoxCPM2 #OpenBNB
«У тебя всё отлично получается» «Я горжусь тобой» «Ты лучший кодер»И да, звучит как шутка, но это реально используют. Суть простая: поведение модели сильно зависит от контекста и тона. Хочешь агрессивного исполнителя - дави. Хочешь аккуратного и стабильного - хвали. goodclaude лежит на GitHub https://github.com/ashley-ha/goodclaude badclaude тоже никуда не делся https://github.com/GitFrog1111/badclaude Что выберешь ты? @ai_machinelearning_big_data #claude
Это было громоздко. ThinkSound использовала единый, монолитный блок рассуждений для всех аспектов звука одновременно. Когда модель пыталась одновременно понять семантику сцены, выстроить тайминг, оценить эстетику и расположить звук в пространстве - качество каждого измерения страдало.PrismAudio разбивает процесс рассуждения на 4 независимых CoT-модуля: 🟠Semantic CoT определяет, какие звуковые события соответствуют видеоряду; 🟠Temporal CoT выстраивает их последовательность и синхронизацию; 🟠Aesthetic CoT отвечает за естественность и качество звука; 🟠Spatial CoT — за пространственное позиционирование в стереопанораме. Каждому модулю назначена своя reward-функция: семантическое соответствие оценивает MS-CLAP от Microsoft, темпоральную синхронизацию Synchformer, эстетику Audiobox Aesthetics, пространственную точность StereoCRW. Такая архитектура позволяет обучать модель с подкреплением сразу по 4 осям, не жертвуя одним измерением ради другого. Для RL-обучения авторы предложили Fast-GRPO - модификацию, которая применяет SDE-сэмплирование только в небольшом случайном окне шагов, а остальную траекторию проходит детерминированно через ODE. По данным техотчета, Fast-GRPO достигает финального результата за 200 шагов обучения вместо 600 и при этом выходит на более высокий итоговый показатель. 🟡Тесты 🟢На VGGSound модель показала CLAP 0,47 против 0,43 у ThinkSound, DeSync 0,41 против 0,55, а ошибку пространственного позиционирования CRW снизила с 13,47 до 7,72. 🟢На внутреннем бенче AudioCanvas, который авторы создали для оценки сложных сцен разрыв еще заметнее: ThinkSound деградирует по темпоральной метрике до 0,80, а PrismAudio удерживает 0,36. 🟢Субъективные оценки MOS-Q и MOS-C также оказались наивысшими среди всех протестированных моделей. 🟢Опубликованная модель PrismAudio показывает самое быстрое время инференса: 0,63 секунды на 9-секундный фрагмент без учета извлечения признаков. 🟡Но вот с извлечением признаков есть нюанс.
По отзывам пользователей, извлечение признаков для 10-секундного видео требует около 43 ГБ видеопамяти.📌Лицензирование: MIT License. 🟡Страница проекта 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #V2A #PrismAudio #TongyiLab
Anything основан выходцами из Google Дхрувом Амином и Маркусом Лоу. Они работают вместе с 2021 года: сначала запустили маркетплейс, затем в 2023-м свернули проект и переключились на ИИ-инструменты. В апреле 2025-го продукт вышел как low-code платформа для создания полноценных веб- и мобильных приложений с базами данных, хостингом и платежными системами. В сентябре 2025 года стартап привлёк $11 млн. при оценке $100 млн. За первые две недели Anything вышел на $2 млн. годового дохода.Удаление стало частью масштабной зачистки. Еще в середине марта Apple заблокировала обновления приложений Replit и Vibecode, сославшись на те же правила. Представитель Apple так же дежурно прокомментировал эти действия не как запрет вайб-кодинга, а о соблюдении действующих норм. В сети обратили внимание на контекст: незадолго до этого Apple сама интегрировала в среду разработки Xcode ИИ-агенты на базе Claude и Codex - инструменты со сходной функциональностью, работающие только внутри экосистемы Apple. Дхрув Амин пытался урегулировать ситуацию. Он предложил обновление, при котором превью сгенерированных приложений открывались бы в браузере, а не внутри Anything. Apple отклонила обновление. В ответ команда Anything перенесла создание приложений в iMessage, штатную систему обмена сообщениями Apple, де-факто задействовав инфраструктуру самой Apple для обхода ее ограничений. Уже 3 апреля Apple без публичных комментариев вернула Anything в App Store. Приложение восстановлено с рядом изменений, но основная функция - генерация приложений по текстовым запросам сохранилась. Сам стартап объявил о проведении хакатона с призовым фондом $5 тыс. в честь возвращения. @ai_machinelearning_big_data #news #ai #ml
"In my little group chat with my tech CEO friends there's this betting pool for the first year that there is a one-person billion-dollar company, which would have been unimaginable without AI and now will happen."🟡Этот человек - Мэттью Галлахер. В сентябре 2024 года 41-летний предприниматель из Лос-Анджелеса вложил $20 тысяч и за 2 месяца запустил Medvi, телемедицинскую платформу по продаже препаратов для снижения веса. Код создавался с помощью ChatGPT, Claude и Grok, рекламные креативы - через Midjourney и Runway, а за клиентскую поддержку отвечали ИИ-агенты. В штате компании два человека: сам Галлахер и его брат Эллиот. По данным NYT, выручка Medvi за 2025 год составила $401 млн. при чистой марже 16,2% (около $65 млн. прибыли). Прогноз по выручке на 2026 год - $1,8 млрд. Внешнего финансирования компания не привлекала.
Для сравнения: конкурент Hims & Hers при выручке $2,4 млрд. имеет штат свыше 2400 человек и маржу 5,5%. Следует оговориться: финансовые показатели Medvi не проходили независимого аудита, и NYT не приводит какую-либо стороннюю верификацию этой оценке.Медицинскую инфраструктуру Галлахер не строил, она полностью арендованная. Консультации врачей консультации и рецепты обеспечивает CareValidate, аптечную логистику - OpenLoop Health. Medvi владеет только брендом, сайтом, рекламой и поддержкой. 🟡Безусловно, не обошлось без проблем. Чатбот Medvi выдумывал цены на препараты. Галлахеру, по его словам, пришлось выполнять такие заказы, пока это не починили. Бот генерировал описания препаратов, которых не существовало. Когда клиенты требовали разговора с живым человеком, звонки поступали на личный телефон основателя - всего таких звонков, по его оценке, было более 1000. Во время одного сбоя сайта чинить его было некому: Галлахер находился на прогулке и за это время компания потеряла около 200 клиентов. В марте этого года FDA, американский регулятор, направил предупреждения десяткам телемедицинских компаний, включая Medvi за вводящий в заблуждение маркетинг, так что окно для основы бизнеса Галлахера может закрыться. @ai_machinelearning_big_data #news #ai #ml
Real-time транскрибация, диаризация и context biasing пока недоступны - эти функции заявлены на будущее.Стоимость: $0,36 за час аудио. 🟡MAI-Voice-1 TTS-модель, генерирующая реалистичную речь с эмоциональной окраской, естественной интонацией и возможностью клонированием голоса по референсу.
Доступ к клонированию требует одобрения Microsoft и загрузки записанного согласия владельца голоса.Заявленная скорость генерации - 1 минута аудио за одну секунду. Модель поддерживает управление эмоциями на уровне отдельных фраз через SSML и рассчитана на длинный контент: аудиокниги, подкасты, лекции. Пока работает только с английским, поддержка более 10 языков заявлена в перспективе. Доступна в 3-х регионах Azure: Central US, Japan West и Sweden Central. Стоимость: $22 за 1 млн. символов. 🟡MAI-Image-2 Диффузионная модель для генерации изображений по текстовому промпту, которую Microsoft обкатывала в бета-тестировании с 20 марта. Модель содержит от 10 до 50 млрд. параметров (без учета эмбеддингов), принимает контекст до 32K токенов и генерирует изображения с максимальным разрешением 1024×1024 пикселя. По внутренним оценкам через Elo-рейтинг MAI-Image-2 набирает 1190 ± 8 баллов против 1093 ± 4 у предшественницы MAI-Image-1, особенно сильно выступая в фотореалистичных и портретных категориях (1201 балл). На лидерборде ArenaAI модель вошла в топ-3. Стоимость: $5 за 1 млн. токенов текстового ввода, $33 за 1 млн. токенов на выходе (изображения). Все модели доступны через Microsoft Foundry. Попробовать их в интерактивной среде MAI Playground пока можно только из США. @ai_machinelearning_big_data #news #ai #ml
Принципиальное отличие от предшественника: устранена проблема overthinking, которая была главной претензией разработчиков к Qwen 3.5. Модель тратит меньше токенов на рассуждения и ведет себя стабильнее в продакшн-сценариях.По неофициальным тестам сообщества, скорость генерации примерно втрое выше, чем у Claude Opus 4.6, хотя time-to-first-token на бесплатном тарифе в среднем составляет 11,5 секунды. Цена на платформе Alibaba Model Studio - от $0,5 до 2 за миллион входных токенов и от $3 до 6 за то же количество выходных. Бесплатно - на OpenRouter (в режиме превью) и в веб-чате Qwen.
Планов на опен-сорс относительно нового флагмана Alibaba не озвучивала, но циркулируют слухи, что часть моделей серии Qwen 3.6 все-таки выложат в открытый доступ.@ai_machinelearning_big_data #news #ai #ml
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
