Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 559 Технологии и приложения2 679...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 150 подписчиков, занимая 2 679 место в категории Технологии и приложения и 12 559 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 150 подписчиков.

Согласно последним данным от 13 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -42, а за последние 24 часа — -11, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.83%. В первые 24 часа после публикации контент обычно набирает 5.66% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 426 просмотров. В течение первых суток публикация набирает 2 839 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 15 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 150

Подписчики

-1124 часа

-597 дней

-4230 день

4 426

Просмотры поста

~ 2 83924 часа

~ 3 39048 часов

8.83%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 150

🚀 Новый тариф GLM Coding Plan для Claude Code! Теперь работать с GLM-4.5 стало проще и дешевле: - 💸 Цена снизилась в 7 раз - ⚡️ В 3 раза больше промптов для задач по коду 🟠Get started: http://z.ai/subscribe 🟠Integration guide: http://docs.z.ai/scenario-example/develop-tools/claude

50 150

📝 Новое исследование о креативности текста Учёные показали: тексты, созданные человеком, семантически новее, чем сгенерированные ИИ. 🔎 Как измеряли Они ввели метрику «semantic novelty» — косинусное расстояние между соседними предложениями. 🧠 Главные выводы Человеческие тексты стабильно показывают более высокую новизну на разных эмбеддинг-моделях (RoBERTa, DistilBERT, MPNet, MiniLM). В датасете «human-AI storytelling» вклад людей оказался семантически разнообразнее. ✨ Но есть нюанс То, что мы называем «галлюцинациями» ИИ, может быть полезным в совместном сторителлинге. Они добавляют неожиданные повороты и помогают удерживать интерес к истории. 👉 Вывод: люди более новаторские, ИИ — более предсказуемый, но вместе они усиливают друг друга. Подробности

50 150

🚀 LongCat-Flash-Chat — новая MoE-модель от Meituan Что это: LongCat-Flash-Chat — огромная модель на 560B параметров с архитектурой Mixture-of-Experts (MoE). При этом в работе активируется только 18.6–31.3B параметров (в среднем ~27B), что делает её очень эффективной. Особенности: - Дизайн ScMoE (shortcut-connected MoE) позволяет перекрывать вычисления и коммуникации → скорость инференса более 100 токенов/сек. - Продуманная стратегия масштабирования: стабильное обучение, защита от ошибок данных, репродуцируемость. - Настроена под агентные задачи: контекст до 128k токенов, multi-stage пост-трейнинг, синтез данных с участием мультиагентов. Результаты: Модель показывает конкурентную производительность в понимании текста, академических задачах, программировании и агентных сценариях. Лицензия и доступ: - Доступна бесплатно на Hugging Face. - Лицензия MIT — можно использовать в любых проектах. https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

50 150

🛠️ Fine-tuning GPT-OSS и деплой в FP4 Простое дообучение в MXFP4 часто рушит качество модели. NVIDIA показала рабочий рецепт: совмещаем fine-tuning с Quantization-Aware Training (QAT), а затем возвращаем модель в 4-битную точность — быстро и без потери качества при инференсе. 🚀 В блоге: - Пошаговый QAT-гайд с кодом - Бенчмарки после fine-tune + QAT - Как NVFP4 на Blackwell даёт ещё больше точности 📖 Полный рецепт в NVIDIA Model Optimizer: https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/

50 150

📢 OpenAI опубликовала официальный Realtime Prompting Guide — подробное руководство по работе с новым моделью gpt-realtime для голос-голос взаимодействия в API. 🧠 В отличие от текстовых моделей, gpt-realtime требует особых техник промптинга. Вот ключевые: ● Делите системный промпт на секции: роль, тон, контекст, правила, инструменты, поток диалога, безопасность ● Чётко задавайте роль и цель, чтобы модель понимала свою задачу и критерии успеха ● Управляйте речью напрямую: длина ответа (2–3 предложения), темп речи, жёсткая языковая блокировка ● Добавляйте примеры фраз для стиля и правило вариативности, чтобы избежать повторов ● Указывайте правильные произношения сложных терминов, цифры и коды — по символам, с подтверждением ● Убирайте неоднозначности: давайте определения, устраняйте конфликты, используйте критику для улучшения промпта ● Для непонятного аудио — отвечать только на чёткий ввод, в том же языке запрашивать уточнение ● Точно описывайте работу инструментов: когда использовать, когда нет, добавляйте преамбулы или запрос подтверждения ● Если роли разделены на «мыслителя» и «отвечающего» — требуйте перефразировать мысль в короткий живой ответ для речи ● Организуйте диалог как состояния с целями, инструкциями, критериями выхода и примерами ● Для сложных сценариев используйте JSON state machine или динамические правила и списки инструментов ● Определяйте условия эскалации (например, 2 сбоя инструмента или 3 подряд «нет ввода»), при которых модель должна коротко и нейтрально передать разговор человеку ⚡️ Этот гайд даёт системный подход к промптингу в реальном времени и помогает строить надёжных голосовых ассистентов на базе gpt-realtime. https://cookbook.openai.com/examples/realtime_prompting_guide

50 150

Repost from Machinelearning

⚡️ OLMoASR: открытые ASR-модели от AI2. Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи. ▶️Линейка моделей: 🟢OLMoASR-tiny.en (39M); 🟢OLMoASR-base.en (74M); 🟢OLMoASR-small.en (244M); 🟢OLMoASR-medium.en (769M); 🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио; 🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио; По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями. Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI #ML #ASR #OLMoASR #AI2

50 150

KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥 Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов. ✨ Основные возможности: - Конвертация изображений в Markdown - OCR с пространственными координатами - Общение напрямую с документами Огромный шаг для Document AI и мультимодальных рабочих процессов! 🟢Models : https://huggingface.co/models?search=microsoft/kosmos-2.5 🟢Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5 #AI #HuggingFace #Microsoft #DocumentAI

50 150

🛰 ComputerRL — новый фреймворк, который учит AI-агентов работать с компьютером так же, как это делает человек. Главная идея — парадигма API-GUI: агент может и вызывать API, и кликать по кнопкам интерфейса. Благодаря этому исчезает разрыв между машинной автоматизацией и привычным для человека рабочим столом. Команда Zai проверила ComputerRL на модели GLM-4-9B-0414 и протестировала её на бенчмарке OSWorld. Результат — новый агент AutoGLM-OS-9B, который достиг рекордной точности и уверенно решает задачи автоматизации в desktop-средах. Проще говоря: теперь AI может не только «понимать» компьютер, но и полноценно работать с ним — запускать программы, управлять окнами и выполнять сложные действия. 📌 Статья 📌 Проект

50 150

🔥AI VK & Pro — топовый ивент по рекомендательным системам Пришли спецы из разных уголков RecSys и ML: от экспертов из больших компаний до независимых исследователей. Максимум стиля и глитча Команда VK поделилась, как они видят будущее рекомендаций, как строят единую рекомендательную платформу и многое другое. Нетворкали, обсуждали, что стоит за трендами и куда движемся дальше Диджей-сеты, активности и стиль

50 150

🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A). 🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего. ✨ Главное: - Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов. - Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение. - Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов. 📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены. 👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0 🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/ 🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley 📄 Report: https://arxiv.org/abs/2508.16930 🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley @data_analysis_ml

50 150

📈 По данным FT, планы OpenAI завершить реструктуризацию и привлечь новые инвестиции буксуют — переговоры с Microsoft по ключевым пунктам всё ещё не закрыты. Что на кону: - Контракт до 2030 года переписывается, чтобы инвесторы могли получить долю в компании и в будущем выйти на IPO - В центре обсуждений доступ к API: сейчас модели OpenAI эксклюзивно хостятся в Azure, и Microsoft фактически контролирует доступ. OpenAI же хочет добавить и другие облака — Google Cloud и AWS - Microsoft настаивает на расширенном доступе к интеллектуальной собственности: видеть не только готовые модели, но и процесс их обучения - Самый жёсткий спор — AGI-клаузула: сейчас OpenAI может ограничить доступ Microsoft при объявлении достижения AGI. Microsoft требует убрать этот пункт, но OpenAI хочет сохранить рычаги Итог этих переговоров определит и долю Microsoft в OpenAI — ожидается 30–35%, после уже вложенных $13 млрд. Именно этот узел решит, как будут распределяться контроль и будущее влияние в гонке за ИИ. 🟠 Подробнее

50 150

Marvis-TTS 🔥🚀 Новая локальная TTS-модель, которая работает в реальном времени прямо на потребительских устройствах: Apple Silicon, iPhone, iPad и других. В отличие от классических моделей, требующих полный ввод текста или жертвующих скоростью, Marvis генерирует речь потоково — звук появляется по мере обработки текста. Моделька создаёт эффект живого диалога. Основные особенности: - Потоковое озвучивание без задержек - Отсутствие неестественных пауз и обрывов - Учет полного контекста текста для связного и выразительного голоса Установить модель можно командой:


pip install -U mlx-audio

https://huggingface.co/collections/Marvis-AI/marvis-tts-250m-v01-68adf13f5f59206e3910502a @data_analysis_ml

50 150

🔥 Новинка от S-Lab, Nanyang Technological University и SenseTime Research: Next Visual Granularity Generation (NVG)! 🖼️ Новый фреймворк поэтапно улучшает изображение — от общего макета до мельчайших деталей, позволяя получить тонкий контроль над процессом генерации. 📊 Результаты впечатляют: NVG превзошёл серию VAR по метрикам FID! huggingface.co/papers/2508.12811

50 150

MiniCPM-V 4.5 🚀 Свежий релиз от OpenBMB — мультимодальная модель, которая умеет понимать картинки, несколько изображений подряд и даже видео. Главное: запуск возможен прямо на телефоне 📱 Что внутри: ✨ Достигает SOTA результатов в задачах vision+language ✨ 96× сжатие видеотокенов → можно анализировать длинные ролики с высоким FPS ✨ Два режима работы: быстрые ответы (Fast) или глубокие рассуждения (Deep) ✨ Мощный OCR для документов ✨ Поддержка более чем 30 языков 🔗 Подробнее: https://huggingface.co/openbmb/MiniCPM-V-4_5 @data_analysis_ml

50 150

Repost from Machine learning Interview

Google все таки стояли за Nano Banana и намается она теперь Gemini Native Image. Эта модель для редактирования изображений- мощный коктейль из Photoshop, Figma и MidJourney! Gemini Native Image — качество редактирования Которое не имеет аналогов. Что он умеет? Попробуйте, она стоит вашего времени: • Заменяет объекты на фото, сохраняя остальное — без артефактов и искажений. • Реставрирует старые снимки — родственники будут в шоке! • Раскрашивает фото как профи-колорист. • Удаляет фон идеально чисто. • Меняет освещение на снимке. • Всё — через один интуитивный промпт: просто опишите, что хотите! Посмотрите примеры — модель просто огонь! 🔥 Доступна беcплатно в aistudio: http://aistudio.google.com/prompts/new_chat @machinelearning_interview

50 150

Стань AI-инженером мирового уровня и зарабатывай до 1 млн. ₽ Уже сейчас работодатели активно ищут таких специалистов, и спрос на них будет только расти! Магистратура «ИИ и компьютерное зрение» в ИТ-университете НЕЙМАРК — это: 1) онлайн обучение на английском языке 2) 2 диплома: НИУ ВШЭ + НЕЙМАРК 3) реальные задачи от Intel, Huawei, SBERLAB и других 4) возможность запустить стартап при поддержке наставников во время обучения 5) отсрочка от армии Узнай, как поступить и учиться бесплатно — переходи в бот и забирай инструкцию! Реклама. НЕЙМАРК, УНИВЕРСИТЕТ НЕЙМАРК. ИНН 5256209106.

50 150

🔋 Goldman Sachs выпустил 26-страничный отчёт об энергии и ИИ: **Powering the AI Era** Главный вывод: дата-центры для ИИ потребляют электричество быстрее, чем энергетики успевают строить новые мощности. Будущее индустрии будет зависеть не только от быстрых чипов, но и от того, кто сможет найти деньги и схемы финансирования для строительства. 🧵 Кратко по пунктам 👇 🚂 Каждый технологический бум имел опору - XIX век — железные дороги - 1990-е — оптоволоконные сети - 2020-е — стойки с GPU Одна «AI-фабрика» мощностью 250 МВт обойдётся примерно в $12 млрд. 📈 Почему обучение ИИ так прожорливо - Кластеры состоят из тысяч GPU с жидкостным охлаждением. - К 2027 году одна стойка будет потреблять в 50 раз больше энергии, чем облачная стойка 2022 года. - Даже с оптимизациями мировой спрос на энергию дата-центров вырастет на 160% к 2030 году. ⚡ Энергосети не справляются - Средний возраст ЛЭП в США — 40 лет. - Разрешение на газовую станцию занимает до 7 лет. - Goldman оценивает распределение новых источников: - 30% комбинированные газовые станции - 30% газовые «пикеры» - 27,5% солнечная энергетика - 12,5% другие источники 🔌 Как выкручиваются операторы - Строят дата-центры прямо рядом с генераторами. - Используют микросети, чтобы сглаживать пики нагрузки. - Это ускоряет запуск, но создаёт конфликты с соседями — круглосуточно шумят дизельные или газовые турбины. 🟠 Подробнее

50 150

🚀 NVIDIA ускорила LLM в 53 раза 🤯 Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей. 📌 Как это работает: Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей. Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект. Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием. Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям. ⚡ Результат - Jet-Nemotron: - 2 885 токенов/с ⚡ - 47× меньше KV-кеша (всего 154 MB) - Топовая точность при космической скорости 🔑 Почему это важно: Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально. Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью. Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации. 🟠Github 🟠Статья

50 150

🗣️ *Локальный голосовой ИИ с LLM на 235B параметров — прямо на Mac* Да, это реально: голосовой ассистент, полностью офлайн, с гигантской моделью на 235 миллиардов параметров. Всё работает локально на Mac M4. 📦 Стек: — smart-turn v2 — управление диалогами — MLX Whisper (large-v3-turbo-q4) — распознавание речи — Qwen3-235B-A22B-Instruct-2507-3bit-DWQ — основная LLM — Kokoro — голосовой движок 🧠 Всё это запускается локально, без интернета. Максимальное потребление памяти — ~110 ГБ. ⏱️ Задержка «голос → голос» — примерно 950 мс, и её ещё можно уменьшить на ~100 мс. 💡 Для первых экспериментов — впечатляющий результат. Голосовой AI без облаков уже рядом. 🟢 Github @data_analysis_ml

50 150

⚡️ Виртуальные десктопы в облаке: как с ними работать? В MTC Web Services стартует серия практических вебинаров, где эксперты помогут разобраться с техническими этапами внедрения облачных сервисов с нуля. На первом вебинаре 28 августа будем говорить об особенностях реализации и уникальных преимуществах нашего сервиса MWS VDI на базе VMcloud Platform. Вебинар будет особенно полезен компаниям, которым сложно администрировать большой парк компьютеров и контролировать безопасность данных. ℹ️ Для кого: ИТ-директорам и специалистам по безопасности, системным администраторам Что еще в программе? 1️⃣Какие способы доступа в VDI вы получаете в MWS 2️⃣Какое оборудование подходит для решения ваших бизнес-задач 3️⃣Как устроена техническая поддержка пользователей MWS 4️⃣Какие зоны ответственности у провайдера и заказчика 5️⃣Как мы обеспечиваем безопасность данных в публичном облаке Зарегистрироваться на онлайн-дискуссию ⬅️