Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 192 名订阅者,在 技术与应用 类别中位列第 2 668,并在 俄罗斯 地区排名第 12 554 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 192 名订阅者。
根据 15 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -8,过去 24 小时变化为 25,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 8.82%。内容发布后 24 小时内通常能获得 5.98% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 427 次浏览,首日通常累积 2 999 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 16 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 192
订阅者
+2524 小时
-287 天
-830 天
帖子存档
🎮 VideoGameBench — первый в своём роде бенчмарк, который проверяет возможности VLM в реальном времени играть в 20 классических игр для Game Boy и MS‑DOS:
В списке есть: Doom II и Quake до Pokemon Red и Super Mario Land и другие.
Например, при игре в Doom. Sonnet 3.7 прошёл дальше всех и даже нашёл «синюю комнату»!
Режим реального времени: агент получает только raw‑фреймы и контролирует игру «на ходу» в режиме реального времени.
VideoGameBench‑Lite: среда автоматически ставит игру на паузу, пока модель думает, чтобы убрать задержки инференса и дать время на обдуманные действия
vgbench.com
.
Единый интерфейс: абстрагируем эмуляторы (PyBoy для Game Boy, DOSBox для MS‑DOS) и предоставляем API для передачи изображений, нажатий кнопок и проверки завершения игры
vgbench.com
Open‑source: код и примеры агентов доступны на GitHub — клонируйте, форкайте и тестируйте свои LLM/VLM‑агенты!
vgbench.com
📂 Репозиторий: https://github.com/alexzhang13/videogamebench
🔗 Документация и примеры агентов: https://www.vgbench.com/
#VideoGameBench #VLM #AI #ReinforcementLearning #AIGC
@data_analysis_ml
⚡️Строим рекомендательную систему фильмов на Kaggle
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели
Вебинар будет интересен как новичкам, так и уже опытным специалистам
😶Зарегистрироваться на бесплатный вебинар
🖥 Roboflow Trackers
Roboflow/trackers — это новая, унифицированная Python‑библиотека object‑tracking, в которой «с нуля» реализуются популярные алгоритмы многoобъектного трекинга (первым уже готов SORT, вскоре планируются Deep SORT, ByteTrack и др.)
Проект входит в open‑source‑экосистему Roboflow (Supervision, RF‑DETR и т.д.) и предоставляет единый API поверх разных детекторов, так что вы можете, например, скрестить Ultralytics YOLO‑v9, MMDetection или HuggingFace Transformers с любым трекером из пакета без «клея»‑оберток.
Установка
pip install trackers
import supervision as sv
from rfdetr import RFDETRBase # любой детектор
from trackers.sort_tracker import SORTTracker
model = RFDETRBase() # или Ultralytics, MMDet…
tracker = SORTTracker()
def callback(frame, _):
dets = model.predict(frame) # сводим к sv.Detections
dets = tracker.update(dets) # добавляем tracker_id
return sv.LabelAnnotator(
text_position=sv.Position.CENTER
).annotate(frame, dets, dets.tracker_id)
sv.process_video("in.mp4", "out.mp4", callback)
На выходе ‑ ролик с пронумерованными боксами, где каждый объект сохраняет ID между кадрами.
Лицензия без ограничений (Apache‑2.0) и возможность править алгоритм под себя.
👉 Репозиторий❓ Алгоритмическая торговля и количественный анализ: успех зависит от точного тестирования. Как избежать убытков и ошибок в логике торговых стратегий?
На открытом уроке 28 апреля в 20:00 мск научим вас, как правильно тестировать торговые стратегии с помощью самых популярных инструментов. Применение таких инструментов, как pandas, backtrader и backtesting, поможет вам избежать переобучения и непредсказуемых рыночных условий.
Используя полученные знания, вы сможете точно оценивать эффективность своих стратегий, настраивать метрики, такие как доходность и Sharpe ratio, и улучшать результаты с минимальными рисками.
➡️ Присоединяйтесь к открытому уроку и получите скидку на большое обучение «ML для финансового анализа»: https://otus.pw/lQq0/?erid=2W5zFHubd2g
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Repost from Machinelearning
🖥 OpenAi представлют новые модели o-серии (o3 и o4-mini)
OpenAI утверждает, что эти модели способны генерировать новые и полезные идеи.
Обе будут добавлены с сегодняшнего дня в ChatGPT и API.
Эти ризонинг модели стали лучше использовать внутренние инструменты для решения сложных задач.
Модель o3 установила новый рекорд на AIME 2025 с точностью 98.4%.
А вот o4-mini, набрала 99.5% — лучший результат среди всех моделей.
На Codeforces модели набирают более 2700 баллов, что помещает их в число 200 лучших программистов в мире!
На Humanity Last Exam её показатели находятся на уровне флагманской модели Deep Research.
API — о3 сильно дешевле о1: 10/40$ вместо 15/60$, а o4-mini будет доступна для БЕСПЛАТНЫХ пользователей
С помощью внутренних инструментов модель также умеет рассуждать и работать с изображениями (например, использовать Python для их преобразования).
Эти способности к рассуждению достигнуты благодаря масштабированию как во время обучения, так и во время инференса.
Трансляция: https://www.youtube.com/watch?v=sq8GBPUb3rk
@ai_machinelearning_big_data
#openai
🚀 MaxText — высокопроизводительный LLM-фреймворк для на Python/JAX для TPU и GPU. В отличие от многих аналогов, он достигает высокой эффективности без ручных оптимизаций — за счёт возможностей JAX и компилятора XLA.
Проект поддерживает Llama 2/3, Mistral, Mixtral, Gemma и DeepSeek, а его ключевая фишка — линейная масштабируемость: от одного устройства до кластеров в 51 000 чипов. При этом код остаётся минималистичным, что упрощает кастомизацию под исследовательские и продакшн-задачи.
🤖 GitHub
@data_analysis_ml
Открыт приём научных работ в журнал Международной конференции AI Journey с призом за лучшую статью
— 1 миллион рублей.
Ключевые исследования будут опубликованы в спецвыпуске журнала «Доклады РАН. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics.
Условия участия:
✓ Оригинальные исследования (без плагиата)
✓ Языки: русский/английский
✓ Дедлайн подачи — 20 августа 2025
Подать заявку → https://aij.ru/science
Veo 2 от Google доступен для всех — создавать кинематографичные ролики можно в AI Studio.
Лимит: 3-5 видео в день, зато БЕСПЛАТНО. Если у вас ещё не появился доступ, попробуйте притвориться американцем с помощью VPN.
📚 AICI — новый уровень контроля над генерацией текста в LLM. Это не просто очередная библиотека, а принципиально новый подход к интеграции пользовательской логики в процесс генерации текста.
Суть в том, что разработчики с помощью данного инструмента дают возможно встраивать собственные алгоритмы прямо в процесс декодирования токенов. Например, можно динамически редактировать промпты, ограничивать вывод по грамматике или координировать несколько параллельных генераций. Всё это работает через компактные Wasm-модули, выполняющиеся на CPU параллельно с GPU-вычислениями модели.
🤖 GitHub
@data_analysis_ml
🎙 Новый выпуск DEPLOY подкаста — включай, если интересуешься техноподходом в реальных продуктах
Гость выпуска — Антон из Яндекса, эксперт по рекламным технологиям.
С 2013 года он, прошёл путь от Perl до C++ и сегодня отвечает за инфраструктуру и качество таких сервисов, как Яндекс.Директ и Метрика.
Звучит серьёзно — так оно и есть.
Но при этом выпуск получился очень живой, прикладной и честный.
Что внутри:
🟡 Как реклама помогает бизнесу продавать, а пользователям решать свои задачи — за счёт системы рекомендаций
🟡 Зачем нужны нейросети в реальном времени и как они влияют на user experience
🟡 Как проектировать высоконагруженные системы, чтобы они не разваливались под нагрузкой
🟡 Что такое «перфоратор» и как оптимизировать нагрузку на сервера
🟡 Почему без нормальной командной структуры и A/B-тестов далеко не уедешь
🟡 Как устроена разработка в Яндексе, как решаются конфликты и почему важно менторство
Антон очень чётко объясняет сложные штуки, не уходит в абстракции и при этом даёт полезный взгляд на реальную разработку, архитектуру и работу больших продуктовых команд.
📍 Смотри/слушай:
⚫️ YouTube
⚫️ VK
⚫️ Rutube
Подкаст — must listen, если ты работаешь с ML, инфраструктурой, рекламой или просто хочешь понять, как всё это устроено в настоящей продовой среде.
+2
🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.
🌟 Новая SOTA на ключевых бенчмарках по vision + math:
🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)
🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:
🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):
Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).
При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.
Почему это важно?
При обычном GRPO-со временем "advantage" может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.
🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.
Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.
🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.
✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.
Похоже, что будущее за "медленно думающими" и умеющими рефлексировать агентами.
🔜 Paper
🔜 Code
🔜 Website
@ai_machinelearning_big_data
📚 MIT 6.S191 – Лекция 7: Генеративный ИИ для медиа
Выступает Doug Eck — ведущий исследователь Google Research, один из создателей MusicLM и Imagen.
🎨 В видео рассказывается:
▪ как ИИ генерирует музыку, изображения, текст и видео
▪ примеры от Google: MusicLM, Imagen
▪ обсуждаются границы возможностей генеративных моделей
▪ поднимаются этические и социальные вопросы
▶️ Смотреть: https://www.youtube.com/watch?v=ZNodOsz94cc
@data_analysis_ml
🖥 Open Ai выпустила еще 3 модели, подробности тут.
Как же плохо с неймингом у OpenAi.
GPT-4o
GPT-4o-mini
GPT-4.5
o1-low
o1-medium
o1-high
o1-mini
o1-pro
o3-low
o3-medium
o3-high
o3-mini-high
o3-pro
o4
o4-pro
o4-mini
o4-mini-high
chatgpt-4o-latest
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
Все понятно ?)
@data_analysis_ml
+2
🧠🔍 Kimina-Prover-Preview — мощный инструмент от MoonshotAI для автоматического построения доказательств в логике первого порядка с использованием LLM.
➡️ Что это?
Kimina — это "LLM-aided theorem prover", который комбинирует эвристический поиск с языковыми моделями, чтобы строить формальные доказательства по заданной цели и предпосылкам.
💡 Особенности:
▪ Поддержка логики первого порядка (FOL)
▪ Использует LLM (через API OpenAI, Claude и др.) для генерации обоснований
▪ Интеграция с Lean для проверки корректности
▪ Поддерживает кастомные промпты и множественные режимы поиска
🧪 Как работает:
Формулируется цель и список предпосылок
LLM предлагает следующий логический шаг
Инструмент проверяет, валиден ли шаг с точки зрения формальной логики
Если успешно — продолжается доказательство
🛠 Установка:
git clone https://github.com/MoonshotAI/Kimina-Prover-Preview.git
cd Kimina-Prover-Preview
pip install -r requirements.txt
📎 GitHub: github.com/MoonshotAI/Kimina-Prover-Preview+1
🔥На прошлой неделе СЕО провайдера Cloud․ru Евгений Колбин анонсировал внедрение бесплатного AI-помощника в облачной платформе Cloud․ru Evolution на ежегодной конференции GoCloud
А еще — сразу несколько новых сервисов для Big Data и AI!
- Evolution Managed ArenadataDB, доступный из облака Cloud․ru. Архитектура MPP помогает быстрее и эффективнее обрабатывать данные, в том числе в критически важных системах. Из преимуществ: быстрая и эффективная обработка данных, анализ и прогнозирование клиентской базы, сбор финансовой и управленческой отчетности. Сервис подойдет крупному бизнесу, компаниям среднего сегмента из ритейла, банковского сектора, сферы производства.
- Набор новых платформенных сервисов для работы с big data в публичном облаке Cloud․ru Evolution, который станет доступен в мае этого года. С его помощью компании смогут обрабатывать и анализировать данные, экономить время и ресурсы на обслуживание нужной IT-инфраструктуры и сфокусироваться на росте бизнеса. Готовые инструменты подойдут для AI/ML-задач, легко разворачиваются без помощи специалиста с опытом работы с большими данными.
- Cloud․ru Evolution AI Factory для быстрой разработки и внедрения AI-агентов в облаке. Собранный в одном месте набор готовых AI/ML-инструментов и технологий предоставит несколько новых возможностей: от обучения моделей до запуска мультиагентных систем. Запуск запланирован на лето 2025.
- Cloud․ru Evolution Stack AI-bundle. Это первое в России гибридное облако с поддержкой искусственного интеллекта, которое поможет быстрее запускать и масштабировать AI-сервисы в контуре компании.
🧠 DeDoDe — новый подход к локальному сопоставлению признаков
Проект DeDoDe ("Detect, Don't Describe — Describe, Don't Detect") разделяет процессы детектирования и описания ключевых точек на изображении, обеспечивая высокую точность и гибкость при сопоставлении.
📌 Особенности:
- Детектор обучается на 3D-устойчивости точек
- Дескриптор обучается отдельно на задаче сопоставления
- Поддерживает архитектурную гибкость и повторное использование
- Открытый код на Python, PyTorch, доступен в репозитории
📄 Статья (3DV 2024): arXiv 2308.08479
🆕 Обновление v2: arXiv 2404.08928
🔗 Репозиторий: github.com/Parskatt/DeDoDe
@data_analysis_ml
Открыт приём научных работ в журнал Международной конференции AI Journey с призом за лучшую статью
— 1 миллион рублей.
Ключевые исследования будут опубликованы в спецвыпуске журнала «Доклады РАН. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics.
Условия участия:
✓ Оригинальные исследования (без плагиата)
✓ Языки: русский/английский
✓ Дедлайн подачи — 20 августа 2025
Подать заявку → https://aij.ru/science
🚀 DeepSeek открывает код своего inference-движка , но делает это с умом
Во время Open Source Week команда уже поделилась несколькими библиотеками — и получила мощный фидбек: коллаборации, обсуждения, багфиксы. Сегодня они идут дальше и отдают в open-source ядро своей inference-системы.
🧠 Inference engine DeepSeek построен поверх vLLM
💡 Раньше был внутренним, глубоко кастомизирован под DeepSeek-V3 / R1
⚠️ Но:
– Был основан на старом форке vLLM
– Жёстко зависел от приватной инфраструктуры DeepSeek
– И не имел ресурса на поддержку в
Вместо того чтобы выкладывать «сырой монолит», команда решила постепенно влить лучшие фичи в уже существующие open-source проекты:
✅ Делают фичи модульными
✅ выкладывают оптимизации
✅ Работа ведётся в синхроне с PyTorch и vLLM
https://github.com/deepseek-ai/open-infra-index/blob/main/OpenSourcing_DeepSeek_Inference_Engine/README.md
Как сократить расходы на инфраструктуру с GPU?
23 апреля в 12:00 Selectel проведет вебинар для DevOps- и Data-инженеров, техлидов и менеджеров ML-проектов.
Приходите, чтобы обсудить возможности доступных GPU-карт, узнать о кейсах подбора инфраструктуры с GPU и шести способах сократить на неё расходы.
Вебинар бесплатный. Посмотрите полную программу и зарегистрируйтесь по ссылке: https://slc.tl/gdx10
Чтобы не пропустить встречу и узнавать о других митапах, воркшопах и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqvnomoF
🚀 Нативная поддержка Python в CUDA от NVIDIA!
Теперь можно писать CUDA-код напрямую на Python — без C++ и сторонних обёрток.
▪ Новый API от NVIDIA позволяет взять полный контроль над GPU из Python
▪ Поддержка cuNumeric, RAPIDS, Modulus, и др.
▪ Основано на CPython API — без прослоек
🎯 Что это меняет:
- Снижает барьер входа в GPU-разработку
- Упрощает создание ML и Data Science-проектов
- Открывает возможности для оптимизации
🧠 Python на GPU теперь без компромиссов!
🔗 Подробнее
@data_analysis_ml
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
