Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 150 名订阅者,在 技术与应用 类别中位列第 2 678,并在 俄罗斯 地区排名第 12 571 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 150 名订阅者。
根据 12 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 -35,过去 24 小时变化为 -30,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 9.06%。内容发布后 24 小时内通常能获得 5.57% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 547 次浏览,首日通常累积 2 794 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 13 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 150
订阅者
-3024 小时
-537 天
-3530 天
帖子存档
💡 Синтетические картинки, которые обучают лучше реальных
Исследователи из MIT показали неожиданную вещь:
крошечный синтетический датасет может обучать linear probes на огромных vision-моделях лучше, чем настоящие изображения.
Они создали метод Linear Gradient Matching (LGM), который делает следующее:
1) Берут замороженную модель-основу (DINO, CLIP и т.д.)
2) Смотрят, какие градиенты она выдаёт на реальных изображениях
3) Генерируют синтетические картинки так, чтобы градиенты совпадали
4) Обучают линейный классификатор - и он работает лучше, чем при обучении на исходных данных
Почему это полезно:
— работает между моделями (генерировано под DINO → отлично работает в CLIP)
— особенно сильна на тонких классификациях, где важны микродетали
— помогает увидеть, на что реально смотрит модель: спурьёзные корреляции, похожие кластеры, структуру embedding-пространства
Это меняет представление о данных.
Раньше: «Нужно собрать миллионы картинок».
Теперь: «Нужно правильно сгенерировать десятки».
arxiv.org/abs/2511.16674
Хочешь перейти из BA в продакты?
Многие BA хотят стать продактами, но сталкиваются с проблемой: продуктовый контекст слишком широкий, и нет ощущения цельной картины.
Интенсив «Product Manager 2.0: менеджер продукта в эпоху ИИ» поможет закрыть разрыв между ролями быстрее и качественнее, чем год самостоятельных попыток.
Что ты получишь:
— понимание роли и компетенций Product Manager в эпоху ИИ, а не по курсам пятилетней давности
— чёткое разграничение: что делает AI, а что остаётся на плечах продакта
— работу с AI Operating Model: как меняются продукт и процессы, когда AI действительно встроен в операционку
— full-stack видение product development: Discovery, Delivery, стратегия, экономика
— практику гипотез, исследований, экспериментов и AI-прототипирования
— метрики, юнит-экономику, P&L, roadmap
Это — короткий мост между BA и PM, который помогает перестать быть “почти продактом” и стать им по факту.
3 дня, два опытных продакта в качестве преподавателей и международный сертификат ICP-PDM.
👉 Ссылка на программу
Реклама. ООО "СКРАМТРЕК". ИНН 9709056610. erid: 2W5zFHZ91pU
⚡️ Сэм Альтман: ИИ меняет ценность профессий
По словам Сэма Альтмана, ИИ резко меняет то, сколько стоят разные профессии.
Если твоя работа - за компьютером (кодинг, дизайн, написание текстов), ИИ уже умеет делать большую часть таких задач быстро и дёшево. Это снижает ценность цифровых профессий.
Почему так?
Потому что проще всего автоматизировать работу, основанную на знаниях и мышлении. А вот профессии, где нужно быть физически на месте и работать руками сантехники, электрики, хирурги, логистика, доставка- защищены намного лучше. ИИ пока слаб в физическом мире.
Получается интересный переворот:
Работы, считавшиеся «престижными» из-за высокого интеллектуального порога, становятся менее особенными - ИИ делает их слишком быстро.
А профессии, связанные с реальным миром и ручными навыками, наоборот, растут в ценности.
ИИ меняет отношение к цифровому труду:
Не так важно, насколько ты хорош в компьютерных задачах - ИИ легко копирует такую работу. Важнее то, что ты можешь *создать*, *починить*, *построить* или *сделать* своими руками.
И это затрагивает не только рынок труда.
Когда ИИ берёт на себя интеллектуальные задачи, которые раньше давали людям чувство вызова и значимости, многие начинают искать удовлетворение в реальной, физической работе.
В том, где результат - не в файле, а в реальном мире.
Gemini 3.0 Pro устанавливает рекорд в новом физическом бенчмарке - 9.1%
CritPt - новый исследовательский физический бенчмарк уровня аспирантуры, созданный более чем 60 учёными. Он проверяет ИИ на действительно новые, сложные задачи сразу в 11 разделах физики - и ни одна модель пока не преодолела порог в 9%.
Даже топовые системы вроде Gemini 3.0 Pro Preview набирают лишь 9.1%, подчёркивая, насколько далеко современные модели остаются от настоящих пост-град рассуждений в передовой физике.
https://x.com/ArtificialAnlys/status/1991913465968222555
Repost from Machinelearning
+1
🌟 RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
🟡Технические детали.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с
torch.compile.
Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
🟡Стабильность.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS🤟 Google усиливает свои позиции и сокращает отрыв OpenAI
Сам Альтман признал: прогресс Google - особенно впечатляющие результаты Gemini 3 - создают краткосрочное давление на OpenAI.
Когда-то уверенное лидерство OpenAI заметно ослабло. Google и Anthropic активно усиливаются, в то время как OpenAI сталкивается с огромными затратами на вычислительные мощности, что вызывает беспокойство у инвесторов.
Альтман при этом уверен, что в долгосрочной перспективе OpenAI снова выйдет вперёд. Он ставит на новые модели вроде Shallotpeat, улучшения в этапах предобучения и масштабную автоматизацию, которая должна привести к следующему ряду прорывов.
Из внутреннего письма:
“Не хочу, чтобы это звучало негативно — мы по-прежнему показываем выдающиеся результаты как компания… и я ожидаю, что это продолжится.”И финальная мысль Альтмана: “Да, тяжело одновременно быть лучшей исследовательской лабораторией, лучшей AI-инфраструктурной компанией и лучшей продуктовой AI-платформой, но такова наша реальность. И я бы не променял наши позиции ни на чьи :)” https://www.theinformation.com/articles/openai-ceo-braces-possible-economic-headwinds-catching-resurgent-google
✔️ HunyuanVideo 1.5 - новая открытая модель для генерации видео, которая сейчас считается самым сильным open-source решением в этой области.
Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.
Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией
SOTA-качество с очень низкими требованиями к железу.
🟠Проект: hunyuan.tencent.com/video/zh
🟠GitHub: github.com/Tencent-Hunyuan/HunyuanVideo-1.5
🟠Hugging Face: huggingface.co/tencent/HunyuanVideo-1.5
@data_analysis_ml
Пока одни строят сложные data-инфраструктуры, другие до сих пор сталкиваются с «вечными» задержками отчётов и расхождениями в цифрах.
Специально для таких ситуаций создали бота, который с иронией помогает подобрать креативные объяснения, когда данные из разных систем отказываются складываться в единую картину, а отчётность снова задерживается.
Такой бот — отличный способ снять напряжение в команде, когда нужно срочно объяснить расхождения в данных. Возможно, именно его ответы станут самым честным комментарием к вашей следующей отчётности. Зайдите и сгенерируйте оправдание — самое меткое сразу отправляйте коллегам в рабочий чат. Пусть оценят, как можно с юмором выходить из сложных ситуаций с отчётностью.
PINA теперь официально входит в PyTorch Ecosystem — и приносит в него единый фреймворк для Scientific Machine Learning.
PINA — это открытая Python-библиотека, построенная на PyTorch и PyTorch Lightning, с совместимостью с PyTorch Geometric. Она упрощает весь SciML-пайплайн: от моделирования физических систем и решения PDE до построения ML-силовых полей и симуляции динамики.
Фреймворк модульный: чёткая структура для постановки задачи, дизайна модели, выбора солвера и обучения. Это даёт гибкость для исследования и воспроизводимость для инженерии.
🔗 Подробнее о проекте и способах участия:
https://pytorch.org/blog/pina-joins-the-pytorch-ecosystem-a-unified-framework-for-scientific-machine-learning/
#PyTorch #OpenSourceAI #SciML #MachineLearning
Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?
Если подумали исключительно про цифры, то зря 🙂
Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:
✍️ Рассказывают о рабочих буднях
✍️ Хвастаются успехами и вспоминают фейлы
✍️ Постят мемы
✍️ Запускают опросы и собирают бинго
✍️ Шутят
✍️ Делятся лайфхаками
✍️ Создают серьёзные посты про аналитику
✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать
Подписывайтесь на канал и читайте недушную аналитику 😉
Нновое поколение моделей Segment Anything:
1️⃣ SAM 3 - теперь умеет находить, сегментировать и отслеживать объекты на изображениях и видео.
Модель поддерживает короткие текстовые подсказки и пример-подсказки, что делает взаимодействие более гибким и точным.
📌 Подробнее
2️⃣ SAM 3D - выводит всю линейку в трёхмерность.
Модель способна восстанавливать точные 3D-объекты и даже людей по одной 2D-картинке, что открывает новые возможности для графики, VR/AR и визуальных инструментов.
📌Подробнее
Обе модели дают разработчикам и исследователям новые возможности для создания медиа-инструментов, экспериментов и автоматизации рабочих процессов.
🎯 Как взять качество данных под контроль?
Неточные отчёты, дубликаты в базах, несоответствия данных - всё это тормозит бизнес и подрывает доверие к аналитике. Если вы хотите стать экспертом в управлении качеством данных и повысить свою ценность на рынке, новый курс «Data Quality» от OTUS - то, что нужно!
📚 Что вас ждёт на курсе:
✔️ Автоматизация контроля качества с помощью Soda, OpenMetadata, Airflow, NiFi
✔️ Построение системы Data Governance - от метаданных до Data Contracts
✔️ Метрики и профилирование данных - научитесь измерять и улучшать качество
✔️ Управление инцидентами и соответствие регуляторным требованиям
✔️ Практические проекты, которые можно добавить в портфолио
🎓 Формат обучения:
📅 Старт: 26 ноября
💻 Онлайн с практическими заданиями и обратной связью от экспертов
👉 Узнать подробности и записаться: https://tglink.io/93cc483c4086?erid=2W5zFJBnBnY
#реклама
О рекламодателе
+1
🚀 ASystem открыл исходники Awex - самого быстрого фреймворка для синхронизации весов в RL.
Awex решает ключевую проблему современной RL-инфраструктуры — синхронизацию параметров моделей с объёмом до 1 трлн весов на тысячах GPU меньше чем за 6 секунд.
Это снимает одно из главных узких мест при масштабировании обучения и ускоряет циклы RL на порядки.
ASystem готовит серию материалов о лучших практиках построения RL-систем в ближайшие 5-6 недель. Будет разбор архитектуры, оптимизаций и инженерных решений.
Добро пожаловать в комьюнити ASystem.
📦 GitHub: https://github.com/inclusionAI/asystem-awex
🤗 Hugging Face: https://huggingface.co/inclusionAI
🤖 ModelScope: https://modelscope.cn/models/inclusionAI
@data_analysis_ml
+1
🔥 DR Tulu‑8B - открытая модель глубокого научного анализа, способная конкурировать с OpenAI DR, и всё это при размере всего 8B параметров!
В чём секрет? Новый подход - Reinforcement Learning with Evolving Rubrics (RLER) для длинных, непроверяемых задач.
💡 Вместо статичных оценок:
• Рубрики эволюционируют вместе с моделью
• Используют знания из поиска
• Извлекают новую информацию прямо в процессе обучения
📊 Результаты:
• DR Tulu‑8B сопоставим с OpenAI DR
• Превзошёл все open-source DR-модели
• Стоимость — ~$0.00008 за запрос (против >$1 у OpenAI)
💥 Обучение в два этапа: SFT → RL
Тест на 4 сложных бенчмарках и новый медицинский GeneticDiseasesQA (в сотрудничестве с клиницистами) — результат лучше, чем у OpenAI DR и AI2 ScholarQA (Claude).
Открытая методика, реальный импакт.
ИИ, который *сам учится исследовать*.
- Paper: http://allenai-web/papers/drtulu
- Data & Model: https://huggingface.co/collections/rl-research/dr-tulu
- Code: https://github.com/rlresearch/dr-tulu
Gelato - библиотека для управления вычислительными графами в ML
Проект Gelato от mlfoundations - это минималистичная библиотека, которая помогает собирать, анализировать и оптимизировать вычислительные графы в машинном обучении. Она упрощает разбор сложных пайплайнов, позволяет визуализировать зависимости и управлять вычислениями на уровне узлов.
Особенности:
- понятное представление графа любой ML-модели
- удобные инструменты для модификации, оптимизации и анализа
- подходит для экспериментов с новым дизайном моделей и кастомными связями
- лёгкая интеграция в существующие проекты
Полезна, если вы работаете с нетривиальными архитектурами, хотите экспериментировать с изменением структуры модели или анализировать узкие места в вычислениях.
💥 Blog: https://github.com/mlfoundations/Gelato
🍨Gelato-30B-A3B (Model): https://huggingface.co/mlfoundations/Gelato-30B-A3B
🖱️Click-100k (Data): https://huggingface.co/datasets/mlfoundations/Click-100k
5 ФАТАЛЬНЫХ ОШИБОК В ГРАФИКАХ, КОТОРЫЕ ПОДРЫВАЮТ ДОВЕРИЕ К ВАШЕМУ АНАЛИЗУ
Забирайте гайд с разбором основных ошибок в канале Сделай это красиво. Автор — Алексей Смагин, дата-журналист и аналитик Яндекса.
ГАЙД ПОДОЙДЁТ:
— аналитикам данных и продуктовым аналитикам
— научным сотрудникам и исследователям
— руководителям, которые работают с отчётностью
— всем, кто делает презентации с графиками
Умение анализировать — это круто. Но заказчики не видят вашу работу, они видят итоговые выводы. А от их оформления зависит, оценят ли результат.
Научиться делать графики — это быстро и легко. Достаточно исключить базовые ошибки — и ваша инфографика сразу будет выглядеть профессиональнее.
Подписывайтесь и забирайте гайд в закрепе: https://t.me/+MrupeY943_QwNzZi
⚡️ Helion - новый высокоуровневый DSL для быстрых и переносимых ML-ядер
Helion - это DSL внутри Python, который компилируется в оптимизированные Triton-ядра. Он сочетает привычный стиль PyTorch с автоматическим тюнингом, давая разработчикам производительные и переносимые ядра под разные архитектуры.
Что делает Helion полезным:
- Автоматически обрабатывает индексацию тензоров
- Управляет памятью и оптимальными доступами
- Подбирает настройки под конкретное железо
- Позволяет писать ядра на уровне «как в PyTorch», а получать код уровня Triton
Итог: разработчик пишет минимум — Helion делает максимум, превращая простое описание вычислений в эффективно оптимизированное ядро.
Подробнее в блоге PyTorch: pytorch.org/blog/helion/
Конференция AI Driver & RecSys Темы — пространство, где наука и бизнес встречаются, чтобы обсудить будущее рекомендаций ⚡️
28 ноября пройдёт конференция о том, как создаются и развиваются современные рекомендательные системы.
На площадке Сбера соберутся эксперты топовых российских IT-компаний и вузов, чтобы обсудить новые исследования, открытые датасеты и практические решения, которые меняют подход к персонализации.
Это возможность за один день познакомиться с ключевыми трендами RecSys, пообщаться со специалистами и вдохновиться идеями, формирующими будущее рекомендаций.
Присоединяйтесь к профессиональному сообществу 28 ноября в 10:00 — регистрация по ссылке!
Утекли бенчмарки Gemini 3.0 Pro от taker_of_whizz —пока не можем подтвердить подлинность, но цифры просто безумные.
Результаты разрывают всё, что мы видели раньше:
🔥 HLE: 37,5%
🔥 MathArena Apex: 22,3%
(для сравнения — **GPT-5.1 всего 1,0%**)
Если утечка реальна, Gemini 3.0 Pro именно такой, каким все его и хотели видеть — мощный, продвинутый и с невероятным ростом математических и логических способностей.
Ждём официального подтверждения, но выглядит *очень* многообещающе.
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
