Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 571 技术与应用2 678...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 150 名订阅者，在 技术与应用 类别中位列第 2 678，并在 俄罗斯 地区排名第 12 571 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 150 名订阅者。

根据 12 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -35，过去 24 小时变化为 -30，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 9.06%。内容发布后 24 小时内通常能获得 5.57% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 547 次浏览，首日通常累积 2 794 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 13 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 150

订阅者

-3024 小时

-537 天

-3530 天

4 547

帖子浏览量

~ 2 79424 小时

~ 3 27748 小时

9.06%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 147

🚀 Большое обновление Qwen Code v0.2.2–v0.3.0 ✨ Два ключевых обновления: 🎯 Stream JSON • --output-format stream-json — потоковый вывод • --input-format stream-json — структурированный ввод • 3-уровневая архитектура адаптеров + управление сессиями • Идеально для SDK, автоматизации и CI/CD 🌍 Полная интернационализация • Встроенные интерфейсы EN/CN + расширяемые языковые пакеты • /language ui zh-EN - мгновенная смена языка • /language output English - задаём язык ответов модели • Сообщество может добавлять свои локализации 🌏 🛡️ Безопасность и стабильность выросли • Защита от переполнения памяти • Починили кодировки Windows • Улучшена кроссплатформенность и определение ripgrep • Переработана авторизация и управление authType • Стабильный CI/CD и исправленные интеграционные тесты • Поддержка провайдера ModelScope и stream_options • Улучшены подсказки, уведомления в терминале и логика завершения промптов • Множество внутренних фиксов - заметно более стабильная работа 💪 https://github.com/QwenLM/qwen-code

50 147

🚀 Релиз GLM-4.6V! • GLM-4.6V (106B) - старшая модель. • GLM-4.6V-Flash (9B) — лёгкая, быстрая, отлично подходит для локального использования. 🔥 Что внутри: ✅ Нативный multimodal tool calling -заточена на работу с изображениями и документами. ✅ Контекст 128K - переваривает 150-страничные документы или часовые видео за один прогон ✅ Visual → Action pipeline - мультимодальные агенты: “найди эту одежду онлайн” → возвращает структурированный список покупок ✅ На 50% дешевле GLM-4.5V-— ~1$ за миллион входных токенов. (На ModelScope API можно использовать бесплатно.) → modelscope.cn/collections/GLM-46V-37fabc27818446

50 147

🚀 Трансформеры стали стандартом в NLP, но у большинства специалистов есть одна и та же проблема: «Как их дообучать правильно и без хаоса в коде?» 📅 10 декабря в 18:00 МСК — открытый урок, на котором мы разберём: ✅ Что происходит внутри трансформера ✅ Как использовать предобученные веса ✅ Как устроен fine-tuning и автоматизация с LLM ✅ Как адаптировать BERT под свои задачи: классификацию, извлечение сущностей, анализ текстов Вы поймёте, где граница между «слегка дообучить» и «сломать модель», научитесь избегать ошибок и ускорять работу с помощью современных инструментов. 🎓 Присоединяйтесь к открытому уроку курса «NLP / Natural Language Processing»: https://otus.pw/OrWr/?erid=2W5zFGBy5fN 🎁 Выберите обучение на ближайшие месяцы — и получите максимальную выгоду: один курс по тающей скидке до 20% или комплект из 2–3 курсов со скидкой 25–30%. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 147

🔥 fastmcpp - это C++ реализация протокола Model Context Protocol (MCP), обеспечивающая высокую производительность для серверов и клиентов MCP. Поддерживает различные транспортные слои, включая STDIO, HTTP и WebSocket, с минимальным набором зависимостей. 🚀Основные моменты: - Полная реализация протокола MCP (JSON-RPC). - Поддержка нескольких транспортов: STDIO, HTTP, WebSocket. - Интеграция с инструментами, совместимыми с MCP. - Кроссплатформенность: Windows, Linux, macOS. - Бета-версия с основными функциями, соответствующими Python-версии. 📌 GitHub: https://github.com/0xeb/fastmcpp #cpp

50 147

Аналитик? Из какой секты? Кто управляет вселенной формулами в Excel или… Из тех, кто ручками собирает дашборды? Как бы ни было — пора делегировать рутину иишкам. Алексей Колоколов, аналитик с 15-летним стажем, решил наконец-то проверить: какой ИИ реально работает в аналитике, а какой только косит под умного. 9 декабря он проведёт краш-тест на честных условиях: один датасет, одинаковые требования, строгая методика оценки. Участвуют: ChatGPT, DeepSeek и Claude. Будет разбор слабых мест, промпты, live-сборка дашбордов — без прикрас. Если хочешь понимать, на кого можно положиться в работе с отчётами — приходи. Для своих — бесплатно. 👉 Ссылка тут. Подключайся и смотри как дашборды строят сами себя. Реклама. ООО "АНАЛИТИКА ПЕРСОНАЛА", ИНН 6671088519

50 147

Как становятся промт-инженерами:

50 147

⚡️ Essential AI объявила о выпуске своей первой открытой модели - Rnj-1, пары из базовой и instruct-версии на 8B параметров. Rnj-1 демонстрирует сильные результаты в Кодине, математике и STEM-задачах. На SWE-bench модель показывает 20.8% в Verified-режиме (bash-only) - выше Gemini 2.0 Flash и сопоставимо с GPT-4o. Вместо brute-force команда делала ставку на дисциплинированное проектирование: качественную подготовку данных, продуманные оптимизации и исследовательские методики для выполнения кода, infill-генерации и рассуждений. Модель обучалась на кластере TPU и AMD-GPU, увидела почти 8.7 триллиона токенов, и её качество продолжает расти. В компании говорят, что это только начало: Essential AI (22 человека) строит долгосрочную исследовательскую программу с новыми моделями, методами и прорывами в pipeline. Blog → https://essential.ai/research/rnj-1 Model → https://huggingface.co/EssentialAI/rnj-1-instruct

50 147

⚡️ Tencent официально представила HY 2.0 - крупное обновление своей базовой модели. Модель построена на архитектуре Mixture of Experts с общим размером 406B параметров и 32B активных. Модель поддерживает контекст 256K токенов. HY 2.0 демонстрирует заметные улучшения на ключевых бенчмарках. Главные достижения HY 2.0: 🧠 Reasoning: результат 73.4 на IMO AnswerBench - почти плюс 20 процентов, что закрепляет модель среди лидеров по математическому и научному мышлению. 🛠 Coding и Agents: скачок в SWE Bench Verified с 6.0 до 53.0, а Tau2 Bench вырос с 17.1 до 72.4. ⚡ Instruction Following: более стабильное выполнение сложных инструкций и естественный стиль ответов. Модель выпускается в двух вариантах: • HY 2.0 Think - для глубокого рассуждения, генерации кода и сложных задач • HY 2.0 Instruct - для диалога, креативного письма и многотуровых контекстных бесед 🌐 Website: https://hunyuan.tencent.com 🔗 API Access: http://hunyuan.cloud.tencent.com/#/app/modelSquare 📄 Documentation: https://cloud.tencent.com/document/product/1729/104753 #AI #Tencent #Hunyuan #HY2 #LLM #MoE #DeepLearning #AIModels

50 147

⚡️ PaddleOCR-VL объяснили свою архитектуру и почему двухэтапный подход уверенно выигрывает у end-to-end моделей в сложных документах. 1) Этап 1: PP-DocLayoutV2 - система сначала понимает структуру страницы Модель определяет, какие элементы находятся на странице и в каком порядке их нужно читать. Используются RT-DETR для обнаружения текстовых блоков, таблиц, формул и графиков, а также Pointer Networks для предсказания человеческого порядка чтения. Благодаря этому исчезают ошибки структуры, и получается чистый список элементов. 2) Этап 2: PaddleOCR-VL-0.9B — этап точного распознавания Каждый элемент проходит через компактную, но очень точную VL-модель. Она использует динамическое разрешение в стиле NaViT без искажений, ERNIE 4.5-0.3B для быстрого декодинга и двухслойный MLP-проектор для объединения визуальной и языковой информации. Модель уверенно распознает текст, таблицы, графики и формулы при размере всего 0.9B параметров. 3) Зачем делить процесс на два этапа Такой подход дает стабильную работу на много-колоночных и смешанных макетах, повышает скорость обработки, потому что элементы идут параллельно, и облегчает расширение под новые типы данных вроде кода или схем. Специализированная задача получает специализированную модель. 4) Полный путь от PDF к структуре Сначала документ анализируется, затем элементы вырезаются, после этого распознаются и в конце собираются обратно в структуру. Результат получается в виде Markdown или JSON, которые готовы для поиска, RAG или автоматизации. В следующем материале команда покажет внутреннюю «фабрику данных» из более чем тридцати миллионов примеров с автолейблингом и подбором сложных кейсов. https://aistudio.baidu.com/paddleocr?lang=en

50 147

Пройдите собеседования за выходные и получите офер в Яндекс 13–14 декабря проводим Weekend Offer ML — мероприятие быстрого найма для инфраструктурных и DL-инженеров, которые работают с NLP, CV, ASR, TTS или RecSys. Такой формат ивента позволяет пройти всего две секции, вместо трёх, и финальные интервью с командами за выходные, и сразу получить офер. Вместе с командой вам предстоит создавать и развивать технологии голосового ввода, синтеза речи и компьютерного зрения. Всё это ляжет в основу сервисов, которыми пользуются миллионы! Как всё устроено: ⚪до 9 декабря оставляйте заявку на сайте; ⚪13 декабря пройдите всего две технические секции; ⚪14 декабря пройдите финальные интервью с командами и получите офер. У нас сильная инженерная культура, свобода экспериментов и возможность создавать продукты, которыми ежедневно пользуются миллионы. Все подробности и регистрация — на сайте.

50 147

🧠Gemini 3 получил новый режим прокачанного мышления В отличие от обычного “быстрого” ИИ-ответа, Deep Think не спешит: он параллельно перебирает несколько идей, прогоняет задачу через несколько раундов рассуждений и в итоге выдаёт более умный и нюансный результат. Где это особенно полезно: - сложное программирование и разбор багов - задачи по математике - сложные вопросы по науке и аналитике Режим уже доступен пользователям Gemini Ultra в приложении: просто включи “Thinking” и выбери Deep Think в строке вод промпта. https://blog.google/products/gemini/gemini-3-deep-think/

50 147

🧠 Memlayer: Умный слой памяти для LLM Memlayer добавляет интеллектуальную память к любому LLM, позволяя агентам запоминать контекст и извлекать структурированные знания. С минимальной настройкой, он обеспечивает быстрый поиск и фильтрацию важной информации. 🚀 Основные моменты: - Поддержка универсальных LLM (OpenAI, Claude и др.) - Интеллектуальная фильтрация памяти с тремя режимами - Гибридный поиск с использованием векторного и графового подходов - Высокая скорость работы (<100 мс) и локальное хранение данных 📌 GitHub: https://github.com/divagr18/memlayer #python

50 147

🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты. Вот что в нём разбирается: 1. Как формируют модель - Сбор и очистка гигантских датасетов кода. - Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах. - SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок. 2. Как модели превращают в инженерных агентов - Агент читает баг-репорт или фичу. - Планирует шаги. - Меняет файлы. - Запускает тесты. - Повторяет цикл, пока не добьётся результата. 3. Какие проблемы всё ещё остаются - Работа с огромными репозиториями. - Безопасность и надёжность генерируемого кода. - Корректная оценка качества работы агентов. - Реальные приёмы и лайфхаки, которые используют текущие команды. Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде. https://arxiv.org/abs/2511.18538

50 147

🚀 Эксперимент InstantDB: нейромодели собрали полноценный 3D-шутер без единой строки ручного кода InstantDB провели показательный эксперимент: три крупные модели - Codex Max 5.1, Claude Opus 4.5 и Gemini 3 Pro — получили задачу создать мультиплеерный 3D-шутер с картой, физикой, оружием, врагами и комнатами для игроков. Все три модели успешно справились и представили рабочие FPS-прототипы. Как распределились сильные стороны: - Лучший фронтенд - Claude: наиболее аккуратные карты, визуальный стиль уровня Minecraft и плавные анимации. - Лучшая серверная часть - Gemini: стабильный мультиплеер, минимум ошибок, грамотно реализованные комнаты и сохранения. - Уверённое второе место по всем направлениям - Codex: качественно, предсказуемо, но без ярких преимуществ. Эксперимент показывает, насколько быстро модели приближаются к созданию сложных игровых систем под ключ. Демоверсии доступны для Codex, Claude, Gemini

50 147

Релиз Transformers v5 ! 🔥 Hugging Face выпустили Transformers v5 - обновление, которое стало логичным итогом бурного роста всего стека за последние годы. Цифры впечатляют: - 20k → 3 млн+ установок в день - 40 → 400+ поддерживаемых архитектур - ~1k → 750k+ чекпоинтов - 1.2 млрд+ общих установок Что нового в v5: - полностью PyTorch-ориентированная архитектура - модульные определения моделей - подход quantization-first - OpenAI-совместимый Transformers Serve (включая Responses API) Transformers становится ключевым фундаментом открытого AI/ML-стека - для обучения, дообучения и моделей. Новый этап экосистемы официально начался. https://huggingface.co/blog/transformers-v5

50 147

🚀 Bytedance представила новую модель для кода - Doubao Seed Code Новая версия умеет не только писать и понимать код, но и принимать изображения на вход, что открывает возможности для визуального анализа задач программирования. Что известно: - Поддержка image input - Опубликованы бенчмарки и цены - По результатам тестов, модель опережает Sonnet 4.5 на SWE-Bench-Verified и Multi-SWE, но немного уступает на Terminal Bench 🧠 Doubao Seed Code — часть линейки моделей Bytedance, нацеленной на интеграцию LLM в рабочие процессы разработчиков и систем с edge-инференсом. Подробнее и тестировать можно здесь: 🔗 https://exp.volcengine.com/ark?model=doubao-seed-code-preview-251028

50 147

🦾 KNN — интерпретируемый метод для задачи классификации и регрессии Хорошая модель не всегда должна быть сложной. Иногда самый надёжный инструмент — это старый добрый k ближайших соседей (KNN). Метод, который доказывает: простота в машинном обучении не мешает эффективности. На открытом уроке разберём логику алгоритма: как он «находит соседей», принимает решения и почему остаётся одним из самых понятных и интерпретируемых подходов в ML. Урок подойдёт тем, кто делает первые шаги в Data Science, хочет перейти в ML из смежных направлений или разобраться в базовых методах обучения без «магии нейросетей». KNN — отличная точка входа, чтобы понять принципы машинного обучения на интуитивном уровне. 8 декабря, 18:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/h0a7O/?erid=2W5zFGNKei4 Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 147

⚔️ Преимущество OpenAI в ИИ уже не выглядит таким недосягаемым. Google с Gemini 3 и Anthropic с Claude стремительно сокращают разрыв по качеству моделей, а сама OpenAI несёт огромные риски из-за вычислительных затрат и монетизации. Что пишет FT: - Google продвинула Gemini 3 выше GPT-5 на ряде бенчмарков. Модель обучалась на собственных TPU, а не внешних GPU, и глубоко встроена в поиск и Android. Благодаря этому приложение Gemini выросло до 650 млн пользователей в месяц. - Anthropic делает ставку на надёжных корпоративных ассистентов и уже получила оценку выше $300 млрд. Это превратило её в серьёзную альтернативу OpenAI для бизнеса. - У OpenAI всё ещё гигантская база — 800+ млн еженедельных пользователей ChatGPT. Но компания одновременно выпускает множество продуктов и подписала обязательства на около $1.4 трлн вычислительных мощностей на ближайшие 8 лет. Сумма огромна по сравнению с текущей выручкой, поэтому OpenAI вынуждена активнее опираться на подписки, корпоративные сделки и модели монетизации уровня Sora, в нишах, где доминируют крупные рекламные платформы. Общая картина такова: - OpenAI - самая сильная потребительская марка, но с самыми тяжёлыми вычислительными обязательствами. - Google - мощная инфраструктура и глубокая интеграция в экосистемы. - Anthropic - доверие и деньги от enterprise-клиентов, стабильный рост и сверхвысокая оценка. Гонка стала ближе и напряжённее: ранний рывок OpenAI больше не гарантирует лидерства. Источник: Financial Times ft.com/content/8881062d-ff4f-4454-8e9d-d992e8e2c4e3

50 147

🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro. Главное: • DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде • Новая флагманская модель совмещает рассуждения + агентность • Архитектура MoE из семейства V3.1 Terminus, контекст 128k • Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста Что делает DSA Обычное внимание - O(T²), что больно при 128k токенов. DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов. Как работает: 1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена 2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним Как обучали Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение: • Stage 1 - плотное внимание, замороженная модель, обучается только DSA • Stage 2 - постепенный переход на DSA по всей модели Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов. Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

50 147

Бизнесу данные нужны как воздух На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской. На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных. С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики: ☑️ Аналитика данных. ☑️ Data Science. ☑️ Инженерия данных. После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио. Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://netolo.gy/eurg Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5yCracR