Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 571 Technologies & Applications2 678...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 149 subscribers, ranking 2 678 in the Technologies & Applications category and 12 571 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 149 subscribers.

According to the latest data from 12 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -35 over the last 30 days and by -30 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.06%. Within the first 24 hours after publication, content typically collects 5.57% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 547 views. Within the first day, a publication typically gains 2 794 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 30.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 13 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 149

Subscribers

-3024 hours

-537 days

-3530 days

4 547

Post views

~ 2 79424 hours

~ 3 27748 hours

9.06%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 147

🚀 Большое обновление Qwen Code v0.2.2–v0.3.0 ✨ Два ключевых обновления: 🎯 Stream JSON • --output-format stream-json — потоковый вывод • --input-format stream-json — структурированный ввод • 3-уровневая архитектура адаптеров + управление сессиями • Идеально для SDK, автоматизации и CI/CD 🌍 Полная интернационализация • Встроенные интерфейсы EN/CN + расширяемые языковые пакеты • /language ui zh-EN - мгновенная смена языка • /language output English - задаём язык ответов модели • Сообщество может добавлять свои локализации 🌏 🛡️ Безопасность и стабильность выросли • Защита от переполнения памяти • Починили кодировки Windows • Улучшена кроссплатформенность и определение ripgrep • Переработана авторизация и управление authType • Стабильный CI/CD и исправленные интеграционные тесты • Поддержка провайдера ModelScope и stream_options • Улучшены подсказки, уведомления в терминале и логика завершения промптов • Множество внутренних фиксов - заметно более стабильная работа 💪 https://github.com/QwenLM/qwen-code

50 147

🚀 Релиз GLM-4.6V! • GLM-4.6V (106B) - старшая модель. • GLM-4.6V-Flash (9B) — лёгкая, быстрая, отлично подходит для локального использования. 🔥 Что внутри: ✅ Нативный multimodal tool calling -заточена на работу с изображениями и документами. ✅ Контекст 128K - переваривает 150-страничные документы или часовые видео за один прогон ✅ Visual → Action pipeline - мультимодальные агенты: “найди эту одежду онлайн” → возвращает структурированный список покупок ✅ На 50% дешевле GLM-4.5V-— ~1$ за миллион входных токенов. (На ModelScope API можно использовать бесплатно.) → modelscope.cn/collections/GLM-46V-37fabc27818446

50 147

🚀 Трансформеры стали стандартом в NLP, но у большинства специалистов есть одна и та же проблема: «Как их дообучать правильно и без хаоса в коде?» 📅 10 декабря в 18:00 МСК — открытый урок, на котором мы разберём: ✅ Что происходит внутри трансформера ✅ Как использовать предобученные веса ✅ Как устроен fine-tuning и автоматизация с LLM ✅ Как адаптировать BERT под свои задачи: классификацию, извлечение сущностей, анализ текстов Вы поймёте, где граница между «слегка дообучить» и «сломать модель», научитесь избегать ошибок и ускорять работу с помощью современных инструментов. 🎓 Присоединяйтесь к открытому уроку курса «NLP / Natural Language Processing»: https://otus.pw/OrWr/?erid=2W5zFGBy5fN 🎁 Выберите обучение на ближайшие месяцы — и получите максимальную выгоду: один курс по тающей скидке до 20% или комплект из 2–3 курсов со скидкой 25–30%. Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 147

🔥 fastmcpp - это C++ реализация протокола Model Context Protocol (MCP), обеспечивающая высокую производительность для серверов и клиентов MCP. Поддерживает различные транспортные слои, включая STDIO, HTTP и WebSocket, с минимальным набором зависимостей. 🚀Основные моменты: - Полная реализация протокола MCP (JSON-RPC). - Поддержка нескольких транспортов: STDIO, HTTP, WebSocket. - Интеграция с инструментами, совместимыми с MCP. - Кроссплатформенность: Windows, Linux, macOS. - Бета-версия с основными функциями, соответствующими Python-версии. 📌 GitHub: https://github.com/0xeb/fastmcpp #cpp

50 147

Аналитик? Из какой секты? Кто управляет вселенной формулами в Excel или… Из тех, кто ручками собирает дашборды? Как бы ни было — пора делегировать рутину иишкам. Алексей Колоколов, аналитик с 15-летним стажем, решил наконец-то проверить: какой ИИ реально работает в аналитике, а какой только косит под умного. 9 декабря он проведёт краш-тест на честных условиях: один датасет, одинаковые требования, строгая методика оценки. Участвуют: ChatGPT, DeepSeek и Claude. Будет разбор слабых мест, промпты, live-сборка дашбордов — без прикрас. Если хочешь понимать, на кого можно положиться в работе с отчётами — приходи. Для своих — бесплатно. 👉 Ссылка тут. Подключайся и смотри как дашборды строят сами себя. Реклама. ООО "АНАЛИТИКА ПЕРСОНАЛА", ИНН 6671088519

50 147

Как становятся промт-инженерами:

50 147

⚡️ Essential AI объявила о выпуске своей первой открытой модели - Rnj-1, пары из базовой и instruct-версии на 8B параметров. Rnj-1 демонстрирует сильные результаты в Кодине, математике и STEM-задачах. На SWE-bench модель показывает 20.8% в Verified-режиме (bash-only) - выше Gemini 2.0 Flash и сопоставимо с GPT-4o. Вместо brute-force команда делала ставку на дисциплинированное проектирование: качественную подготовку данных, продуманные оптимизации и исследовательские методики для выполнения кода, infill-генерации и рассуждений. Модель обучалась на кластере TPU и AMD-GPU, увидела почти 8.7 триллиона токенов, и её качество продолжает расти. В компании говорят, что это только начало: Essential AI (22 человека) строит долгосрочную исследовательскую программу с новыми моделями, методами и прорывами в pipeline. Blog → https://essential.ai/research/rnj-1 Model → https://huggingface.co/EssentialAI/rnj-1-instruct

50 147

⚡️ Tencent официально представила HY 2.0 - крупное обновление своей базовой модели. Модель построена на архитектуре Mixture of Experts с общим размером 406B параметров и 32B активных. Модель поддерживает контекст 256K токенов. HY 2.0 демонстрирует заметные улучшения на ключевых бенчмарках. Главные достижения HY 2.0: 🧠 Reasoning: результат 73.4 на IMO AnswerBench - почти плюс 20 процентов, что закрепляет модель среди лидеров по математическому и научному мышлению. 🛠 Coding и Agents: скачок в SWE Bench Verified с 6.0 до 53.0, а Tau2 Bench вырос с 17.1 до 72.4. ⚡ Instruction Following: более стабильное выполнение сложных инструкций и естественный стиль ответов. Модель выпускается в двух вариантах: • HY 2.0 Think - для глубокого рассуждения, генерации кода и сложных задач • HY 2.0 Instruct - для диалога, креативного письма и многотуровых контекстных бесед 🌐 Website: https://hunyuan.tencent.com 🔗 API Access: http://hunyuan.cloud.tencent.com/#/app/modelSquare 📄 Documentation: https://cloud.tencent.com/document/product/1729/104753 #AI #Tencent #Hunyuan #HY2 #LLM #MoE #DeepLearning #AIModels

50 147

⚡️ PaddleOCR-VL объяснили свою архитектуру и почему двухэтапный подход уверенно выигрывает у end-to-end моделей в сложных документах. 1) Этап 1: PP-DocLayoutV2 - система сначала понимает структуру страницы Модель определяет, какие элементы находятся на странице и в каком порядке их нужно читать. Используются RT-DETR для обнаружения текстовых блоков, таблиц, формул и графиков, а также Pointer Networks для предсказания человеческого порядка чтения. Благодаря этому исчезают ошибки структуры, и получается чистый список элементов. 2) Этап 2: PaddleOCR-VL-0.9B — этап точного распознавания Каждый элемент проходит через компактную, но очень точную VL-модель. Она использует динамическое разрешение в стиле NaViT без искажений, ERNIE 4.5-0.3B для быстрого декодинга и двухслойный MLP-проектор для объединения визуальной и языковой информации. Модель уверенно распознает текст, таблицы, графики и формулы при размере всего 0.9B параметров. 3) Зачем делить процесс на два этапа Такой подход дает стабильную работу на много-колоночных и смешанных макетах, повышает скорость обработки, потому что элементы идут параллельно, и облегчает расширение под новые типы данных вроде кода или схем. Специализированная задача получает специализированную модель. 4) Полный путь от PDF к структуре Сначала документ анализируется, затем элементы вырезаются, после этого распознаются и в конце собираются обратно в структуру. Результат получается в виде Markdown или JSON, которые готовы для поиска, RAG или автоматизации. В следующем материале команда покажет внутреннюю «фабрику данных» из более чем тридцати миллионов примеров с автолейблингом и подбором сложных кейсов. https://aistudio.baidu.com/paddleocr?lang=en

50 147

Пройдите собеседования за выходные и получите офер в Яндекс 13–14 декабря проводим Weekend Offer ML — мероприятие быстрого найма для инфраструктурных и DL-инженеров, которые работают с NLP, CV, ASR, TTS или RecSys. Такой формат ивента позволяет пройти всего две секции, вместо трёх, и финальные интервью с командами за выходные, и сразу получить офер. Вместе с командой вам предстоит создавать и развивать технологии голосового ввода, синтеза речи и компьютерного зрения. Всё это ляжет в основу сервисов, которыми пользуются миллионы! Как всё устроено: ⚪до 9 декабря оставляйте заявку на сайте; ⚪13 декабря пройдите всего две технические секции; ⚪14 декабря пройдите финальные интервью с командами и получите офер. У нас сильная инженерная культура, свобода экспериментов и возможность создавать продукты, которыми ежедневно пользуются миллионы. Все подробности и регистрация — на сайте.

50 147

🧠Gemini 3 получил новый режим прокачанного мышления В отличие от обычного “быстрого” ИИ-ответа, Deep Think не спешит: он параллельно перебирает несколько идей, прогоняет задачу через несколько раундов рассуждений и в итоге выдаёт более умный и нюансный результат. Где это особенно полезно: - сложное программирование и разбор багов - задачи по математике - сложные вопросы по науке и аналитике Режим уже доступен пользователям Gemini Ultra в приложении: просто включи “Thinking” и выбери Deep Think в строке вод промпта. https://blog.google/products/gemini/gemini-3-deep-think/

50 147

🧠 Memlayer: Умный слой памяти для LLM Memlayer добавляет интеллектуальную память к любому LLM, позволяя агентам запоминать контекст и извлекать структурированные знания. С минимальной настройкой, он обеспечивает быстрый поиск и фильтрацию важной информации. 🚀 Основные моменты: - Поддержка универсальных LLM (OpenAI, Claude и др.) - Интеллектуальная фильтрация памяти с тремя режимами - Гибридный поиск с использованием векторного и графового подходов - Высокая скорость работы (<100 мс) и локальное хранение данных 📌 GitHub: https://github.com/divagr18/memlayer #python

50 147

🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты. Вот что в нём разбирается: 1. Как формируют модель - Сбор и очистка гигантских датасетов кода. - Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах. - SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок. 2. Как модели превращают в инженерных агентов - Агент читает баг-репорт или фичу. - Планирует шаги. - Меняет файлы. - Запускает тесты. - Повторяет цикл, пока не добьётся результата. 3. Какие проблемы всё ещё остаются - Работа с огромными репозиториями. - Безопасность и надёжность генерируемого кода. - Корректная оценка качества работы агентов. - Реальные приёмы и лайфхаки, которые используют текущие команды. Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде. https://arxiv.org/abs/2511.18538

50 147

🚀 Эксперимент InstantDB: нейромодели собрали полноценный 3D-шутер без единой строки ручного кода InstantDB провели показательный эксперимент: три крупные модели - Codex Max 5.1, Claude Opus 4.5 и Gemini 3 Pro — получили задачу создать мультиплеерный 3D-шутер с картой, физикой, оружием, врагами и комнатами для игроков. Все три модели успешно справились и представили рабочие FPS-прототипы. Как распределились сильные стороны: - Лучший фронтенд - Claude: наиболее аккуратные карты, визуальный стиль уровня Minecraft и плавные анимации. - Лучшая серверная часть - Gemini: стабильный мультиплеер, минимум ошибок, грамотно реализованные комнаты и сохранения. - Уверённое второе место по всем направлениям - Codex: качественно, предсказуемо, но без ярких преимуществ. Эксперимент показывает, насколько быстро модели приближаются к созданию сложных игровых систем под ключ. Демоверсии доступны для Codex, Claude, Gemini

50 147

Релиз Transformers v5 ! 🔥 Hugging Face выпустили Transformers v5 - обновление, которое стало логичным итогом бурного роста всего стека за последние годы. Цифры впечатляют: - 20k → 3 млн+ установок в день - 40 → 400+ поддерживаемых архитектур - ~1k → 750k+ чекпоинтов - 1.2 млрд+ общих установок Что нового в v5: - полностью PyTorch-ориентированная архитектура - модульные определения моделей - подход quantization-first - OpenAI-совместимый Transformers Serve (включая Responses API) Transformers становится ключевым фундаментом открытого AI/ML-стека - для обучения, дообучения и моделей. Новый этап экосистемы официально начался. https://huggingface.co/blog/transformers-v5

50 147

🚀 Bytedance представила новую модель для кода - Doubao Seed Code Новая версия умеет не только писать и понимать код, но и принимать изображения на вход, что открывает возможности для визуального анализа задач программирования. Что известно: - Поддержка image input - Опубликованы бенчмарки и цены - По результатам тестов, модель опережает Sonnet 4.5 на SWE-Bench-Verified и Multi-SWE, но немного уступает на Terminal Bench 🧠 Doubao Seed Code — часть линейки моделей Bytedance, нацеленной на интеграцию LLM в рабочие процессы разработчиков и систем с edge-инференсом. Подробнее и тестировать можно здесь: 🔗 https://exp.volcengine.com/ark?model=doubao-seed-code-preview-251028

50 147

🦾 KNN — интерпретируемый метод для задачи классификации и регрессии Хорошая модель не всегда должна быть сложной. Иногда самый надёжный инструмент — это старый добрый k ближайших соседей (KNN). Метод, который доказывает: простота в машинном обучении не мешает эффективности. На открытом уроке разберём логику алгоритма: как он «находит соседей», принимает решения и почему остаётся одним из самых понятных и интерпретируемых подходов в ML. Урок подойдёт тем, кто делает первые шаги в Data Science, хочет перейти в ML из смежных направлений или разобраться в базовых методах обучения без «магии нейросетей». KNN — отличная точка входа, чтобы понять принципы машинного обучения на интуитивном уровне. 8 декабря, 18:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/h0a7O/?erid=2W5zFGNKei4 Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 147

⚔️ Преимущество OpenAI в ИИ уже не выглядит таким недосягаемым. Google с Gemini 3 и Anthropic с Claude стремительно сокращают разрыв по качеству моделей, а сама OpenAI несёт огромные риски из-за вычислительных затрат и монетизации. Что пишет FT: - Google продвинула Gemini 3 выше GPT-5 на ряде бенчмарков. Модель обучалась на собственных TPU, а не внешних GPU, и глубоко встроена в поиск и Android. Благодаря этому приложение Gemini выросло до 650 млн пользователей в месяц. - Anthropic делает ставку на надёжных корпоративных ассистентов и уже получила оценку выше $300 млрд. Это превратило её в серьёзную альтернативу OpenAI для бизнеса. - У OpenAI всё ещё гигантская база — 800+ млн еженедельных пользователей ChatGPT. Но компания одновременно выпускает множество продуктов и подписала обязательства на около $1.4 трлн вычислительных мощностей на ближайшие 8 лет. Сумма огромна по сравнению с текущей выручкой, поэтому OpenAI вынуждена активнее опираться на подписки, корпоративные сделки и модели монетизации уровня Sora, в нишах, где доминируют крупные рекламные платформы. Общая картина такова: - OpenAI - самая сильная потребительская марка, но с самыми тяжёлыми вычислительными обязательствами. - Google - мощная инфраструктура и глубокая интеграция в экосистемы. - Anthropic - доверие и деньги от enterprise-клиентов, стабильный рост и сверхвысокая оценка. Гонка стала ближе и напряжённее: ранний рывок OpenAI больше не гарантирует лидерства. Источник: Financial Times ft.com/content/8881062d-ff4f-4454-8e9d-d992e8e2c4e3

50 147

🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro. Главное: • DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде • Новая флагманская модель совмещает рассуждения + агентность • Архитектура MoE из семейства V3.1 Terminus, контекст 128k • Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста Что делает DSA Обычное внимание - O(T²), что больно при 128k токенов. DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов. Как работает: 1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена 2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним Как обучали Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение: • Stage 1 - плотное внимание, замороженная модель, обучается только DSA • Stage 2 - постепенный переход на DSA по всей модели Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов. Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

50 147

Бизнесу данные нужны как воздух На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской. На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных. С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики: ☑️ Аналитика данных. ☑️ Data Science. ☑️ Инженерия данных. После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио. Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://netolo.gy/eurg Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5yCracR