Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 554 技术与应用2 668...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 192 名订阅者，在 技术与应用 类别中位列第 2 668，并在 俄罗斯 地区排名第 12 554 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 192 名订阅者。

根据 15 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -8，过去 24 小时变化为 25，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.82%。内容发布后 24 小时内通常能获得 5.98% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 427 次浏览，首日通常累积 2 999 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 16 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 192

订阅者

+2524 小时

-287 天

-830 天

4 427

帖子浏览量

~ 2 99924 小时

~ 3 53048 小时

8.82%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 193

🤖 InternVL 3 — новый мощный мульти-модальный ИИ от OpenGVLab! ✨ Доступны размеры 1B / 2B / 8B / 9B / 14B / 28B / 38B 📌 Что нового: - Улучшено восприятие и логика по сравнению с InternVL 2.5 - Нативное мультимодальное обучение улучшает язык - Построен на InternViT encoder + Qwen2.5VL decoder - Улучшает даже Qwen2.5VL 🧠 Что умеет: - Рассуждение в мультимодальном виде - Работа с документами - Поддержка ИИ агентов 🔓 MIT License 🔗 Подробнее

50 193

✔️ reTermAI — ИИ-помощник в терминале reTermAI — это умный ассистент для zsh и bash, который подсказывает команды прямо в терминале на основе вашей истории. Полезно, если часто забываешь синтаксис или хочешь ускорить работу с CLI. 🚀 Что умеет: ▪ ИИ-рекомендации команд по истории ▪ Поддержка частичного ввода ▪ Выбор LLM (можно подключить свой) ▪ Гибкая адаптация под рабочий процесс ▪ Совместим с zsh и bash 📦 Установил — и терминал стал умнее. Отличный инструмент для девелоперов, админов и всех, кто живёт в консоли. pip install reterm-ai 🔗 Github #terminal #cli #bash #zsh #LLM #opensource #reTermAI #ai @data_analysis_ml

50 193

Дружелюбная встреча для аналитиков от команды Международных проектов Яндекс Поиска. Приходите в штаб-квартиру Яндекса "Красная Роза" 13 апреля — мы расскажем, как устроена команда Международных проектов Поиска, из чего в ней состоит аналитика и каким образом с этим связаны Яндекс Игры. В финале встречи эксперты из Яндекса проведут для участников диагностику навыков аналитики и математической статистики — если пройдете успешно, мы засчитаем это как успешную техническую секцию при собеседовании в Яндекс. Зарегистрироваться на Welcome Time для аналитиков можно здесь до 12 апреля

50 193

🤖 Google запускает A2A — новый протокол общения между ИИ-агентами Google представил Agent2Agent (A2A) — открытый стандарт для обмена задачами между ИИ-агентами в разных сервисах и компаниях. Это что-то вроде MCP, но с упором на безопасность, мультимодальность и совместимость с корпоративной инфраструктурой. 🔑 Главное: ▪ A2A — task-first: агенты обмениваются не сообщениями, а задачами с жизненным циклом (create, update, cancel, complete). ▪ Автоопределение возможностей: каждый агент публикует JSON-«визитку» с описанием своих способностей (capability discovery). ▪ HTTP, SSE, JSON-RPC — всё работает на веб-стеке, легко встраивается в существующие API. ▪ Поддержка текста, аудио и видео — мультимодальность встроена по умолчанию. ▪ Security-first: в отличие от ранних протоколов (как MCP), здесь продумана авторизация и защита данных. В теории — это мощный инструмент для автоматизации бизнес-процессов. На практике — уже критикуют за перегруз и неясные перспективы. Но с ресурсами Google — у проекта есть шанс стать отраслевым стандартом. 📌 Отличие между MCP и A2A: 🧠 MCP (Multi-Agent Communication Protocol) — это: ➡️ Протокол от OpenAI, придуманный, чтобы LLM-агенты могли "болтать" друг с другом. 💬 Основан на сообщениях — один агент пишет другому что-то вроде чата, и тот отвечает. ⚙️ Подходит для простых сценариев: «Скажи это», «Спроси у другого», «Придумай план». Но: – Без жёсткой структуры – Нет встроенной безопасности – Не поддерживает длинные сложные процессы (например, запланировать и потом отчитаться) – Не заточен под задачи типа "запусти и следи" 🧠 A2A (Agent2Agent) — это: ➡️ Google-версия MCP, но с упором на бизнес и инфраструктуру. 📦 Вместо чатов — структурированные задачи, у которых есть статусы: created, accepted, completed, failed, cancelled. 📛 Поддерживает авторизацию, описание возможностей агента, обратную связь, долгие процессы, аудио и видео. Проще говоря: – MCP — это «чат между ИИ» – A2A — это «Jira для агентов» — задачи, статусы, ролевая модель, безопасность. google.github.io/A2A #Google #A2A #agents #AI #protocols #interop #infrastructure

50 193

✔️ Проверьте свои знания: пройдите тест по продвинутому инструментарию работы с данными Успешно ответите на 20 вопросов за 25 минут — сможете поступить на курс «Data Warehouse Analyst» от Otus. На курсе вы освоите: - Навыки построения ELT-pipelines: Airflow, Nifi, Airbyte - Принципы работы аналитических СУБД: Redshift, Greenplum, Clickhouse - Лучшие практики моделирования данных: dbt, Data Vault - Визуализацию и BI: Metabase, Superset, DataLens - Продвинутую аналитику: KPI, Funnels, Marketing Attribution, Cohort, RFM - DevOps-практики: Continuous Integration, Github Actions ➡️ Начать тестирование: https://otus.pw/74Wgc/?erid=2W5zFH7SvQG #реклама О рекламодателе

50 193

🌟 LMDeploy — высокооптимизированный инструментарий для работы с большими языковыми моделями. Разработанный командами MMRazor и MMDeploy, LMDeploy проект предлагает комплексный подход к сжатию, развертыванию и обслуживанию LLM. Благодаря персистентному батчингу, оптимизированным CUDA-ядрам и квантованию KV Cache, сервис демонстрирует до 1.8x более высокую пропускную способность по сравнению с vLLM. Поддерживаются десятки моделей, включая Llama 3, Qwen, InternLM и Mixtral, а также мультимодальные решения (LLaVA, CogVLM). 🤖 GitHub @bigdatai

50 193

Записка на двери: ушёл на One Day Offer для NLP-специалистов — буду поздно и, возможно, с оффером мечты! 19 апреля Сбер приглашает амбициозных спецов стать частью команды стратегии и развития Сбера, чтобы создавать инновации. Хочешь сказать: «Да, я тот самый автор GigaChat/Llama/Falcon/AI-помощника»? Велком на One Day Offer!

50 193

🔭 Katib — облачное AutoML-решение для Kubernetes. Этот инструмент позволяет автоматизировать подбор гиперпараметров, раннюю остановку обучения и даже поиск нейросетевых архитектур, работая с любыми ML-фреймворками от TensorFlow и PyTorch до XGBoost. Особенность проекта — интеграция с экосистемой Kubeflow и поддержка различных механизмов оркестрации, включая Argo Workflows и Tekton Pipelines. Проект активно развивается сообществом и уже используется в продакшн-средах. 🤖 GitHub @data_analysis_ml

50 193

Приглашаем вас на вебинар, посвящённый возможностям решения "Экстрактор 1С", системы Гларус BI, совместных задач. Основные темы мероприятия: ✔️ Основные инструменты и технологии для выгрузки данных из 1С; ✔️ В чем минусы различных подходов и методов выгрузки данных; ✔️ Экстрактор 1С: эффективное и универсальное решение. ✔️ Зачем нужна BI аналитика бизнесу? ✔️ Разбираем разные мифы, сложившиеся вокруг BI. ✔️ Разбираем как в Glarus BI создать понятный и полезный дашборд за несколько минут. ✔️ С чего начать внедрения BI небольшим компаниям, чтобы избежать лишних потерь времени и денег? ✔️ Разбираем экономику внедрения и эксплуатации BI системы. ✔️ Ответы на вопросы. Спикеры мероприятия: 📢 Пыстин Степан (технический директор в компании “Денвик Аналитика”) 📢 Козырев Игорь (сооснователь компании "Glarus Digital") Зарегистрируйтесь на мероприятие по ссылке: https://pruffme.com/landing/u1257797/tmp1742980942 С нетерпением ждем вас 11 апреля в 13:00 по Мск! Реклама: ООО "Денвик Аналитика" ИНН: 1101178666. Erid= 2VtzqusphAh

50 193

🚀 OmniSVG: Унифицированная модель для генерации сложных векторных графиков OmniSVG — новая модель, использующая предварительно обученные модели Vision-Language Models (VLMs) для энд-ту-энд генерации сложных и детализированных векторных изображений в формате SVG. Ключевые особенности OmniSVG: - Мультимодальность: Способность генерировать SVG на основе текстовых описаний, изображений или их комбинации. - Эффективность: Преобразование команд и координат SVG в дискретные токены позволяет отделить структурную логику от геометрии, что обеспечивает более эффективное обучение. - Гибкость: Генерация изображений различной сложности — от простых иконок до детализированных аниме-персонажей. Вместе с моделью представлен MMSVG-2M — мультимодальный датасет, содержащий 2 миллиона богато аннотированных SVG-объектов, предназначенный для обучения и оценки моделей генерации векторной графики. 🟡Проект: omnisvg.github.io 🟡Репозиторий: github.com/OmniSVG/OmniSVG 🟡Датасет: huggingface.co/OmniSVG @data_analysis_ml

50 193

Оптимизируем работу со Spark и строим рекомендательные системы Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение. На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода. Что еще обсудим 🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде. 🔹 Как оптимизировать расходы и работу со Spark. 🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца. Кому будет полезен вебинар ⚫️ML-инженерам. ⚫️Архитекторам, Data-инженерам, Data-аналитикам. ⚫️Руководителям ML-направлений и Data-офисов. Зарегистрироваться

50 193

🎥 ReCamMaster — это передовая система генеративного рендеринга видео, разработанная центром визуальной генерации и взаимодействия компании Kuaishou (KwaiVGI). Она позволяет изменять траектории камеры в существующих видеороликах, создавая новые ракурсы сцены без необходимости повторной съемки. Основные особенности ReCamMaster: Изменение траектории камеры: Система позволяет перегенерировать видео с новыми движениями камеры, сохраняя исходное содержание и динамику сцены. Использование предварительно обученных моделей: ReCamMaster использует возможности предварительно обученных текст-видео диффузионных моделей, что обеспечивает высокое качество генерируемых видео. Создание обучающего набора данных: Для обучения модели был создан крупномасштабный синхронизированный видеодатасет с использованием Unreal Engine 5, включающий разнообразные сцены и движения камеры. Применения ReCamMaster: - Стабилизация видео: Система может сглаживать дрожание камеры в видеороликах, создавая более плавные и стабильные кадры. - Суперразрешение и расширение сцены: ReCamMaster способна повышать разрешение видео и расширять границы сцены за пределы исходного кадра. - Дополнение данных для ИИ: Система может генерировать видео с различными ракурсами, что полезно для обучения моделей искусственного интеллекта, особенно в области робототехники и автономного вождения. 🟡Github: https://github.com/KwaiVGI/ReCamMaster 🟡Paper: https://arxiv.org/abs/2503.11647 🟡Project: https://jianhongbai.github.io/ReCamMaster/

50 193

Repost from Machinelearning

🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K. Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений. Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами. Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах. Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии. Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT. В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей. Модели доступны на Hugging Face в двух вариантах: 🟢Kimi-VL-A3B-Instruct для стандартных задач; 🟠Kimi-VL-Thinking для сложных рассуждений. ▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #KimiAI #MoonShotAI

50 193

📦 Skops — проект, предлагающий альтернативу стандартному pickle для работы с моделями scikit-learn. Skops позволяет безопасно сохранять и загружать ML-модели, избегая рисков, связанных с выполнением произвольного кода. Особый интерес представляет встроенный функционал для создания model cards — документов, объясняющих назначение и особенности моделей. 🤖 GitHub

50 193

Летняя школа аналитиков-разработчиков Яндекса: набор открыт В этом году впервые можно выбрать направление для углубленного изучения — Data Engineering или Data Science. В течение всего лета вы сможете изучать инструменты анализа данных и научитесь применять их на практике. Со 2 июня по 27 июля участников ждут занятия в онлайне, а с 28 июля по 24 августа — работа в фулстек-командах офлайн в офисах Яндекса или онлайн. Что нужно знать? Основы программирования на Python Как решать прикладные задачи с использованием любого диалекта SQL или Pandas Базу теории вероятностей и математической статистики По итогам прохождения интенсива, вы сможете попасть на стажировку или получить оффер. По статистике, более половины стажеров переходят в штат компании. Не откладывайте — регистрация открыта до 27 апреля. Подать заявку можно здесь.

50 193

Только посмотрите, кто у нас тут на подходе! 🐐 https://github.com/ggml-org/llama.cpp/pull/12828 @data_analysis_ml

50 193

✔️ Nomic Embed Multimodal 7B: новая мультимодальная модель эмбедингов с открытым исходным кодом для текста, изображений, PDF-файлов и графиков. - SOTA визуального поиска документов - Два варианта ((Colbert + dense models) - Открытые веса, код и данные - Лицензия Apache 2.0 🟡Models: https://huggingface.co/collections/nomic-ai/nomic-embed-multimodal-67e5ddc1a890a19ff0d5807 🟡Docs: https://docs.nomic.ai/atlas/embeddings-and-retrieval/guides/pdf-rag-with-nomic-embed-multimodal 🟡Colab: https://colab.research.google.com/github/nomic-ai/cookbook/blob/main/guides/pdf-rag-nomic-embed-multimodal.ipynb 🟡Code & training data: https://github.com/nomic-ai/contrastors/

50 193

Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week! Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи. Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений. Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.

50 193

Repost from Machinelearning

🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом. Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки. По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер. Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем. Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF. Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах. Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой. Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI. @ai_machinelearning_big_data

50 193

✔️ LAM: Official Pytorch Implementation LAM (Large Avatar Model) — это новая методика для восстановления анимируемой «Гауссовой» 3D-модели головы по одной-единственной фотографии. В отличие от предыдущих подходов, которые либо требуют долгого обучения на видео, либо задействуют вспомогательные нейросети на этапе анимации и рендеринга, LAM позволяет получить готовую к анимации и модель визуализации головы за один проход сети, без дополнительной постобработки и внешних модулей. В основе метода лежит генератор «гауссовых атрибутов» для канонического пространства, который использует ключевые точки FLAME (модель лица) в качестве запросов. Эти точки проходят через Транспортеров, взаимодействуя с многомасштабными признаками исходного изображения, чтобы точно определить параметры «Гауссовых» элементов модели. Дальше 3D-модель головы анимируется стандартным Linear Blend Skinning (LBS) с корректирующими blendshape-функциями — как в оригинальной FLAME-модели — и может рендериться в реальном времени практически на любых устройствах, вплоть до мобильных телефонов. Эксперименты показывают, что LAM превосходит существующие методы на ряде публичных бенчмарков, обеспечивая точное восстановление, высокую реалистичность анимации и удобную интеграцию в существующие конвейеры рендеринга. ▪ Github ▪ Project @data_analysis_ml