Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 554 技术与应用2 668...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 192 名订阅者，在 技术与应用 类别中位列第 2 668，并在 俄罗斯 地区排名第 12 554 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 192 名订阅者。

根据 15 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 -8，过去 24 小时变化为 25，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 8.82%。内容发布后 24 小时内通常能获得 5.98% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 427 次浏览，首日通常累积 2 999 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 30。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 16 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 192

订阅者

+2524 小时

-287 天

-830 天

4 427

帖子浏览量

~ 2 99924 小时

~ 3 53048 小时

8.82%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 198

Хотите получить много практики на реальных задачах, собрать портфолио и узнать как выглядит рабочий день аналитика? CEO Simulative и эксперт с большим опытом в аналитике, Андрон Алексанян организовал бесплатный интенсив, где вы будете решать реальные задачи, с которыми аналитики сталкиваются на работе На прямых эфирах вы сделаете: 🟠Анализ активности пользователей с помощью SQL 🟠Анализ маркетинговых активностей с помощью Python 🟠ABC анализ ассортиментной матрицы в Excel (уже прошел, но вам будет доступна запись) Во время эфиров вы узнаете много лайфхаков, а также будете получать полезные материалы для развития в аналитике на протяжении всего интенсива ❗️Знать Python и SQL не обязательно — все будем разбирать с нуля 🕗 Встречаемся на новом эфире уже сегодня, 20 марта в 19:00 по мск 😶Участвовать в бесплатном интенсиве

50 198

🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA. Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач. Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU. Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др. Совместимость с Llama 3: Сохраняет 🛠 Для кого полезен? Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика). 🚀 Преимущества перед аналогами Скорость и эффективность: Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе. Поддержка квантования и динамического батчинга для снижения затрат на инференс. Масштабируемость: Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes). Совместимость с NVIDIA Triton Inference Server для промышленного развертывания. Кастомизация: Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework. https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1

50 198

⭐️ Reasoning-v1-20m Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях. Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд. https://huggingface.co/datasets/glaiveai/reasoning-v1-20m #dataset #Reasoning

50 198

❓Работаете с данными? Масштабируйте Big Data с Apache Spark! Освойте Spark на продвинутом уровне. За 4 месяца на онлайн-курсе от Otus вы: - Освоите RDD, DataFrame, Dataset, Spark API - Разберётесь в SparkML, потоковой обработке, работе с графами - Научитесь запускать Spark в Kubernetes и Hadoop В программе сложные, но интересные практические задачи и проект на реальных данных. 💪 Выпускники работают с биржами, маркетплейсами и банками. ➡️ Пройдите вступительное тестирование и получите скидку на курс: https://otus.pw/wFnu/?erid=2W5zFH7RZnp Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 198

🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов. Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи. ▪Cохраняет контекст даже в документах на 10k+ токенов. ▪Специализация — обучена на корпусах документов (юридических, технических, медицинских). ▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3. Работает на CPU и малом GPU (например, T4), 🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview

50 198

🔥 EXAONE 32B модель, которая превосходит DeepSeek r1 671B? LG AI Research не так давно опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов: 🟠2.4B – компактная модель для использования на устройствах;, 🟠7.8B – универсальная модель; 🟢32B – высокопроизводительная модель для задач, требующих максимальной эффективности. Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей. 🔥 Но это еще не все: EXAONE Deep 7.8B превосходит даже OpenAI o1 Mini почти во всех тестах. *** , это безумие. И для всех тех, кто не понимает, насколько это круто: продвинутый ИИ не только становится лучше, но и становится все меньше и меньше с каждым днем, а значит, и дешевле! Модель 32B, которая всего 5% от размера DeepSeek r1, превосходит ее почти во всех тестах. И в ризонинге SLM даже o1-mini. 🟡Статья 🟡Набор моделей 🟡Demo 7.8B 🟡Arxiv 🖥GitHub @data_analysis_ml

50 198

Multimodal-SAE 🚀 Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные. ▪️ Для кого? ▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA). ▪ Исследователи, изучающие интерпретируемость нейросетей. ▪ Инженеры, которым нужно оптимизировать мультимодальные модели. ▪️ Чем полезен? ▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций. ▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели. ▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs. ▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.). ▪️ Преимущества перед аналогами ▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений. ▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными. ▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке. ▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps). P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей! 📌 Github 📌 Paper @data_analysis_ml

50 198

Приглашаем аналитиков на дружескую встречу в Яндексе! 22 марта в штаб-квартире Яндекса «Красная Роза» команда Рекламных технологий поделятся своим опытом и расскажут: — Как работает аналитика в Коммерческом департаменте и Рекламных технологиях — Как устроена аналитика антифрода рекламных систем После основной части можно будет пройти диагностику навыков, поучаствовать в нетворкинге и задать все интересующие вопросы. Ждут аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться — сбор заявок завершается 20 марта! До встречи!

50 198

Repost from Machinelearning

Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥 🟡HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503 🟡Post: https://mistral.ai/news/mistral-small-3-1/ @ai_machinelearning_big_data #mistral #llm #mistralsmall

50 198

⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях. ▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели. ▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров. ▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна. https://huggingface.co/spaces/Remade-AI/remade-effects @data_analysis_ml

50 198

👁Настройка dev-окружения для команды компьютерного зрения. Что будет на вебинаре? - Аренда и базовая настройка сервера для работы команды. - Установка и настройка инструментов для ML-экспериментов - Развертывание сервиса для разметки изображений CVAT. Узнаете, как арендовать и настроить сервер для командной работы, что позволит им быстро развертывать инфраструктуру для новых проектов. Научитесь настраивать MLFlow для отслеживания экспериментов, JupiterLab для удобной разработки и MinIO для создания общего файлового хранилища, что упростит совместную работу с датасетами и другими файлами. Сможете развернуть CVAT для разметки изображений, что пригодится в проектах, связанных с обработкой и анализом изображений, таких как распознавание объектов, сегментация и т.д. 👉 Регистрация и подробности вебинара https://otus.pw/1tsR/ Вебинар проходит в рамках подписки OTUS, благодаря которой можно приобрести 3 курса по цене одного! #реклама О рекламодателе erid: 2W5zFJPYH52

50 198

📹 ReCamMaster: Camera-Controlled Generative Rendering from A Single Video ReCamMaster: генеративный рендеринг с функциями управлением камерой 🔥 Еще один хит в области генерации видео из Китая Позволяет создавать реалистичные новые сцены из одного видео, что позволяет «переснимать» видео с новыми движениями камеры. Код обещают очень скоро, 🟡Github: https://github.com/KwaiVGI/ReCamMaster 🟡Paper: https://arxiv.org/abs/2503.11647 🟡Project: https://jianhongbai.github.io/ReCamMaster/

50 198

⚡️All-atom Diffusion Transformer (ADiT) — это новая разработка в области генеративного моделирования химических систем . ADiT представляет собой унифицированную латентную диффузионную модель, способную генерировать как периодические материалы, так и непериодические молекулярные структуры ARXIV.ORG Ключевые особенности проекта: Унифицированный подход: ADiT использует единое представление для молекул и материалов, что позволяет эффективно работать с различными химическими системами ARXIV.ORG Диффузионная модель: В основе генерации новых структур лежит диффузионная модель, обученная создавать новые латентные представления, которые затем декодируются в валидные молекулы или материалы ARXIV.ORG Автоэнкодер: Система включает автоэнкодер, который отображает атомарные представления молекул и материалов в общее латентное пространство, обеспечивая эффективное кодирование и декодирование ARXIV.ORG 📌 Github @data_analysis_ml

50 198

⚡️ Copy any UI Клонирование любого сайта одним кликом стало возможным благодаря новому ИИ-агенту Same.dev! Этот инструмент способен создать практически точную копию веб-сайта всего лишь по ссылке. Все, что вам нужно сделать, — это вставить URL интересующего ресурса и немного подождать. Same.dev автоматически проанализирует исходный код и предоставит готовую копию, которую сложно отличить от оригинала. Причем это абсолютно бесплатно: https://same.dev/

50 198

⚡️ Vondy: огромная базу ИИ-агентов для различных задач! В Vondy можно подобрать нейроассистентов, которые возьмут на себя рутинную работу и сэкономят часы, чтобы вы могли уделить время отдыху, хобби или развлечениям. ▪ Агенты для любых задач: от кодинга, написания текста, дизайна и бизнеса до повышения продуктивности и генерации изображений, звуков и видео. ▪ Создайте своего агента: сервис предоставляет все необходимые инструменты, чтобы настроить помощника именно под ваши нужды. ▪ Бесплатно. https://www.vondy.com/ @data_analysis_ml

50 198

⚡️ Computer Using Agent Sample App – это демонстрационное приложение для создания системы «Computer Using Agent» (CUA) с использованием OpenAI API. Основные особенности и интересные моменты проекта: - Прототип CUA: Приложение показывает, как можно интегрировать ИИ-модель для управления интерфейсом компьютера. Модель анализирует скриншоты и предлагает действия (например, клики, ввод текста), которые необходимо выполнить в среде пользователя. - Модульная архитектура: Проект разделён на две ключевые абстракции – «Computer» для выполнения действий (например, локальный браузер через Playwright, Docker-окружение, удалённые браузерные среды) и «Agent» для взаимодействия с моделью. Многообразие сред: В репозитории реализованы различные среды (LocalPlaywright, Docker, Browserbase, Scrapybara), что позволяет протестировать приложение в разных условиях. - Примеры использования: В проекте есть CLI для удобного старта, а также примеры (например, файл simple_cua_loop.py) для демонстрации базового цикла работы CUA. Безопасность: Присутствуют базовые меры безопасности, в том числе проверки URL и запрос подтверждения действий, что важно при управлении реальными интерфейсами. 📌 Github @data_analysis_ml

50 198

Агентство NEWHR опубликовало результаты исследования рынка аналитиков. 1293 респондента разных уровней рассказали, где работают, к чему стремятся и сколько получают. Коротко о главном: ⚫️ Лучшей компанией для работы является Авито (37,2%). Она же стала абсолютным лидером из наиболее известных российских компаний (42,1%). ⚫️ Большинство русскоязычных аналитиков работают в российских компаниях — 75,9%. ⚫️ За 2024 год у 44,9% опрошенных зарплаты выросли на 10-30%. ⚫️ 46% стали более лояльны к своему работодателю. @data_analysis_ml

50 198

⚡️ GPUStack — это менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей. ⚫ Универсальность: Поддерживает работу на разных платформах, включая macOS, Windows и Linux. ⚫ Масштабируемость: Позволяет легко добавлять дополнительные GPU или узлы для увеличения вычислительных мощностей. ⚫ Широкий спектр моделей: Поддерживает запуск больших языковых моделей (LLM), диффузионных моделей, аудио-, embedding и reranker моделей. ⚫ Несколько бекендов: Использует такие решения, как llama-box, vLLM и vox-box для инференса. ⚫ OpenAI-совместимые API: Предоставляет API, совместимые с OpenAI, что облегчает интеграцию с различными приложениями и сервисами. ⚫ Мониторинг и управление: Включает инструменты для отслеживания производительности GPU, использования токенов и управления пользователями и API-ключами. ▪ Github @data_analysis_ml

50 198

✔️ OpenAI презентовала новые инструменты для разработчиков. OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя. Опубликованы и тарифы: ⚫ Computer Use немного дороже обычной GPT-4o — 3 доллара за вход и 12 долларов за выход на миллион токенов; как формировать контекст, какие скриншоты и текст закидывать — остается на ваше усмотрение. ⚫ Поиск по файлам оценивается в $2.5 за 1000 запросов и $0.1 за каждый гигабайт загруженных файлов. ⚫ Стоимость поиска зависит от настройки «длина контекста» (вероятно, от того, сколько ссылок из поисковой выдачи попадут в контекст); для старшей модели цена составляет $30–$50 за тысячу вызовов. 📌 Github 📌 OpenAI на Youtube @data_analysis_ml

50 198

🔥 llm-scraper — библиотека на языке TypeScript, предназначенная для извлечения структурированных данных с веб-страниц с использованием LLM! 🌟 Библиотека поддерживает различные провайдеры LLM, включая локальные модели (Ollama, GGUF), OpenAI и Vercel AI SDK. Для определения схем данных используется библиотека Zod, обеспечивая полную типизацию в TypeScript. В основе работы llm-scraper лежит фреймворк Playwright, который управляет взаимодействием с веб-страницами. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml