Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 543 Technologies & Applications2 664...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 198 subscribers, ranking 2 664 in the Technologies & Applications category and 12 543 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 198 subscribers.

According to the latest data from 16 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 14 over the last 30 days and by 19 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 8.92%. Within the first 24 hours after publication, content typically collects 6.20% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 479 views. Within the first day, a publication typically gains 3 114 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 32.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 17 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 198

Subscribers

+1924 hours

+37 days

+1430 days

4 479

Post views

~ 3 11424 hours

~ 4 23148 hours

8.92%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 198

Хотите получить много практики на реальных задачах, собрать портфолио и узнать как выглядит рабочий день аналитика? CEO Simulative и эксперт с большим опытом в аналитике, Андрон Алексанян организовал бесплатный интенсив, где вы будете решать реальные задачи, с которыми аналитики сталкиваются на работе На прямых эфирах вы сделаете: 🟠Анализ активности пользователей с помощью SQL 🟠Анализ маркетинговых активностей с помощью Python 🟠ABC анализ ассортиментной матрицы в Excel (уже прошел, но вам будет доступна запись) Во время эфиров вы узнаете много лайфхаков, а также будете получать полезные материалы для развития в аналитике на протяжении всего интенсива ❗️Знать Python и SQL не обязательно — все будем разбирать с нуля 🕗 Встречаемся на новом эфире уже сегодня, 20 марта в 19:00 по мск 😶Участвовать в бесплатном интенсиве

50 198

🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA. Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач. Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU. Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др. Совместимость с Llama 3: Сохраняет 🛠 Для кого полезен? Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика). 🚀 Преимущества перед аналогами Скорость и эффективность: Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе. Поддержка квантования и динамического батчинга для снижения затрат на инференс. Масштабируемость: Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes). Совместимость с NVIDIA Triton Inference Server для промышленного развертывания. Кастомизация: Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework. https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1

50 198

⭐️ Reasoning-v1-20m Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях. Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд. https://huggingface.co/datasets/glaiveai/reasoning-v1-20m #dataset #Reasoning

50 198

❓Работаете с данными? Масштабируйте Big Data с Apache Spark! Освойте Spark на продвинутом уровне. За 4 месяца на онлайн-курсе от Otus вы: - Освоите RDD, DataFrame, Dataset, Spark API - Разберётесь в SparkML, потоковой обработке, работе с графами - Научитесь запускать Spark в Kubernetes и Hadoop В программе сложные, но интересные практические задачи и проект на реальных данных. 💪 Выпускники работают с биржами, маркетплейсами и банками. ➡️ Пройдите вступительное тестирование и получите скидку на курс: https://otus.pw/wFnu/?erid=2W5zFH7RZnp Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 198

🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов. Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи. ▪Cохраняет контекст даже в документах на 10k+ токенов. ▪Специализация — обучена на корпусах документов (юридических, технических, медицинских). ▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3. Работает на CPU и малом GPU (например, T4), 🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview

50 198

🔥 EXAONE 32B модель, которая превосходит DeepSeek r1 671B? LG AI Research не так давно опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов: 🟠2.4B – компактная модель для использования на устройствах;, 🟠7.8B – универсальная модель; 🟢32B – высокопроизводительная модель для задач, требующих максимальной эффективности. Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей. 🔥 Но это еще не все: EXAONE Deep 7.8B превосходит даже OpenAI o1 Mini почти во всех тестах. *** , это безумие. И для всех тех, кто не понимает, насколько это круто: продвинутый ИИ не только становится лучше, но и становится все меньше и меньше с каждым днем, а значит, и дешевле! Модель 32B, которая всего 5% от размера DeepSeek r1, превосходит ее почти во всех тестах. И в ризонинге SLM даже o1-mini. 🟡Статья 🟡Набор моделей 🟡Demo 7.8B 🟡Arxiv 🖥GitHub @data_analysis_ml

50 198

Multimodal-SAE 🚀 Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные. ▪️ Для кого? ▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA). ▪ Исследователи, изучающие интерпретируемость нейросетей. ▪ Инженеры, которым нужно оптимизировать мультимодальные модели. ▪️ Чем полезен? ▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций. ▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели. ▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs. ▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.). ▪️ Преимущества перед аналогами ▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений. ▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными. ▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке. ▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps). P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей! 📌 Github 📌 Paper @data_analysis_ml

50 198

Приглашаем аналитиков на дружескую встречу в Яндексе! 22 марта в штаб-квартире Яндекса «Красная Роза» команда Рекламных технологий поделятся своим опытом и расскажут: — Как работает аналитика в Коммерческом департаменте и Рекламных технологиях — Как устроена аналитика антифрода рекламных систем После основной части можно будет пройти диагностику навыков, поучаствовать в нетворкинге и задать все интересующие вопросы. Ждут аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться — сбор заявок завершается 20 марта! До встречи!

50 198

Repost from Machinelearning

Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥 🟡HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503 🟡Post: https://mistral.ai/news/mistral-small-3-1/ @ai_machinelearning_big_data #mistral #llm #mistralsmall

50 198

⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях. ▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели. ▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров. ▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна. https://huggingface.co/spaces/Remade-AI/remade-effects @data_analysis_ml

50 198

👁Настройка dev-окружения для команды компьютерного зрения. Что будет на вебинаре? - Аренда и базовая настройка сервера для работы команды. - Установка и настройка инструментов для ML-экспериментов - Развертывание сервиса для разметки изображений CVAT. Узнаете, как арендовать и настроить сервер для командной работы, что позволит им быстро развертывать инфраструктуру для новых проектов. Научитесь настраивать MLFlow для отслеживания экспериментов, JupiterLab для удобной разработки и MinIO для создания общего файлового хранилища, что упростит совместную работу с датасетами и другими файлами. Сможете развернуть CVAT для разметки изображений, что пригодится в проектах, связанных с обработкой и анализом изображений, таких как распознавание объектов, сегментация и т.д. 👉 Регистрация и подробности вебинара https://otus.pw/1tsR/ Вебинар проходит в рамках подписки OTUS, благодаря которой можно приобрести 3 курса по цене одного! #реклама О рекламодателе erid: 2W5zFJPYH52

50 198

📹 ReCamMaster: Camera-Controlled Generative Rendering from A Single Video ReCamMaster: генеративный рендеринг с функциями управлением камерой 🔥 Еще один хит в области генерации видео из Китая Позволяет создавать реалистичные новые сцены из одного видео, что позволяет «переснимать» видео с новыми движениями камеры. Код обещают очень скоро, 🟡Github: https://github.com/KwaiVGI/ReCamMaster 🟡Paper: https://arxiv.org/abs/2503.11647 🟡Project: https://jianhongbai.github.io/ReCamMaster/

50 198

⚡️All-atom Diffusion Transformer (ADiT) — это новая разработка в области генеративного моделирования химических систем . ADiT представляет собой унифицированную латентную диффузионную модель, способную генерировать как периодические материалы, так и непериодические молекулярные структуры ARXIV.ORG Ключевые особенности проекта: Унифицированный подход: ADiT использует единое представление для молекул и материалов, что позволяет эффективно работать с различными химическими системами ARXIV.ORG Диффузионная модель: В основе генерации новых структур лежит диффузионная модель, обученная создавать новые латентные представления, которые затем декодируются в валидные молекулы или материалы ARXIV.ORG Автоэнкодер: Система включает автоэнкодер, который отображает атомарные представления молекул и материалов в общее латентное пространство, обеспечивая эффективное кодирование и декодирование ARXIV.ORG 📌 Github @data_analysis_ml

50 198

⚡️ Copy any UI Клонирование любого сайта одним кликом стало возможным благодаря новому ИИ-агенту Same.dev! Этот инструмент способен создать практически точную копию веб-сайта всего лишь по ссылке. Все, что вам нужно сделать, — это вставить URL интересующего ресурса и немного подождать. Same.dev автоматически проанализирует исходный код и предоставит готовую копию, которую сложно отличить от оригинала. Причем это абсолютно бесплатно: https://same.dev/

50 198

⚡️ Vondy: огромная базу ИИ-агентов для различных задач! В Vondy можно подобрать нейроассистентов, которые возьмут на себя рутинную работу и сэкономят часы, чтобы вы могли уделить время отдыху, хобби или развлечениям. ▪ Агенты для любых задач: от кодинга, написания текста, дизайна и бизнеса до повышения продуктивности и генерации изображений, звуков и видео. ▪ Создайте своего агента: сервис предоставляет все необходимые инструменты, чтобы настроить помощника именно под ваши нужды. ▪ Бесплатно. https://www.vondy.com/ @data_analysis_ml

50 198

⚡️ Computer Using Agent Sample App – это демонстрационное приложение для создания системы «Computer Using Agent» (CUA) с использованием OpenAI API. Основные особенности и интересные моменты проекта: - Прототип CUA: Приложение показывает, как можно интегрировать ИИ-модель для управления интерфейсом компьютера. Модель анализирует скриншоты и предлагает действия (например, клики, ввод текста), которые необходимо выполнить в среде пользователя. - Модульная архитектура: Проект разделён на две ключевые абстракции – «Computer» для выполнения действий (например, локальный браузер через Playwright, Docker-окружение, удалённые браузерные среды) и «Agent» для взаимодействия с моделью. Многообразие сред: В репозитории реализованы различные среды (LocalPlaywright, Docker, Browserbase, Scrapybara), что позволяет протестировать приложение в разных условиях. - Примеры использования: В проекте есть CLI для удобного старта, а также примеры (например, файл simple_cua_loop.py) для демонстрации базового цикла работы CUA. Безопасность: Присутствуют базовые меры безопасности, в том числе проверки URL и запрос подтверждения действий, что важно при управлении реальными интерфейсами. 📌 Github @data_analysis_ml

50 198

Агентство NEWHR опубликовало результаты исследования рынка аналитиков. 1293 респондента разных уровней рассказали, где работают, к чему стремятся и сколько получают. Коротко о главном: ⚫️ Лучшей компанией для работы является Авито (37,2%). Она же стала абсолютным лидером из наиболее известных российских компаний (42,1%). ⚫️ Большинство русскоязычных аналитиков работают в российских компаниях — 75,9%. ⚫️ За 2024 год у 44,9% опрошенных зарплаты выросли на 10-30%. ⚫️ 46% стали более лояльны к своему работодателю. @data_analysis_ml

50 198

⚡️ GPUStack — это менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей. ⚫ Универсальность: Поддерживает работу на разных платформах, включая macOS, Windows и Linux. ⚫ Масштабируемость: Позволяет легко добавлять дополнительные GPU или узлы для увеличения вычислительных мощностей. ⚫ Широкий спектр моделей: Поддерживает запуск больших языковых моделей (LLM), диффузионных моделей, аудио-, embedding и reranker моделей. ⚫ Несколько бекендов: Использует такие решения, как llama-box, vLLM и vox-box для инференса. ⚫ OpenAI-совместимые API: Предоставляет API, совместимые с OpenAI, что облегчает интеграцию с различными приложениями и сервисами. ⚫ Мониторинг и управление: Включает инструменты для отслеживания производительности GPU, использования токенов и управления пользователями и API-ключами. ▪ Github @data_analysis_ml

50 198

✔️ OpenAI презентовала новые инструменты для разработчиков. OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя. Опубликованы и тарифы: ⚫ Computer Use немного дороже обычной GPT-4o — 3 доллара за вход и 12 долларов за выход на миллион токенов; как формировать контекст, какие скриншоты и текст закидывать — остается на ваше усмотрение. ⚫ Поиск по файлам оценивается в $2.5 за 1000 запросов и $0.1 за каждый гигабайт загруженных файлов. ⚫ Стоимость поиска зависит от настройки «длина контекста» (вероятно, от того, сколько ссылок из поисковой выдачи попадут в контекст); для старшей модели цена составляет $30–$50 за тысячу вызовов. 📌 Github 📌 OpenAI на Youtube @data_analysis_ml

50 198

🔥 llm-scraper — библиотека на языке TypeScript, предназначенная для извлечения структурированных данных с веб-страниц с использованием LLM! 🌟 Библиотека поддерживает различные провайдеры LLM, включая локальные модели (Ollama, GGUF), OpenAI и Vercel AI SDK. Для определения схем данных используется библиотека Zod, обеспечивая полную типизацию в TypeScript. В основе работы llm-scraper лежит фреймворк Playwright, который управляет взаимодействием с веб-страницами. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml