Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 543 Технологии и приложения2 664...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 198 подписчиков, занимая 2 664 место в категории Технологии и приложения и 12 543 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 198 подписчиков.

Согласно последним данным от 16 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 14, а за последние 24 часа — 19, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 8.92%. В первые 24 часа после публикации контент обычно набирает 6.20% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 479 просмотров. В течение первых суток публикация набирает 3 114 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 32.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 17 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 198

Подписчики

+1924 часа

+37 дней

+1430 день

4 479

Просмотры поста

~ 3 11424 часа

~ 4 23148 часов

8.92%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 198

Хотите получить много практики на реальных задачах, собрать портфолио и узнать как выглядит рабочий день аналитика? CEO Simulative и эксперт с большим опытом в аналитике, Андрон Алексанян организовал бесплатный интенсив, где вы будете решать реальные задачи, с которыми аналитики сталкиваются на работе На прямых эфирах вы сделаете: 🟠Анализ активности пользователей с помощью SQL 🟠Анализ маркетинговых активностей с помощью Python 🟠ABC анализ ассортиментной матрицы в Excel (уже прошел, но вам будет доступна запись) Во время эфиров вы узнаете много лайфхаков, а также будете получать полезные материалы для развития в аналитике на протяжении всего интенсива ❗️Знать Python и SQL не обязательно — все будем разбирать с нуля 🕗 Встречаемся на новом эфире уже сегодня, 20 марта в 19:00 по мск 😶Участвовать в бесплатном интенсиве

50 198

🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA. Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач. Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU. Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др. Совместимость с Llama 3: Сохраняет 🛠 Для кого полезен? Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика). 🚀 Преимущества перед аналогами Скорость и эффективность: Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе. Поддержка квантования и динамического батчинга для снижения затрат на инференс. Масштабируемость: Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes). Совместимость с NVIDIA Triton Inference Server для промышленного развертывания. Кастомизация: Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework. https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1

50 198

⭐️ Reasoning-v1-20m Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях. Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд. https://huggingface.co/datasets/glaiveai/reasoning-v1-20m #dataset #Reasoning

50 198

❓Работаете с данными? Масштабируйте Big Data с Apache Spark! Освойте Spark на продвинутом уровне. За 4 месяца на онлайн-курсе от Otus вы: - Освоите RDD, DataFrame, Dataset, Spark API - Разберётесь в SparkML, потоковой обработке, работе с графами - Научитесь запускать Spark в Kubernetes и Hadoop В программе сложные, но интересные практические задачи и проект на реальных данных. 💪 Выпускники работают с биржами, маркетплейсами и банками. ➡️ Пройдите вступительное тестирование и получите скидку на курс: https://otus.pw/wFnu/?erid=2W5zFH7RZnp Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

50 198

🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов. Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи. ▪Cохраняет контекст даже в документах на 10k+ токенов. ▪Специализация — обучена на корпусах документов (юридических, технических, медицинских). ▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3. Работает на CPU и малом GPU (например, T4), 🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview

50 198

🔥 EXAONE 32B модель, которая превосходит DeepSeek r1 671B? LG AI Research не так давно опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов: 🟠2.4B – компактная модель для использования на устройствах;, 🟠7.8B – универсальная модель; 🟢32B – высокопроизводительная модель для задач, требующих максимальной эффективности. Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей. 🔥 Но это еще не все: EXAONE Deep 7.8B превосходит даже OpenAI o1 Mini почти во всех тестах. *** , это безумие. И для всех тех, кто не понимает, насколько это круто: продвинутый ИИ не только становится лучше, но и становится все меньше и меньше с каждым днем, а значит, и дешевле! Модель 32B, которая всего 5% от размера DeepSeek r1, превосходит ее почти во всех тестах. И в ризонинге SLM даже o1-mini. 🟡Статья 🟡Набор моделей 🟡Demo 7.8B 🟡Arxiv 🖥GitHub @data_analysis_ml

50 198

Multimodal-SAE 🚀 Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные. ▪️ Для кого? ▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA). ▪ Исследователи, изучающие интерпретируемость нейросетей. ▪ Инженеры, которым нужно оптимизировать мультимодальные модели. ▪️ Чем полезен? ▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций. ▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели. ▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs. ▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.). ▪️ Преимущества перед аналогами ▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений. ▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными. ▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке. ▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps). P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей! 📌 Github 📌 Paper @data_analysis_ml

50 198

Приглашаем аналитиков на дружескую встречу в Яндексе! 22 марта в штаб-квартире Яндекса «Красная Роза» команда Рекламных технологий поделятся своим опытом и расскажут: — Как работает аналитика в Коммерческом департаменте и Рекламных технологиях — Как устроена аналитика антифрода рекламных систем После основной части можно будет пройти диагностику навыков, поучаствовать в нетворкинге и задать все интересующие вопросы. Ждут аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться — сбор заявок завершается 20 марта! До встречи!

50 198

Repost from Machinelearning

Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥 🟡HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503 🟡Post: https://mistral.ai/news/mistral-small-3-1/ @ai_machinelearning_big_data #mistral #llm #mistralsmall

50 198

⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях. ▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели. ▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров. ▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна. https://huggingface.co/spaces/Remade-AI/remade-effects @data_analysis_ml

50 198

👁Настройка dev-окружения для команды компьютерного зрения. Что будет на вебинаре? - Аренда и базовая настройка сервера для работы команды. - Установка и настройка инструментов для ML-экспериментов - Развертывание сервиса для разметки изображений CVAT. Узнаете, как арендовать и настроить сервер для командной работы, что позволит им быстро развертывать инфраструктуру для новых проектов. Научитесь настраивать MLFlow для отслеживания экспериментов, JupiterLab для удобной разработки и MinIO для создания общего файлового хранилища, что упростит совместную работу с датасетами и другими файлами. Сможете развернуть CVAT для разметки изображений, что пригодится в проектах, связанных с обработкой и анализом изображений, таких как распознавание объектов, сегментация и т.д. 👉 Регистрация и подробности вебинара https://otus.pw/1tsR/ Вебинар проходит в рамках подписки OTUS, благодаря которой можно приобрести 3 курса по цене одного! #реклама О рекламодателе erid: 2W5zFJPYH52

50 198

📹 ReCamMaster: Camera-Controlled Generative Rendering from A Single Video ReCamMaster: генеративный рендеринг с функциями управлением камерой 🔥 Еще один хит в области генерации видео из Китая Позволяет создавать реалистичные новые сцены из одного видео, что позволяет «переснимать» видео с новыми движениями камеры. Код обещают очень скоро, 🟡Github: https://github.com/KwaiVGI/ReCamMaster 🟡Paper: https://arxiv.org/abs/2503.11647 🟡Project: https://jianhongbai.github.io/ReCamMaster/

50 198

⚡️All-atom Diffusion Transformer (ADiT) — это новая разработка в области генеративного моделирования химических систем . ADiT представляет собой унифицированную латентную диффузионную модель, способную генерировать как периодические материалы, так и непериодические молекулярные структуры ARXIV.ORG Ключевые особенности проекта: Унифицированный подход: ADiT использует единое представление для молекул и материалов, что позволяет эффективно работать с различными химическими системами ARXIV.ORG Диффузионная модель: В основе генерации новых структур лежит диффузионная модель, обученная создавать новые латентные представления, которые затем декодируются в валидные молекулы или материалы ARXIV.ORG Автоэнкодер: Система включает автоэнкодер, который отображает атомарные представления молекул и материалов в общее латентное пространство, обеспечивая эффективное кодирование и декодирование ARXIV.ORG 📌 Github @data_analysis_ml

50 198

⚡️ Copy any UI Клонирование любого сайта одним кликом стало возможным благодаря новому ИИ-агенту Same.dev! Этот инструмент способен создать практически точную копию веб-сайта всего лишь по ссылке. Все, что вам нужно сделать, — это вставить URL интересующего ресурса и немного подождать. Same.dev автоматически проанализирует исходный код и предоставит готовую копию, которую сложно отличить от оригинала. Причем это абсолютно бесплатно: https://same.dev/

50 198

⚡️ Vondy: огромная базу ИИ-агентов для различных задач! В Vondy можно подобрать нейроассистентов, которые возьмут на себя рутинную работу и сэкономят часы, чтобы вы могли уделить время отдыху, хобби или развлечениям. ▪ Агенты для любых задач: от кодинга, написания текста, дизайна и бизнеса до повышения продуктивности и генерации изображений, звуков и видео. ▪ Создайте своего агента: сервис предоставляет все необходимые инструменты, чтобы настроить помощника именно под ваши нужды. ▪ Бесплатно. https://www.vondy.com/ @data_analysis_ml

50 198

⚡️ Computer Using Agent Sample App – это демонстрационное приложение для создания системы «Computer Using Agent» (CUA) с использованием OpenAI API. Основные особенности и интересные моменты проекта: - Прототип CUA: Приложение показывает, как можно интегрировать ИИ-модель для управления интерфейсом компьютера. Модель анализирует скриншоты и предлагает действия (например, клики, ввод текста), которые необходимо выполнить в среде пользователя. - Модульная архитектура: Проект разделён на две ключевые абстракции – «Computer» для выполнения действий (например, локальный браузер через Playwright, Docker-окружение, удалённые браузерные среды) и «Agent» для взаимодействия с моделью. Многообразие сред: В репозитории реализованы различные среды (LocalPlaywright, Docker, Browserbase, Scrapybara), что позволяет протестировать приложение в разных условиях. - Примеры использования: В проекте есть CLI для удобного старта, а также примеры (например, файл simple_cua_loop.py) для демонстрации базового цикла работы CUA. Безопасность: Присутствуют базовые меры безопасности, в том числе проверки URL и запрос подтверждения действий, что важно при управлении реальными интерфейсами. 📌 Github @data_analysis_ml

50 198

Агентство NEWHR опубликовало результаты исследования рынка аналитиков. 1293 респондента разных уровней рассказали, где работают, к чему стремятся и сколько получают. Коротко о главном: ⚫️ Лучшей компанией для работы является Авито (37,2%). Она же стала абсолютным лидером из наиболее известных российских компаний (42,1%). ⚫️ Большинство русскоязычных аналитиков работают в российских компаниях — 75,9%. ⚫️ За 2024 год у 44,9% опрошенных зарплаты выросли на 10-30%. ⚫️ 46% стали более лояльны к своему работодателю. @data_analysis_ml

50 198

⚡️ GPUStack — это менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей. ⚫ Универсальность: Поддерживает работу на разных платформах, включая macOS, Windows и Linux. ⚫ Масштабируемость: Позволяет легко добавлять дополнительные GPU или узлы для увеличения вычислительных мощностей. ⚫ Широкий спектр моделей: Поддерживает запуск больших языковых моделей (LLM), диффузионных моделей, аудио-, embedding и reranker моделей. ⚫ Несколько бекендов: Использует такие решения, как llama-box, vLLM и vox-box для инференса. ⚫ OpenAI-совместимые API: Предоставляет API, совместимые с OpenAI, что облегчает интеграцию с различными приложениями и сервисами. ⚫ Мониторинг и управление: Включает инструменты для отслеживания производительности GPU, использования токенов и управления пользователями и API-ключами. ▪ Github @data_analysis_ml

50 198

✔️ OpenAI презентовала новые инструменты для разработчиков. OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя. Опубликованы и тарифы: ⚫ Computer Use немного дороже обычной GPT-4o — 3 доллара за вход и 12 долларов за выход на миллион токенов; как формировать контекст, какие скриншоты и текст закидывать — остается на ваше усмотрение. ⚫ Поиск по файлам оценивается в $2.5 за 1000 запросов и $0.1 за каждый гигабайт загруженных файлов. ⚫ Стоимость поиска зависит от настройки «длина контекста» (вероятно, от того, сколько ссылок из поисковой выдачи попадут в контекст); для старшей модели цена составляет $30–$50 за тысячу вызовов. 📌 Github 📌 OpenAI на Youtube @data_analysis_ml

50 198

🔥 llm-scraper — библиотека на языке TypeScript, предназначенная для извлечения структурированных данных с веб-страниц с использованием LLM! 🌟 Библиотека поддерживает различные провайдеры LLM, включая локальные модели (Ollama, GGUF), OpenAI и Vercel AI SDK. Для определения схем данных используется библиотека Zod, обеспечивая полную типизацию в TypeScript. В основе работы llm-scraper лежит фреймворк Playwright, который управляет взаимодействием с веб-страницами. 🔐 Лицензия: MIT 🖥 Github @data_analysis_ml