Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 492 Технологии и приложения2 653...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 250 подписчиков, занимая 2 653 место в категории Технологии и приложения и 12 492 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 250 подписчиков.

Согласно последним данным от 24 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 38, а за последние 24 часа — -6, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 9.10%. В первые 24 часа после публикации контент обычно набирает 6.25% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 571 просмотров. В течение первых суток публикация набирает 3 142 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 29.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 25 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 250

Подписчики

-624 часа

+447 дней

+3830 день

4 571

Просмотры поста

~ 3 14224 часа

~ 3 63148 часов

9.10%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 250

✅ A/B тестирование: как сделать правильный выбор? А/В-тестирование – это метод, который используется для сравнения двух версий переменной, например, дизайна сайта при маркетинговом исследовании с целью выявления лучшей версии. Это критически важный метод исследования в Data Science, который часто используется различными организациями при принятии решений с целью оптимизации существующего продукта и максимизации прибыли. Представлю, что компания, продающая мебель, хочет увеличить число кликов по баннеру «Мебель на заказ». Они значительно изменили дизайн сайта для этой цели. К сожалению, не существует способов предсказать, как именно изменится поведение людей на обновленном сайте по сравнению со старой версией. А/В-тестирование может помочь, например, измерить разницу в конверсии между двумя версиями сайта и сказать, является ли эта разница статистически значимой. Нулевая гипотеза в рамках А/В-тестирования – предположение о том, что разницы между версиями сайта А и В в действительности нет, а все наблюдаемые различия обусловлены случайностью. Моя задача в ходе А/В-тестирования – опровергнуть нулевую гипотезу. Альтернативная гипотеза в рамках А/В-тестирования утверждает, что версии сайта А и В различны с точки зрения поведения пользователей. Уровень значимости – это порог вероятности для определения того, являются ли результаты эксперимента статистически значимыми. Чаще всего уровень значимости устанавливается равным 0,05. Это значит, что моё утверждение о значимости результата будет справедливо на 95%. Чем ниже выбранный уровень значимости, тем ниже риск того, что будет обнаружена разница, вызванная случайностью. P—value – это вероятность наблюдения данного результата при условии, что нулевая гипотеза верна. Если p-value меньше, чем уровень значимости (α), то отвергается нулевая гипотеза в пользу альтернативной (то есть результаты являются статистически значимыми). Например, при уровне значимости 0,05 p-value должна быть меньше 0,05 для признания результатов эксперимента статистически значимыми. Доверительный интервал – интервал значений, в котором, с вероятностью (1- α), лежит истинное значение переменной. Доверительный интервал является оценкой возможных значений переменной в зависимости от её стандартного отклонения. Статистическая мощность – вероятность отклонения нулевой гипотезы в случае, если альтернативная гипотеза верна. Обычно статистическая мощность теста устанавливается равной 0,8. Это значение используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта. Организация эксперимента Для проведения А/В-теста требуется разделить всех пользователей на две группы: одна группа будет видеть старый дизайн сайта, а другая – новый. Пользователи распределяются между группами случайным образом. Как правило, группу, которой показывают новый дизайн сайта (В), называют тестовой, а группу, которой показывают старый дизайн (А) – контрольной. Целевая метрика – CTR, то есть количество кликов на баннер, делённое на количество показов. Буду сравнивать среднее значение метрики CTR для контрольной и тестовой групп. Предположу, что в контрольной группе среднее значение метрики составляет 12%, а в тестовой – 14%. Если среднее значение метрики в тестовой группе выше, чем в контрольной, то означает ли это, что дизайн сайта В лучше дизайна сайта А? Ответ: нет. Необходимо показать, что результаты А/В-теста статистически значимы. Это означает, что различие в версиях наблюдается не случайно и не обусловлено какой-либо ошибкой. Проверить это можно с помощью статистических тестов. Не буду заниматься сбором данных в рамках данной публикации. Буду анализировать данные, взятые из датасета с Kaggle. Скачать его можно здесь. 📌 Читать дальше @data_analysis_ml

50 250

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней. Ближайшее мероприятие: • 16-20 октября — Fast Track для технических менеджеров, офер за 5 дней в команду Crowd. Зарегистрироваться Реклама. ООО "Яндекс". erid:2Vtzqv5JoPP

50 250

📊 Pmdarima Для достижения функциональности, аналогичной auto.arima в R, в рамках scikit-learn-подобного интерфейса, используйте Pmdarima. Pmdarima - это статистическая библиотека, для анализа временных рядов на Python. #Python #DataScience • Github @data_analysis_ml

50 250

Samokat.teсh & Systems.Education Meetup — cистемный анализ и проектирование в e-commerce Когда: 20 октября (пятница), 18:00 – 21:30 по Мск Где: г. Москва, Овчинниковская набережная, 18/1 стр. 2 + онлайн-трансляция Приходите послушать спикеров из Samokat.tech, Systems.Education и ИТ-интегратора AWG про особенности работы системных аналитиков и архитекторов в быстрорастущих и высоконагруженных проектах e-commerce. После докладов — присоединяйтесь к дискуссии на круглом столе! В программе: 1️⃣ Почему аналитик не может быть кроссдоменным координатором? — Анастасия Тарасова, старший системный аналитик в Samokat.teсh 2️⃣ Проектирование системы от нефункциональных требований — Евгений Скориков, главный архитектор в AWG 3️⃣ Круглый стол с экспертами Темы: матрица компетенций, проектирование сквозных процессов, использование 🗓Вig Data в проектах. Модератор: Юрий Куприянов, ведущий эксперт по системному анализу и проектированию Systems.Education 👉 Регистрация и чат митапа Реклама ООО «Умное пространство» ИНН 7811554010 erid: LatgC5xRf

50 250

✅ NLP на практике. Определяем тональность текста при помощи NLTK и DL. https://www.youtube.com/watch?v=w2y01D2tLt4 @data_analysis_ml

50 250

⚡️ 7 признаков того, что вы стали продвинутым пользователем Sklearn Вы узнаете о семи неоспоримых признаках того, что стали продвинутым пользователем Sklearn, о чем, возможно, и не подозревали. А поскольку Sklearn — самая популярная МО-библиотека, можете считать эти признаки подтверждением своего профессионализма в области машинного обучения. Начнем! 0. Разделение на три набора Почти все, что вы делаете в машинном обучении, направлено на избежание чрезмерной подгонки. Один из лучших способов борьбы с этим явлением — разделение данных не на два, а на три набора! Кэсси Козырьков, руководительница отдела интеллектуальных решений в Google, считает: разделение данных — самая мощная идея в машинном обучении. Вы знаете, что переподгонка может произойти не только на обучающей, но и на контрольной выборке. Вы замечали, что использование одного и того же набора для тестирования и настройки гиперпараметров часто приводит к утечке данных, которую трудно обнаружить. При постоянном подстраивании гиперпараметров на основе производительности модели на конкретном тестовом наборе возникает риск переподгонки модели под этот конкретный набор. Итак, вы обучаете выбранную модель, используя 50% имеющихся данных. Затем проводите тонкую настройку и оценку модели на отдельном контрольном наборе, содержащем 25% данных. И наконец, когда baby-модель уже готова к внедрению, тестируете ее в последний раз, используя совершенно нетронутый (то есть вы даже не просматривали первые пять строк) тестовый набор. Помня вышеупомянутое правило, вы сохраняете этот фрагмент кода на своем рабочем столе, чтобы скопировать/вставить его в любое время:

from sklearn.model_selection import train_test_split

def split_dataset(data, target, train_size=0.5, random_state=42):
    # Разделение датасета на обучающий набор и остальные данные 
    X_train, remaining_data, y_train, remaining_target = train_test_split(
        data, target, train_size=train_size, random_state=random_state
    )
    
    # Разделение оставшихся данных поровну на тестовый и валидационный наборы 
    X_val, X_test, y_val, y_test = train_test_split(
        remaining_data, remaining_target, test_size=0.5, random_state=random_state
    )
    
    return X_train, X_val, X_test, y_train, y_val, y_test

1. Установление общепринятой базовой оценки Как понять, вносят ли вклад в конечный продукт — идеальную модель — ваши действия в МО-проекте? Подход “могу определить навскидку” не годится. Здесь нужна путеводная звезда — некий ориентир, на который всегда можно опереться, чтобы понять, может ли только что подготовленная модель пройти хотя бы простейшие тесты. Как вы неоднократно убеждались на опыте своих проектов, эта путеводная звезда является общепринятой базовой эффективностью. После идентификации задачи машинного обучения, выбора характеристик и определения целевой переменной вы устанавливаете либо DummyRegressor, либо DummyClassifier, чтобы оценить эффективность модели случайного угадывания для конкретной задачи. Эта оценка служит базовой, и все последующие эксперименты направлены на улучшение этого начального результата.

from sklearn.dummy import DummyClassifier

clf = DummyRegressor().fit(X_train, y_train)
clf.score(X_test, y_test)

Вы не устаете рекомендовать эту практику другим, включая вашего лучшего друга. Однажды по глупости он перепробовал все подходящие для задачи классификации изображений Sklearn-модели и все более сложные архитектуры глубокого обучения, пытаясь выяснить, почему все его эксперименты не дают результата выше определенного порога. Когда вы напомнили ему о базовой оценке, он попробовал DummyClassifier и понял: задача в принципе была неразрешима и все его усилия оказались пустой тратой времени, потому что ни один из его экспериментов не смог превзойти модель случайного угадывания. Ему пришлось искать новый набор данных. Ничто не сравнится с ужасом перед оверинжинирингом (чрезмерным инжинирингом), когда модель, казавшаяся исключительной, оказалась совершенно неэффективной. 📌 Читать дальше @data_analysis_ml

50 250

Сбер расширяет географию своих ивентов: 19 октября в Алматы состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻 На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о: ✔️ Технологических трендах в области искусственного интеллекта и машинного обучения. ✔️ Устройстве современных стримингов компаний-партнёров Сбера. Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 19 октября в 18:00 по адресу: Алматы, Лофт 1205, 2 этаж, Restopark, проспект Сейфуллина 617 💚

50 250

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю Почитать: — Есть ли жизнь после Nvidia? — Перевод трактата по демонологии при помощи GPT-4 и Claude — Откройте свое будущее: Изучите 15 бесплатных курсов IBM прямо сейчас — SAGE: коррекция орфографии с помощью языковых моделей — Python, Go или… готовим сырой видеопоток с полсотни камер — Как мы используем NLP в банке — Нейронные сети для планирования движения беспилотных автомобилей — Организация GPU-вычислений для машинного обучения в компании: проблемы и трудности — Детекция дефектов дорожного покрытия без размеченных данных: Хакатон, LiDAR, RANSAC, ICP и 44 бесcонных часов — Чат GPT-4V, который видит — что он умеет — Feature engineering и кластерный анализ клиентов на PySpark — Trabaje con sus datos en tiempo real usando Langchain — BakaLLM, part 3: it's testing time, it's testing time — Enabling Language Models to Implicitly Learn Self-Improvement — Introdução ao Aprendizado de Máquina Online — Why Python is a first choice for Data scientist — Mastering Machine Learning: Your Path to Excellence with UpSkill Certifications — Data Science for Beginners: 2023-2024 Edition — Data Science for beginners, complete roadmap. — Data Science Beginner's guide. — The Ultimate Guide to Getting a Data Scientist Job in 2023 (Even If You're a Beginner) Посмотреть: 🌐 Interview: "Large Language Model Operations: The Next Frontier in MLOps" (⏱ 59:18) 🌐 Exploring the Generative AI Landscape: From Basics to Hands-on Applications - Raghav Bali (⏱ 32:54) Хорошего дня! @data_analysis_ml

50 250

🖥 В больших проектах #SQL-запросы могут становиться сложными. Документирование помогает прояснить функциональность каждого запроса для других членов команды. С помощью #dbt вы можете легко документировать свои запросы с помощью команды 𝐝𝐛𝐭 𝐝𝐨𝐜𝐬 𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞. 📌 Что такое dbt 📌 Больше примеров @data_analysis_ml

50 250

Мечтаешь стать топовым специалистом, но не хватает фундамента? Или хочешь с легкостью проходить собесы в крупные компании? Ищешь материалы и советы по подготовке? Тогда подпишись на канал "Поступашки - ШАД, Стажировки и Магистратура"! Канал ведут ведущие специалисты big data и преподаватели ШАД. Там тебя ждут: 🔺Подборки материалов по алгоритмам, математике и разработке ; 🔺Советы, как развиваться в выбранной области от практикующих специалистов; 🔺Инсайды и анонсы об актуальных стажировках, образовательных проектах и олимпиадах. ...и еще много полезного =) Подписывайся ⬇️ @postypashki_old

50 250

✔ No Black Box Machine Learning Course – Learn Without Libraries Как насчет курса по машинному обучению, который не опирается на библиотеки? В этом курсе "без черного ящика" алгоритмы изучаются с нуля. Вы узнаете, как они работают и создадите несколько интересных DS проектов таких, как приложение для рисования, визуализатор данных и многое другое. • Video • Github • Course ai_machinelearning_big_data

50 250

Зовем на курс по профессии Data Scientist 13 ноября в Слёрм стартует поток «Профессия Data Scientist». Это новый курс от двух мощных экспертов: ⚡️Иван Аникин, Team Lead Yandex.Edadeal. Суммарный опыт в области DS более 6 лет, отвечал за разработку и запуск ML-проектов в Yandex, Sber, SberDevices, Лента ⚡️Владимир Бугаевский, Team Lead СберМаркет. Опыт в индустрии: 6+ лет, до этого разрабатывал рекомендательную систему VK Пульс. Они расскажут, как создавать алгоритмы, которые автоматизируют труд и заставляют компьютеры «думать» самостоятельно. Посмотреть подробную программу можно на сайте Слёрм На курсе будут разбирать такие темы, как: ✔️ Основные алгоритмы и понятия классического машинного обучения ✔️ Применение машинного обучения в бизнес-задачах ✔️ Базовые подходы для построения нейронных сетей, фреймворк PyTorch для написаний нейронных сетей ✔️ Основные библиотеки для анализа данных: jupyterlab, numpy, scipy, pandas, matplotlib 30% теории, 70% — практики Длительность курса составляет 3,5 месяца. Обучение идет в формате потока: спикеры отвечают на вопросы студентов и в групповом чате, и на онлайн-встречах. Есть и промежуточные задания, и финальный проект. По заданиям и проектам эксперты дают глубокую обратную связь-ревью. Записаться на курс можно по ссылке Реклама. ООО «Слёрм» г. Лиски, ОГРН 1193668020545

50 250

🖥 Загружай данные в 113 раз быстрее. При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры. Для повышения скорости выполнения запросов следует переместить фильтры в движок PyArrow, чтобы использовать оптимизацию обработки PyArrow. В приведенном ниже коде фильтрация набора данных из 100 млн строк с помощью PyArrow выполняется примерно в 113 раз быстрее, чем при использовании pandas. 📌 Смотреть код @data_analysis_ml

50 250

🔵🗣Вырасти до хардового Middle+ аналитика. Как? Добавьте к своим скилам навыки в проектировании архитектуры и интеграций веб-сервисов! Рассмотрите — авторский курс про архитектуру и интеграции с практикой. ————— По результатам курса вы: ▫️научитесь выбирать стиль интеграции под вашу задачу; ▫️сможете проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и др. + брокеры сообщений); ▫️поймете, как правильно собирать требования и моделировать в UML; ▫️подготовитесь к собеседованию, решив более 100 тестов; ▫️разработаете свой API на Python. ————— 🟢Вы получите большую базу фундаментальных знаний, доступ к урокам останется навсегда 💡 • Всю программу и отзывы смотрите в боте курса. • Результат после прохождения курса: 15 рабочих проектов в портфолио. 🔹🔹 С чего начать?🔹🔹 С открытых бесплатных уроков по архитектуре и интеграциям в боте. Переходите, нажимайте «старт». 👇 @studyit_help_bot @studyit_help_bot Скидка на курс для канала — 1 490₽ по промокоду DAMI до 15 октября.

50 250

🖥 Оптимизация хранения данных в СУБД Greenplum Greenplum — это open source MPP СУБД, основанная на PostgreSQL. Архитектура СУБД укрупненно представляет собой систему, состоящую из n-го количества Segment Host — процессов/серверов, на которых производится хранение и обработка данных, и одного Master Host – процесса/сервера, являющегося точкой входа клиента, который также хранит внутри себя метаданные таблиц и распределяет обработку данных между сегментами. Вопрос выбора способа хранения данных для меня встал достаточно остро из-за относительно большого объема анализируемых данных. Кратко опишу набор таблиц витрины и примерное количество строк в них на данный момент: 1. Таблица с пользователями маркетплейса (более 4 млн.); 2. Корзина товаров (более 150 млн.); 3. Покупки пользователей в маркетплейсе (более 40 млн.); 4. Таблица с начислениями бонусов за покупки (более 20 млн.) 5. И т.д. (суммарно еще около 5-10 млн. строк уходят на перечень продаваемых товаров, различные справочники и другую сопутствующую информацию) Аналитические запросы, в особенности с объединением этих таблиц, занимают достаточно большое количество времени и ресурсов, что негативно складывается на работе СУБД, коллег и меня в частности. В связи с этим, оптимизация хранения таблиц является одним из основных вариантов оптимизации запросов (вкупе с объяснением того, как эти оптимальные запросы строить, но это уже совсем другая история). Рассмотрим задачу выбора оптимального способа хранения данных подробнее. 👇 📌Читать @data_analysis_ml

50 250

🦙 Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads Попробуйте модель, которая ускоряет в генерацию текста 2 раза: Medusa упрощает и ускоряет большие языковые модели. Ваша исходная модель остается нетронутой, а в процессе обучения производится только тонкая настройка новых функций. В процессе генерации каждая из этих функций выдает несколько вероятных слов для соответствующей позиции. Затем эти варианты комбинируются и обрабатываются с помощью механизма внимания, древовидной структуры. Затем, выбираются наиболее правдоподобные генерации для дальнейшего декодирования. pip install medusa-llm • Github • Как работает модель @data_analysis_ml

50 250

⚡️ bhosmer PyTorch только что выпустил удивительный инструмент для визуализации умножения матриц! Внутри: Визуализация умножения матриц, операций на ними и не только Запустите его в браузере: http://bhosmer.github.io/mm/. Подробнее читайте в блоге👇 http://pytorch.org/blog/inside-the-matrix/ @data_analysis_ml

50 250

В начале сентября прошла Practical ML Conf, а сейчас Яндекс опубликовал плейлист с записями докладов, в которых ведущие инженеры ВТБ, Авито, Сбера и самого Яндекса рассказывают о своем опыте применения практического машинного обучения. Из запоминающегося: Алексей Морозов из Поиска поделился кейсом модернизации нейронных сетей, которая позволяет ML-инженерам и исследователям не беспокоиться о работоспособности инфраструктуры и автоматически масштабироваться в процессе работы. Руководитель группы компьютерного зрения и робототехники, Валерий Ильин, рассказал о том, как компьютерное зрение используется в роботах на складах Яндекс Маркета. Записи этих докладов и всех остальных можно найти здесь. @data_analysis_ml

50 250

⭐️ 7 лучших бесплатных курсов университета MIT по программной инженерии и науке о данных. Эти курсы - ваш билет к совершенству. Возможность получить актуальные знания бесплатно от одного из лучших учебных заведений мира. Ознакомьтесь с ними ниже: 1. Концепции программной инженерии. https://ocw.mit.edu/courses/16-355j-software-engineering-concepts-fall-2005/ 2. Foundations Of Software Engineering. https://ocw.mit.edu/courses/1-124j-foundations-of-software-engineering-fall-2000/ 3. Компьютерные алгоритмы в системной инженерии. https://ocw.mit.edu/courses/1-204-computer-algorithms-in-systems-engineering-spring-2010/ 4 Integrating ESystems & Global Information Systems. https://ocw.mit.edu/courses/15-565j-integrating-esystems-global-information-systems-spring-2002/ 5. Оптимизация проектирования мультидисциплинарных систем. https://ocw.mit.edu/courses/ids-338j-multidisciplinary-system-design-optimization-spring-2010/ 6. Статистическое мышление и анализ данных. https://ocw.mit.edu/courses/15-075j-statistical-thinking-and-data-analysis-fall-2011/ 7. Вычисления и анализ данных. https://ocw.mit.edu/courses/1-017-computing-and-data-analysis-for-environmental-applications-fall-2003/ @data_analysis_ml

50 250

📊 Vizro Если вы хотите использовать модульный и простой код для создания красивых дашбордов, рекомендуем попробовать библиотеку vizro. С помощью нескольких строк кода и простой конфигурации можно создавать сложные дашборды, которые автоматически генерируются на основе Plotly и Dash. pip install vizro • Github • Документация • Примеры с кодом @data_analysis_ml