Анализ данных (Data analysis)

Open in Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Network:Machinelearning Russia12 492 Technologies & Applications2 653...

📈 Analytical overview of Telegram channel Анализ данных (Data analysis)

Channel Анализ данных (Data analysis) (@data_analysis_ml) in the Russian language segment is an active participant. Currently, the community unites 50 250 subscribers, ranking 2 653 in the Technologies & Applications category and 12 492 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 50 250 subscribers.

According to the latest data from 24 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 38 over the last 30 days and by -6 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.10%. Within the first 24 hours after publication, content typically collects 6.25% reactions from the total number of subscribers.
Post reach: On average, each post receives 4 571 views. Within the first day, a publication typically gains 3 142 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 29.
Thematic interests: Content is focused on key topics such as llm, контекст, openai, архитектура, deepseek.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Thanks to the high frequency of updates (latest data received on 25 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

50 250

Subscribers

-624 hours

+447 days

+3830 days

4 571

Post views

~ 3 14224 hours

~ 3 63148 hours

9.10%

Engagement rate

~ 5

Posts per day

Ads index

beta

Posts Archive

50 250

🌳Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса Деревья решений представляют собой семейство алгоритмов, которые естественным образом могут обрабатывать как категориальные, так и числовые функции. Главные преимущества алгоритма: устойчивость к выбросам в данных, возможность использования данных разных типов и в разных масштабах без предварительной обработки или нормализации, и главное — ДОСТУПНОСТЬ ДЛЯ ПОНИМАНИЯ. На самом деле используются одни и те же рассуждения, воплощенные в деревьях решений, неявно в повседневной жизни. Например, серия решений «да/нет», которые приводят к прогнозу будет ли тренировка на улице или нет. Модель дерева решений сама “придумывает” эти развилки. Чем больше развилок, тем точнее модель будет работать на тренировочных данных, но на тестовых значениях она начнет чаще ошибаться. Необходим некоторый баланс, чтобы избежать этого явления, известного как переобучение. ## Случайные леса решений Деревья решений обобщаются в более мощный алгоритм, называемый случайные леса. Случайные леса объединяют множество деревьев решений, чтобы снизить риск переоснащения и обучения деревьев решений отдельно. Объединение прогнозов уменьшает дисперсию прогнозов, делает результирующую модель более обобщенной и повышает производительность на тестовых данных. Подготовка данных 📌 Читать @data_analysis_ml

50 250

📒 GigaChat нового поколения. Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей. Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky). Число уникальных пользователей GigaChat достигло 1 млн. • Попробовать @data_analysis_ml

50 250

🖥 Шпаргалка по различным базам данных в облачных сервисах и соответствующим им вариантам с открытым исходным кодом . Выбор подходящей базы данных для своего проекта - сложная задача. Существует множество видов баз данных, каждая из которых подходит для разных случаев использования. Данная шпаргалка поможет определить, какой сервис соответствует потребностям вашего проекта, и избежать возможных "подводных камней". @data_analysis_ml

50 250

🖥 Build Web Apps in Jupyter Notebook Если вы хотите создать веб-приложение в вашем #JupyterNotebook, попробуйте Mercury. 🖥 Github @data_analysis_ml

50 250

💪 Что такое Байесовское А/B-тестирование и как его провести? Подробно обсудим 19 октября в 20:00 мск на открытом уроке в OTUS. Занятие приурочено к старту онлайн-курса «Machine Learning. Advanced». 🔹 На вебинаре мы разберем, какие преимущества дают Байесовские A/B тесты по сравнению с обычными, как проводить Байесовские A/B тесты и как работать с Байесовскми моделями в PyMC3. 📌 Результаты урока: Познакомитесь с основами A/B тестирования и получите новый, простой и эффективный инструмент для A/B тестирования 👉 РЕГИСТРАЦИЯ https://otus.pw/UqGO/ Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KUFd5

50 250

Графовые сверточные сети: введение в GNN Графовые нейронные сети (GNN) представляют собой одну из наиболее интересных и быстро развивающихся архитектур в области глубокого обучения. Будучи моделями глубокого обучения, предназначенными для обработки данных, структурированных в виде графов, GNN обладают универсальностью и огромными обучающими возможностями. Среди различных типов GNN наиболее распространенной и широко применяемой моделью стали графовые сверточные сети (GCN). Инновационность GCN обусловлена их способностью использовать для прогнозирования как особенности узла, так и его локальность, что обеспечивает эффективный способ обработки данных, структурированных в виде графов. В этой статье будет подробно описан механизм работы слоя GCN с объяснением его внутреннего устройства. Кроме того, вы узнаете, как практически применять этот слой для решения задач классификации узлов с использованием в качестве инструмента PyTorch Geometric. PyTorch Geometric (PyG) — это специализированное расширение PyTorch, созданное для разработки и реализации GNN. Эта продвинутая и в то же время удобная в использовании библиотека предоставляет полный набор инструментов для машинного обучения на основе графов. 📌 Читать дальше 📌 PyTorch Geometric @data_analysis_ml

50 250

Бесплатный интенсив по Python, который научит вас работать с данными На трансляции вы: ● познакомитесь с основными возможностями Pandas на примере кейса о продажах продуктов в интернет-магазине; ● научитесь применять их для анализа, обработки и визуализации данных. Интенсив проведёт Анатолий Карпов — тот самый автор «основ статистики» и «введения в Data Science», благодаря которым статистику и основы анализа данных поняли более 200 тысяч человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses. Будет полезно и интересно для любого уровня: если вы только начинаете путь в программировании, вы сможете сделать первый шаг. А если уже используете Python, сможете понять как делать это в разы эффективнее и упрощать работу с данными. Встречаемся уже 18 октября в 19:00 [Зарегистрироваться на интенсив] Реклама. ООО "Карпов Курсы". Erid: LjN8K64d2

50 250

🖥 GitUp В командах Git иногда можно запутаться (путаница между "git reset" и "git revert" может привести к непредвиденным последствиям). Кроме того, исправление ошибок в Git может быть сложным. GitUp представляет удобную модель взаимодействия с #Git, которая позволяет работать с Git быстро и безопасно. GitUp предоставляет: 🔹 Быстрая отмена/повтор практически всех операций 🔹 Мгновенный поиск по всему репо, включая diff-содержимое 🔹 Интерактивный граф репо для редактирования репозитория. 🔹 Удобный пользовательский интерфейс, который работает быстрее, чем командная строка. • Github @data_analysis_ml

50 250

🖥 Если вы работаете с блокнотами jupyter для работы с Python и Data Science, попробуйте эти волшебные команды, которые сэкономят вам массу времени:🧵 1. Jupyter AI: выберите любую модель и пообщайтесь с ней прямо из блокнота Jupyter. Используйте волшебную команду "%%ai", чтобы указать модель и пообщаться с ней, используя промыт на естественном языке: https://github.com/jupyterlab/jupyter-ai 2. %%latex: Это позволяет отображать LaTeX-код в Jupyter Notebook. Картинка 2. 3. %%sql С помощью команд %sql(line magic) и %%sql(cell magic) можно выполнить любой SQL-запрос. Картинка 3. 4. %run Запуск Python-файла в блокноте становится простым. Если у вас есть python-файл, например, "demo .py", и вы хотите запустить его в блокноте, то это можно сделать с помощью следующей команды %run demo .py 5. %%writefile Пример: %%writefile app .py В результате будет создан новый файл "app .py" со всем содержимым, присутствующим в ячейке. 6. %history -n Все мы случайно удаляем команды и их результаты в блокноте. Для отображения всех предыдущих команд можно воспользоваться этой волшебной командой -n поможет получить последние n команд @data_analysis_ml

50 250

🔥 Дайджест полезных материалов из мира Data Science за неделю Почитать: — Как «воспитать ламу» и ускорить ML-эксперименты — Airflow vs NiFi: исследуем оркестратор для формирования витрин данных — Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI — Применение нейросетевых подходов для формирования признаков в моделях — ipywidgets: создаем графические приложения на базе Jupyter — Как использовать GPU для ускорения аналитической обработки данных — Введение в библиотеку Diffusers и диффузионные модели — 70 % программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы? — Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений — LLaMA 2, RWKV, Santacoder и другие LLM на iOS — MLOps на примере прогноза движений акций с помощью MLRun — Using ggplot2 for Visualization in R — ИИ вместо астролога или как я создавала астробота Катю — Learning to Decode the Surface Code with a Recurrent, Transformer-Based Neural Network — Milvus Adventures | October 13, 2023 — Data Science Roadmap — Exploratory Data Analysis with Data Visualization Techniques — Data Visualization — Exploratory Data Analysis using Data Visualization Techniques. — Exploratory Data Analysis using Data Visualization Techniques — Nobel Laureates’ Countries, or Creating a Word Cloud with JS — Data Modelling — Exploratory Data Analysis using Data Visualization Techniques — Exploratory Data Analysis using Data Visualization Techniques — Stream Processing Engines and Streaming Databases: Design, Use Cases, and the Future Посмотреть: 🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23) 🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37) 🌐 Django шаблонизация и маршрутизация (⏱ 09:11) 🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59) 🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59) 🌐 Хитрая задача с собеседования #Python (⏱ 00:59) 🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35) 🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08) 🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24) 🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱ Хорошего дня!

50 250

Чтобы ограничить внешний доступ и модификацию переменной за пределами класса, сделайте ее приватной, используя двойное подчеркивание. Это позволяет свести к минимуму вероятность непреднамеренных изменений. #Python @data_analysis_ml

50 250

Яндекс продолжает приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning Принять участие могут исследователи, научные руководители и преподаватели в области машинного обучения. Премия вручается за исследования в следующих направлениях: — компьютерное зрение, — обработка естественного языка и машинный перевод, — распознавание и синтез речи, — информационный поиск и анализ данных, — генеративные модели. География премии охватывает 11 стран. Подать заявку на соискание премии могут исследователи и преподаватели из России, Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, Таджикистана, Туркменистана, Узбекистана и Сербии. Лауреаты Yandex ML Prize получат денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях, а также подписки на Яндекс 360 и Плюс Мульти. Больше информации по ссылке. Реклама. ООО «Яндекс»

50 250

📊 Perspective Perspective - это инструмент интерактивной аналитики и визуализации данных, который особенно хорошо подходит для работы с большими и/или потоковыми наборами данных. С его помощью можно создавать настраиваемые отчеты, информационные панели, блокноты и приложения, а затем развертывать их отдельно в браузере или совместно с Python и/или Jupyterlab. • Github • Проект @data_analysis_ml

50 250

🖥 Feature engineering и кластерный анализ клиентов на PySpark. BigData плотно входит в нашу жизнь. Датасеты растут и постоянно изменяются, что усложняет задачу кластеризации клиентов. Обычно для задач кластеризации используется библиотека Sklearn, но с большим объёмом данных её использовать не получиться. Spark позволяет реализовать параллельные вычисления на кластерах и имеет в составе своего фреймворка библиотеку машинного обучения MLlib. В случае больших данных, когда привычные инструменты отказываются работать с такими объёмами, PySpark приходит на выручку. При этом, прежде чем запустить алгоритмы машинного обучения на вашем датасете, необходимо подготовить данные и провести feature engineering, а это достаточно трудозатратная задача, но в то же время необходимая, так как от этого этапа во многом зависит качество конечного результата. Данный этап также необходимо делать на PySpark, опять-таки из-за объёма данных. Перед нами стояла задача анализа массива данных заёмщиков физических лиц – злостных неплательщиков кредитов, дела по которым уже направлены в суд. Этот массив необходимо было разбить на блоки (кластеры). Цель кластерного анализа – понять, какие группы по общим признакам можно выделить, и в дальнейшем разработать для каждой группы индивидуальную тактику взыскания, и, возможно, найти пути улучшения методологии скоринга. 1. Подготовка данных 1.1. Идеи Подготовка данных – этап, предшествующий анализу и требующий хорошего понимания предметной области. Предобработка осуществляется если не руками самого эксперта в этой области, то в очень тесном с ним сотрудничестве. Останавливаться на предварительной подготовке данных долго не будем, поскольку общих рекомендаций здесь не выработать, только кратко отметим основные моменты, которые мы произвели с нашим датасетом и которые отличаются от классической борьбы с отсутствующими значениями. Выбирали признаки, которые: • непосредственно характеризуют именно самого заёмщика, а не кредитный продукт, не договор и прочее; • имеют значение до выхода на просрочку (то есть, например, данные по процедурам взыскания в анализ не берём, так как хотим разобраться в причинах, которые к этому привели). Убрали признаки: • дублирующие друг друга по существу (например, остаток основного долга (ОД) в валюте и остаток ОД в рублях – достаточно оставить только один показатель); • по которым слишком много вариантов (например, 100-200 значений для признака «должность на месте работы»). В результате предобработки датасета количество исходных данных существенно сократилось. В исходном датасете количество признаков достигало 191, после чистки на основе описанных выше идей их осталось 43. Среди них: • признаки, связанные с первым кредитным договором: вид кредитования, срок кредита, признак реструктуризации, дата выдачи кредита, ставка, валюта и т.д.; • числовые признаки (итого по всем договорам): сумма обеспечения, сумма общей задолженности в рублях, сумма погашений по основному долгу; • признаки — индивидуальные характеристики заёмщика: пол, возраст, резидентство, признак vip, наличие заграничного паспорта, категория надёжности, данные, связанные с рабочей деятельности, данные, связанные с собственностью и т.д. 1.2 Реализация на PySpark После импорта необходимых библиотеки и создания сессии Spark, входной точки каждого PySpark приложения, загружаем исходные данные и подготовленный совместно с экспертом список признаков в объекты Spark DataFrame. DataFrame – одна из двух абстракций массива данных в Spark (вторая абстракция — RDD), которая предоставляет более высокоуровневое API (по сравнению с RDD). Метод загрузки данных зависит от формата файла (в рассматриваемом примере CSV, но может быть JSON, ORC, Parquet и др.). Далее на основе списка признаков из исходного датасета отбираем нужные колонки. Затем группируем полученный массив данных по идентификатору заёмщика, при этом для колонок с числовыми значениями данные суммируем, а для колонок с категориальными значениями оставляем только первое значение. 📌 Читать @data_analysis_ml

50 250

⚡️ Яндекс продолжает прием заявок на научную премию в области машинного обучения Yandex ML Prize — это премия для ML-исследователей, их наставников и преподавателей из 11 стран. Наградят в этом году за достижения в сферах: — распознавание и синтез речи; — компьютерное зрение; — информационный поиск и анализ данных; — обработку языка и машинный перевод — генеративные модели Кандидаты могут подать заявку сразу в несколько номинаций — от «Первой публикации» до «Лучшего молодого научного руководителя». Единственное условие для исследователей — наличие публикаций или докладов, в том числе постера, на конференции A* или A за 2022–2023 гг. А для научных руководителей — более 5 студентов с такими публикациями. 🏆 Победители получат от 500 тысяч рублей, грант на использование сервиса Yandex Cloud для исследований и подписку на Яндекс 360. Не пропустите шанс заявить о себе научному сообществу — подать заявку можно до 16 октября по ссылке. Реклама. ООО «Яндекс»

50 250

Cleanlab 🚀 Всего за 3 строки кода эта библиотека с открытым исходным кодом может очистить любой датасет! Вы можете: - удалять выбросы - находить ошибки в данных - выявлять дубликаты - проводить активное обучение - строить распределения - И многое другое ... Cleanlab разработана специалистами Массачусетского технологического института и работает на основе нового алгоритма под названием Confident Learning! На картинке 2 приведено упрощенное объяснение этого алгоритма! Библиотека работает с: - Любыми данными (текст, изображения, таблицы, аудио и т.д.) - Любые задачи ML (классификация,, распознавание, работа с LLM и многое другое ...) • Github @data_analysis_ml

50 250

Большие датафреймы могут потреблять значительные объемы памяти. Если обрабатывать #данные небольшими фрагментами, то можно избежать нехватки памяти и получить доступ к данным быстрее. В приведенном примере кода используется chunksize=100000, что работает примерно в 5495 раз быстрее, чем без использования chunksize. #tips #datascience #junior @data_analysis_ml

50 250

✅ A/B тестирование: как сделать правильный выбор? А/В-тестирование – это метод, который используется для сравнения двух версий переменной, например, дизайна сайта при маркетинговом исследовании с целью выявления лучшей версии. Это критически важный метод исследования в Data Science, который часто используется различными организациями при принятии решений с целью оптимизации существующего продукта и максимизации прибыли. Представлю, что компания, продающая мебель, хочет увеличить число кликов по баннеру «Мебель на заказ». Они значительно изменили дизайн сайта для этой цели. К сожалению, не существует способов предсказать, как именно изменится поведение людей на обновленном сайте по сравнению со старой версией. А/В-тестирование может помочь, например, измерить разницу в конверсии между двумя версиями сайта и сказать, является ли эта разница статистически значимой. Нулевая гипотеза в рамках А/В-тестирования – предположение о том, что разницы между версиями сайта А и В в действительности нет, а все наблюдаемые различия обусловлены случайностью. Моя задача в ходе А/В-тестирования – опровергнуть нулевую гипотезу. Альтернативная гипотеза в рамках А/В-тестирования утверждает, что версии сайта А и В различны с точки зрения поведения пользователей. Уровень значимости – это порог вероятности для определения того, являются ли результаты эксперимента статистически значимыми. Чаще всего уровень значимости устанавливается равным 0,05. Это значит, что моё утверждение о значимости результата будет справедливо на 95%. Чем ниже выбранный уровень значимости, тем ниже риск того, что будет обнаружена разница, вызванная случайностью. P—value – это вероятность наблюдения данного результата при условии, что нулевая гипотеза верна. Если p-value меньше, чем уровень значимости (α), то отвергается нулевая гипотеза в пользу альтернативной (то есть результаты являются статистически значимыми). Например, при уровне значимости 0,05 p-value должна быть меньше 0,05 для признания результатов эксперимента статистически значимыми. Доверительный интервал – интервал значений, в котором, с вероятностью (1- α), лежит истинное значение переменной. Доверительный интервал является оценкой возможных значений переменной в зависимости от её стандартного отклонения. Статистическая мощность – вероятность отклонения нулевой гипотезы в случае, если альтернативная гипотеза верна. Обычно статистическая мощность теста устанавливается равной 0,8. Это значение используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта. Организация эксперимента Для проведения А/В-теста требуется разделить всех пользователей на две группы: одна группа будет видеть старый дизайн сайта, а другая – новый. Пользователи распределяются между группами случайным образом. Как правило, группу, которой показывают новый дизайн сайта (В), называют тестовой, а группу, которой показывают старый дизайн (А) – контрольной. Целевая метрика – CTR, то есть количество кликов на баннер, делённое на количество показов. Буду сравнивать среднее значение метрики CTR для контрольной и тестовой групп. Предположу, что в контрольной группе среднее значение метрики составляет 12%, а в тестовой – 14%. Если среднее значение метрики в тестовой группе выше, чем в контрольной, то означает ли это, что дизайн сайта В лучше дизайна сайта А? Ответ: нет. Необходимо показать, что результаты А/В-теста статистически значимы. Это означает, что различие в версиях наблюдается не случайно и не обусловлено какой-либо ошибкой. Проверить это можно с помощью статистических тестов. Не буду заниматься сбором данных в рамках данной публикации. Буду анализировать данные, взятые из датасета с Kaggle. Скачать его можно здесь. 📌 Читать дальше @data_analysis_ml