Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 428 Технологии и приложения2 659...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 263 подписчиков, занимая 2 659 место в категории Технологии и приложения и 12 428 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 263 подписчиков.

Согласно последним данным от 28 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 42, а за последние 24 часа — 3, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 10.26%. В первые 24 часа после публикации контент обычно набирает 6.15% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 5 157 просмотров. В течение первых суток публикация набирает 3 091 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 29.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 29 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 263

Подписчики

+324 часа

+87 дней

+4230 день

5 157

Просмотры поста

~ 3 09124 часа

~ 3 47148 часов

10.26%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 256

💨 Машинное обучение для поиска аномалий Выявлять нетипичное поведение или аномальные значения признаков можно разными путями. При наличие данных за прошедшие периоды, размеченные как fraud/not fraud, можно использовать модели классификаторы для выявления подозрительных операций в настоящем. Я же рассмотрю случай, когда размеченных должным образом данных нет и анализ нужно проводить с чистого листа. Данная методика была применена для анализа поставщиков программного обеспечения и компьютерной техники на предмет выявления компаний с аномальным, не характерным для подобных контрагентов поведением. ➡️ Читать дальше @data_analysis_ml

50 256

🧠 NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и т. д. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, кукую же из них использовать — Natasha, Stanza и Pullenti. Далее пойдет речь именно об этих библиотеках. ➡️ Читать @data_analysis_ml

50 256

Под бой курантов цели на год приходят в голову легко — уйду в IT работать на удалёнке! А вот путь к ним перекрывают сомнения: не потяну, не смогу работать и учиться, не возьмут без опыта, это всё не для меня. Вот уже лето, а цель всё так же далека. Стать аналитиком данных за год реально — на курсе Яндекс Практикума. Вот почему мы в этом уверены: — Размеренную учёбу по 10–15 часов в неделю можно совмещать с работой, вузом и семьёй. — После курса у вас будет портфолио: 14 учебных проектов и два боевых, от реальных заказчиков. — Работу находят выпускники с очень разным опытом — бывший офицер, звукорежиссёр, менеджер и другие. — 78% наших выпускников трудоустраиваются. Смогли они — получится и у вас. Дойти до цели вам поможет команда сопровождения. Специалисты объяснят сложные темы на вебинарах, проверят проекты, научат писать резюме и проходить собеседования. Курс можно оплатить в рассрочку: 15 500 ₽ в месяц. Сэкономить 13 020 ₽ поможет промокод DAPLUSAUGUST — он даёт 7% скидки на курс с 8 по 21 августа. Протестируйте формат бесплатно →

50 256

🌌 Выявление и визуализация отсутствующих данных для применения машинного обучения У нас есть персональные данные покупателей сервиса, их местоположение, а также данные о статусе покупки сервиса и обратна связь по качеству сервиса в одном предложении. Для того, чтобы решить задачу о прогнозе оттока клиентов необходимо прежде всего оценить качество имеющихся данных. Вопрос качества данных важен потому, что от него напрямую зависит корректность решения задачи машинного обучения. Предлагаю рассмотреть имеющиеся данные на вопрос наличия в них пустых значений, чтобы оценить полноту предоставленной информации. Для того, чтобы вопрос качества имеющихся данных был наглядным визуализируем полноту данных при помощи разных инструментов. Рассмотрим мой стандартный способ визуализации полноты данных с помощью диаграммы, дендрограммы и тепловой карты корреляции наличия данных. ➡️ Читать @data_analysis_ml

50 256

❄️ Визуализируем данные из xml в виде социальной сети Вы наверняка часто слышали об XML и вам известно хотя бы одно приложение, экспортирующее данные в этот формат. XML имеет большую совместимость и благодаря этому применяется для обмена данными между базами данных и пользовательскими компьютерами. Но как именно с ним работать и анализировать? В этой статье разберем практическую задачу с экспортированными данными в XML и визуализацией этих данных. ➡️ Читать @data_analysis_ml

50 256

🌉 Ансамбли методов в алгоритмах поиска выбросов Большое число практических задач, например, поиск мошеннических операций, выявление брака или аномалий, обнаружение вирусных атак на основе нетипичной активности сводятся к задачам определения выбросов в данных. Для определения выбросов обычно используют стандартные методы, например, метод ближайших соседей (KNN) или метод локального уровня выбросов (LOF). Применение ансамблей позволяет улучшить точность работы стандартных методов. В посте рассмотрю, как это сделать. Идея ансамблей методов проста. Буду делать подвыборки из обучающей выборки и обучать на них базовые алгоритмы. Получаю набор из независимых детекторов (этот набор называется ансамбль), которые выдают оценки для каждой точки данных. Комбинируя оценки выбросов от базовых алгоритмов, обученных на различных подвыборках, получаю более точное предсказание выбросов. Источник @data_analysis_ml

50 256

Спешите присоединиться к бесплатному онлайн-интенсиву по Python-разработке 8–10 августа в 19:00 по московскому времени! Познакомитесь с востребованным языком программирования. Узнаете, как работают «умные» чат-боты и виртуальные ассистенты ⚙️ Подробная программа: ▶️ https://clc.to/PL1uPw. ✔️ Освоите основы программирования на Python. ✔️ Узнаете, что такое NLU и как компьютер понимает естественную речь. ✔️ Разберёте архитектуру «умных» чат-ботов. ✔️ Создадите чат-бота, научите его говорить и подключите к Telegram. 👉 Спикер интенсива — Михаил Овчинников, главный методист технического направления Skillbox. Разрабатывает ПО последние 17 лет. Докладчик крупнейших IT-конференций России. Специалист в области разработки высоконагруженных систем, обработки больших данных и машинного обучения. 🎁 Всем участникам подарим электронную книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. Подключайтесь к прямым эфирам и используйте возможность получить сертификат на 10 000 рублей на любой курс Skillbox.

50 256

🎑 Визуализация в Python: matplotlib Про возможность отрисовки графиков в Python знают многие, но что с настройкой графиков? Представим, вам хотелось бы сделать стандартный график в Python более информативным — развернуть его, добавить/убрать легенду, оси — или более привлекательным на вид – «поиграть» с цветом или шрифтом. Расскажу о библиотеке matplotlib, которая позволяет строить графики любых, даже самых сложных форм, а впоследствии настраивать их так, чтобы добиться максимальной читаемости и информативности. ➡️ Читать ✅ Шпаргалка по Matplotlib @data_analysis_ml

50 256

🔥 9 бесплатных курсов Гарварда для изучения науки о данных в 2022 году Читать @data_analysis_ml

50 256

С 2020 по 2021 год прирост по количеству вакансий направления Data Science составил 120%! Больше всего вакансий на позиции Middle и Senior. Чтобы выйти из ситуации нехватки кадров и обеспечить себе команды профессионалов, крупные компании открывают свои школы и сотрудничают с университетами. Таким образом, предпочтение уходит талантам, которые уже адаптированы под бизнес-задачи компаний. Так, в Университете ИТМО на базе проекта AI Talent Hub была запущена онлайн-магистратура «Инженерия машинного обучения» с участием менторов из МТС Digital, Huawei Noah's Ark, «Татнефть» и других компаний. Руководители RnD команд «присматривают» к себе лучших, а студенты растут до Middle уровня и учатся на реальных задачах. На программе 90 бюджетных мест! До 6 августа есть возможность оставить заявку на сайте проекта!

50 256

🚀 Эффективный сбор данных с DASK. Чем больше у нас данных, тем больше возможностей извлечь из них полезную в работе информацию. Однако сбор данных - это только часть задачи, первый этап. Необходимо решить и где их хранить, и как обработать. Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием. По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени. Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask. ➡️ Читать 🎯Шпаргалка по Dask @data_analysis_ml

50 256

📏 Как измерить опоссумов линейной регрессией А что если использовать свои навыки регрессии, чтобы предсказать длину головы опоссума по остальным метриками его тела? Для тех, кто подзабыл: линейная регрессия— это регрессионная модель, которая позволяет описать зависимость одной переменной от одной или нескольких других переменных с линейной функцией зависимости. В открытом доступе есть датасет про опоссумов. Для расчёта нужно взять csv-файл, который содержит информацию из девяти метрик каждого из 104 горных кистехвостых опоссумов, отловленных в семи местах от Южной Виктории до центрального Квинсленда. ➡️ Читать 🎯Датасет 🔗Код @data_analysis_ml

50 256

Обнаружение фейковых новостей по их заголовкам Идея данного проекта состоит в том, чтобы создать модель машинного обучения, которая могла бы определять, являются ли заголовки новостей, представленные в интернете, правдой или нет. Для обучения модели в данной статье будем использовать данные из файла train.tsv, который содержит новостные заголовки взятые с https://panorama.pub и https://lenta.ru. В файле находится таблица, состоящая из двух колонок. В колонке title записаны заголовки новостей. В колонке is_fake содержатся метки: 0 – новость реальная, 1 – новость выдуманная. Читать дальше @data_analysis_ml

50 256

🚀 @machinelearning_interview - в Канале собраны все возможные вопросы и ответы с собеседований по Аналитике данных и Машинному обучению. Для всех уровней разработчиков от авторов популярного канала Machine learning. Материалы канала реально помогут подготовиться к data science собеседованию. 👉Перейти

50 256

🎯 Снижаем размерность. Факторный анализ и метод главных компонент Задача была такая: набор признаков должен обеспечить максимальную информативность. Это значит, что отбираются признаки, способные объяснить наибольшую долю дисперсии исходного набора. Факторный анализ – многомерный метод, который применяется для изучения связей между переменными, когда существует предположение об избыточности исходных данных. Вращение Varimax в ходе факторного анализа способствует нахождению наилучшего подпространства признаков. Метод главных компонент – метод статистического анализа, позволяющих снизить размерность пространства признаков и потерять при этом минимальное количество информации. Достигается это за счёт построения подпространства признаков меньшей размерности таким образом, чтобы дисперсия, распределённая по получаемым осям, была максимальна. Первым этапом будет генерация исходных данных: DataFrame, большее количество столбцов которого будут заполнены случайными числами с заданной амплитудой, и лишь некоторые признаки (назову их существенными), которые будут выступать переменными, используемыми в модели. Я рассмотрю представленные выше методы на примере снижения размерности полученного набора данных. Читать дальше @data_analysis_ml

50 256

#01TheNotSoToughML | Что означает “подогнать линию” Что такое подгонка линии? Когда мы начинаем изучать любой курс по МО, первое, с чем мы сталкиваемся, — это проведение линии вблизи точек. В связи с этим вы часто можете встретить термин “линейная регрессия”. Примечание. Хотя в этой статье пойдет речь в основном об интуитивных решениях, лежащих в основе линейной регрессии, мы также будем использовать уравнения. Кстати, мы будем создавать эти уравнения самостоятельно! Читать дальше @data_analysis_ml

50 256

СТС совместно с участниками курсов Skillbox по направлению Data Scientist PRO разрабатывают эпизод сериала «Сидоровы», полностью написанный нейросетью. Для обучения искусственного интеллекта использовали данные 7 телешоу, чтобы генерировать новые варианты развития событий без штампов. Интересно, как код превращается в полноценный сценарий? Попробуйте себя в роли Data Scientist — специалиста по машинному обучению — на бесплатном практическом интенсиве. Записывайтесь прямо сейчас: 👉 https://clc.to/0LSC0A Специалисты по Data Science не боятся искусственного интеллекта. Они его создают! Разрабатывают голосовых помощников наподобие Яндекс.Алисы и обучают нейросети, которые «расшифровывают» древние тексты не хуже Лары Крофт. Используйте возможность за 3 дня получить представление о профессии Data Scientist и выполните практическое задание. Вы создадите свою первую модель машинного обучения. Познакомитесь с языком Python, библиотеками Pandas и Matplotlib. Регистрируйтесь и получите чек-лист по Data Science с полезными ресурсами и советами, где найти первые заказы для портфолио. 🏆 Всем участникам, дошедшим до финала интенсива, отправим в подарок электронную книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. Подключайтесь к прямым эфирам с 4 по 6 августа в 21:00 по московскому времени и получите сертификат на 10 000 рублей на любой курс Skillbox.

50 256

Как собрать платформу обработки данных «своими руками»? Один заказчик, который заинтересовался нашими компетенциям в построении инфраструктур, предложил крупный интеграционный проект. Архитекторы клиента придумали сложную и большую платформу, которая включала в себя машинное обучение, обработку данных и управлялась с помощью Kubernetes. Нам поставили задачу реализовать проект платформы, настроить связность элементов, построить и запустить инфраструктуру в эксплуатацию. В итоге всё прошло хорошо и заказчик доволен. А у нас возникла идея скомпоновать свою платформу — такую, чтобы она была доступной не только большому бизнесу, но и компаниям среднего и малого масштаба. То есть сделать так, чтобы можно было получать большие возможности и не платить при этом огромные деньги. Читать дальше @data_analysis_ml

50 256

Vacancies for Data Scientists are already in the channel! Subscribe not to miss new ones.

50 256

Топ-5 браузерных расширений для специалистов по анализу данных Сейчас исследователи данных в основном работают в браузере с помощью Jupyter Notebook или другого подобного браузерного блокнота. Некоторые задачи можно выполнять вне браузера, но затем дата-сайентист опять возвращается в браузерный блокнот. Учитывая такую специфику работы специалистов по данным, эти 5 браузерных расширений точно пригодятся любому дата-сайентисту. Читать дальше @data_analysis_ml