Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 436 Технологии и приложения2 650...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 259 подписчиков, занимая 2 650 место в категории Технологии и приложения и 12 436 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 259 подписчиков.

Согласно последним данным от 27 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 45, а за последние 24 часа — 0, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 10.21%. В первые 24 часа после публикации контент обычно набирает 6.59% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 5 131 просмотров. В течение первых суток публикация набирает 3 311 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 30.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 28 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 259

Подписчики

Нет данных24 часа

-27 дней

+4530 день

5 131

Просмотры поста

~ 3 31124 часа

~ 3 74648 часов

10.21%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 260

🐳 Руководство по Docker для аналитика даннных. Представьте, как вы устанавливаете программное обеспечение, требующее установку всех его зависимостей. Придется столкнуться со множеством ошибок, вручную выяснить и устранить все их причины. Каждый раз — попытки запустить всю систему заново, чтобы наконец-то правильно завершить установку… Именно в этот момент на помощь приходит Docker, пытаясь серьезно облегчить жизнь. Содержание статьи: 1. Образы и контейнеры. 2. Запуск первой программы в Docker. 3. Основные команды контейнеров Docker. 4. Командная строка Docker-контейнера. 5. Пользовательские образы Docker. 6. Запуск веб-приложения в Docker. 7. Docker и сопоставление портов. 8. Выводы. ➡️ Читать дальше @data_analysis_ml

50 260

Хотите работать с Python? Участвуйте в бесплатных вебинарах по Machine Learning и научитесь писать программы искусственного интеллекта. Создайте «умного» чат-бота на онлайн-интенсиве: 👉 https://clc.to/0_Yr5A. Что будет: 💡 познакомитесь с основами Python-разработки; 💡 поработаете с дата-сетами; 💡 создадите чат-бота и подключите его к Telegram. А ещё будут подарки! Ждём вас в прямом эфире 19–21 сентября в 21:00 по московскому времени. Участвуйте, задавайте вопросы и получите сертификат на 10 000 рублей на любой курс Skillbox.

50 260

Исследовательский отдел Яндекса поделился с сообществом большой нейросетью для задач обработки естественного языка RuLeanALBERT — децентрализованно обученная модель, которая как минимум не уступает аналогам на таких бенчмарках, как Russian SuperGLUE и RuCoLA. Запустить открытый код нейросети можно даже на домашнем компьютере с достаточно мощным графическим чипом. Это крупнейшая подобная нейросеть для русского языка. Например, с её помощью можно реализовывать классификаторы, программы для разного представления текстов и других задач, где не нужна генерация. Исследователи Yandex Research выложили код, а также чекпоинт модели, которые позволяют ей воспользоваться. ➡️ Читать дальше ⚙️ Код и чекпоинт

50 260

Участвуй в ТурбоХакатоне «Диагностика энергетического оборудования»! Это площадка по решению актуальных задач с треками по предиктивной аналитике состояния оборудования в электроэнергетике. Два трека: 🔸Соревнование по решению задач обработки данных (реальные датасеты генерирующего оборудования электростанций ПАО «Интер РАО»); 🔹Акселератор решений по диагностике, мониторингу и контролю технического состояния энергетического оборудования. Участие онлайн+офлайн, в командах от 1 до 5 человек. 💰Призовой фонд — 1 млн рублей. Таймлайн: 🔸 До 30 сентября регистрация; 🔹 19 сентября - 7 октября – отбор участников для питча; 🔸 13 и 14 октября – проведение питча в Университете Иннополис; 🔹 17 октября - 17 ноября – команды решают задачи хакатона; 🔸 22 декабря – подведение итогов и объявление победителей. Регистрация здесь

50 260

🔪 Метод SHAP для категориальных признаков Категориальные признаки необходимо преобразовывать, прежде чем использовать их в модели. Зачастую это делается с помощью прямого кодирования — в итоге получаем бинарную переменную для каждой категории. Проблемы не возникают до попытки понять модель с помощью метода SHAP. Каждая бинарная переменная будет иметь свое собственное значение SHAP. Это затрудняет понимание общего вклада исходного категориального признака. Для решения этой проблемы используется простой подход — сложение значений SHAP для каждой бинарной переменной. Получаем то, что можно интерпретировать как значение SHAP для исходного категориального признака. Поговорим о том, как это сделать с помощью кода Python. Вы увидите, что можно использовать агрегированные графические представления SHAP. Однако их возможности ограничены, когда речь идет о понимании природы взаимосвязей категориальных признаков. Поэтому в завершение будет показано, как для визуализации значений SHAP можно использовать диаграммы размаха. ➡️ Читать дальше 🗒 Набор данных @data_analysis_ml

50 260

📄 Анализ данных для выявления признаков неструктурированном тексте с помощью pandas и json. При анализе данных есть необходимость выявлять объекты контроля по атрибутам, размещенным в неструктурированном текстовом поле. На первый взгляд, задача может показаться легкой, если анализируемый объем незначительный, но когда объем обрабатываемой базы составляет миллионы строк, то для решения задачи необходим творческий подход. Передо мной стояла задача по выявлению выгодоприобретателей наших клиентов и определению даты последнего обновления сведений о них. Решать ее буду с использованием библиотек Python pandas и json. Для начала я по признакам, определяющим выгодоприобретателя, осуществил обработку текстового поля, содержащую необходимую информацию и отобрал пул организаций, подходящих под указанные признаки. ➡️ Читать дальше @data_analysis_ml

50 260

💡 SQL для Data Science: альтернатива обмену через Google Disk и Slack Аналитический труд всегда читается больше одного раза. Поговорим о том, как добиться удобного и надежного обмена проектами в области Data Science с повторным применением коллективных наработок спустя годы. Специалисты в области науки о данных много времени тратят на продуктовую аналитику. Несмотря на широкий спектр доступных программных инструментов, таких как Jupyter Notebook с Python, Tidyverse, Superset и даже Java UDFs, продуктовая аналитика все равно нуждается в SQL. Но как происходит сама работа с SQL, где записываются команды и запросы? Например, сначала — написание запроса во встроенной IDE Superset и внесение правок до момента ответа на поставленный вопрос, затем — внесение результатов в Google Doc вместе с другими документами. А в итоге — отправка результатов через электронное письмо или сообщение в Slack и полное исчезновение в море корпоративного шума. Содержание руководства: - Проблематика командной работы в Data Science. - Разбор нарушений в обмене наработками. - Замкнутый цикл благодаря открытым записям. ➡️ Читать дальше @data_analysis_ml

50 260

🔐 Предохранители для данных: как автоматические выключатели повышают Data Quality Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? В чем суть предохранителя Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности. Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители. ➡️ Читать дальше @data_analysis_ml

50 260

КАК СТАТЬ ВОСТРЕБОВАННЫМ АНАЛИТИКОМ И ПОЛУЧАТЬ ПРЕДЛОЖЕНИЯ О РАБОТЕ ОТ КРУПНЫХ КОМПАНИЙ 📍Хотите углубить и расширить свои знания в области Аналитики? 📍И получать даже в кризис предложения по работе от ведущих компаний? Тогда эфир закрытого Клуба Аналитиков для вас. 📆 Дата: 13 сентября (ВТ) ⏰ Время: 18:00 по мск Регистрируйтесь прямо сейчас👇🏻 https://mtrushko.ru/mini_landing/analitica?start=dataanalysisml На эфире вы узнаете: ✅ Какими знаниями нужно обладать Аналитику, чтобы быстро продвигаться по карьере ✅ Как зарабатывать удаленно и иметь источник дополнительного дохода с помощью знаний Аналитики ✅ Практический опыт и лайфхаки от приглашенных спикеров - топовых экспертов И заберете 3 подарка: 🎁 Видео-урок «Принципы и правила формирования отчетности» 🎁 Топ 10 ошибок начинающих аналитиков 🎁 Список топ-литературы для Аналитика Главный спикер эфира: Марина Трушко, аналитик с 13-летним опытом, SENIOR BUSINESS ANALYST, REGIONAL INSIGHT ANALYST РЕГИСТРИРУЙТЕСЬ ПО ССЫЛКЕ👇🏻 https://mtrushko.ru/mini_landing/analitica?start=dataanalysisml После регистрации скачивайте ПОДАРОК 🎁 «Топ источников данных для Аналитика» ❗️Количество мест ограничено

50 260

🧰 Инструменты для быстрого овладения наукой о данных. Подобное желание изъявляют тысячи выпускников вузов. Им не хватает четкого ориентира в приобретении навыков, необходимых для того, чтобы стать специалистом по обработке данных. Наука о данных — очень популярная область, которая прельщает многих высокими доходами и возможностью работать на дому. Поэтому вышеописанные ожидания вполне понятны. Однако кто-то должен помочь вчерашнему выпускнику стать специалистом по обработке данных, причем незамедлительно. Имея за плечами более десяти лет академического и отраслевого опыта, я могу предложить быстрое решение, которое поможет всем претендентам достичь своей цели. Для начала стоит выяснить, зачем нужен специалист по обработке данных и какие требования к нему предъявляют бизнесмены-работодатели. После этого поговорим о роли науки о данных в современном мире. ➡️ Читать дальше @data_analysis_ml

50 260

🔥 Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги. Недавно собрал ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги. — Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением. — Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус. — В-третьих, начну с рекордно короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем: ➡️ Читать дальше @data_analysis_ml

50 260

Познай новую область IT - Нагрузочное тестирование. И сразу прокачай в нем свою карьеру! 15 сентября в 18:00 (по МСК) Кирилл Борисов, начальник управления нагрузочного тестирования Газпромбанка, расскажет: — о тестировании ПО, мифах и реалиях профессии; — как начать карьеру в тестировании и развиваться в IT; — о видах и направлениях тестирования; — об особенности тестирования производительности. Лекция пройдет в Zoom – нужна регистрация: https://vk.cc/cgohwy

50 260

🔎 Обнаружение фейковых новостей с помощью машинного обучения Однажды летом мама угостила меня горячей содовой с лаймом. Зачем же подогревать охлаждающий напиток? Мама объяснила, что лайм, соединяясь с горячей водой, превращается из кислоты в основание. По ее словам, такой напиток может убивать раковые клетки — она узнала это из социальных сетей. Удивительный факт! А что если это просто обман? Оказалось, что так и есть. ➡️ Читать дальше 📄 Датасет ⚙️ Код @data_analysis_ml

50 260

9.09 @data_analysis_ml 🧠 Напишите свою первую нейронную сеть! Встречаемся 15 сентября в 20:00 мск на открытом уроке OTUS. 💬 Вместе с Антоном Витвицким, экспертом по компьютерному зрению и глубокому обучению, рассмотрим основные этапы создания и обучения своей первой нейронной сети и попробуем решить известную задачу классификации MNIST полносвязной и сверточной нейронными сетями на примере фреймворка PyTorch. 📚 Больше практики и и интересных задач ждут вас на онлайн-курсе «Deep Learning». Для участия необходимо знать основы Python, поэтому проходите вступительный тест и 👉 регистрируйтесь Реклама. Информация о рекламодателе на сайте otus.ru

50 260

🐍📊 Графики в Python: 9 видов визуализации, привлекающих внимание лучше, чем гистограмма. Инструкция по визуализации данных. Гистограмма – это двухмерный график с прямоугольными столбцами по оси X или Y. Мы используем эти столбцы для сравнения значений, принадлежащих дискретным категориям, сравнивая высоту или ширину соответствующих столбцов. Такие графики часто используются для визуализации данных, поскольку их нетрудно создать и просто понять. Однако в некоторых ситуациях, таких, как создание инфографики или когда необходимо привлечь внимание публики к данным, гистограмма может быть недостаточно привлекательной. Иногда слишком большое количество гистограмм может сделать презентацию скучной. Визуализация данных включает множество видов графиков. Эта статья продемонстрирует девять идей, которые можно использовать не только для разнообразия, но и для улучшения внешнего вида полученных результатов. ➡️ Читать дальше @data_analysis_ml

50 260

"Spark Developer" - это хардкорный онлайн-курс по самым мощным инструментам обработки больших данных. 📌Справитесь ли вы с уровнем курса? Покажет вступительный тест. Пройдите тестирование, чтобы: ● оценить свои навыки ● зарегистрироваться на бесплатные демо-занятия курса ● занять место по специальной цене ● получить доступ в закрытое сообщество дата-инженеров 👉 Пройти тест: https://otus.pw/xbe0/ Реклама. Информация о рекламодателе на сайте otus.ru

50 260

🎇 Сравнение различных способов редактирования Spark DataFrame При работе с распределенными базами данных чаще всего используют Spark и его собственные DataFrame. В данном посте разберём различные способы создания столбцов путем преобразования, вычислений, применения регулярных выражений и т.д. Также мы сравним длительность каждого способа и какой лучше где п ➡️ Читать дальше 📄 Основы работы со Spark DataFrame ⚙️ Spark @data_analysis_ml

50 260

Загляните в мир разработки на Python! Пройдите бесплатный интенсив Skillbox и начните осваивать один из самых распространённых языков программирования. Успейте записаться и получить статью «Экспекто Питонум: 10 заклинаний на змеином языке» при регистрации. В ней — полезные скрипты на Python: ▶️ https://clc.to/qSme_A 📌 Освоите азы программирования на Python и разберёте основные элементы языка. 📌 Поработаете с библиотеками PyQT, Kivy, wxWidgets, Тkinter и поймёте основы сетевого ПО. 📌 Напишете интерфейс мессенджера на Python на практических вебинарах. Спикер интенсива — специалист, который 17 лет работает в области разработки высоконагруженных систем, обработки больших данных и машинного обучения, Михаил Овчинников. 🎁 Подключайтесь, задавайте вопросы и получите сертификат на 10 000 рублей на любой курс Skillbox. Ждём вас в прямом эфире с 12 по 14 сентября в 21:00 по московскому времени 😉

50 260

🏙 Большое руководство по визуализации. Визуализация данных с помощью веб-фреймворка Dash. Сам Dash это некий коллаб HTML, React.Js, Flask и CSS и предоставляет python классы для всех своих визуальных компонентов. В качестве демонстративного датасета я возьму датасет diamonds с сайта kaggle (https://www.kaggle.com/shivam2503/diamonds) Если описывать полностью все функции, которые предоставляет dash, уйдет довольно много времени, исходя из этого, предлагаю в качестве простого примера визуализировать более камерную задачу. Допустим, вывести гистограмму количества драгоценных камней в зависимости от нескольких факторов: качество огранки, уровень чистоты и цвет. При этом выбор нужной гистограммы происходит непосредственно в веб интерфейсе. ➡️ Читать дальше 📄 Датасет ⚙️ Код @data_analysis_ml

50 260

15 сентября, 18:00 Selectel ML MeetUp: проблемы ML команд в 2022 Присоединяйтесь к ежегодному митапу от @Selectel, где мы поговорим об актуальных сложностях, трендах и инструментах построения production ML-систем. Что обсудим: ◽️ Подготовку инфраструктуры для внедрения ML-инструментов. ◽️ Состояние российского рынка ML. ◽️ Новые Data/ML-продукты Selectel. ◽️ Кейсы наших партнеров и гостей митапа. Все участники получат запись сессии и смогут принять участие в розыгрыше приза за лучший вопрос. Регистрируйтесь на офлайн-встречу в Санкт-Петербурге: https://slc.tl/h53qb Регистрируйтесь на онлайн-трансляцию: https://slc.tl/l0mab