Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 259 名订阅者,在 技术与应用 类别中位列第 2 650,并在 俄罗斯 地区排名第 12 436 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 259 名订阅者。
根据 27 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 45,过去 24 小时变化为 0,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 10.21%。内容发布后 24 小时内通常能获得 6.59% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 5 131 次浏览,首日通常累积 3 311 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 30。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 28 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 259
订阅者
无数据24 小时
-27 天
+4530 天
帖子存档
🐳 Руководство по Docker для аналитика даннных.
Представьте, как вы устанавливаете программное обеспечение, требующее установку всех его зависимостей. Придется столкнуться со множеством ошибок, вручную выяснить и устранить все их причины. Каждый раз — попытки запустить всю систему заново, чтобы наконец-то правильно завершить установку… Именно в этот момент на помощь приходит Docker, пытаясь серьезно облегчить жизнь.
Содержание статьи:
1. Образы и контейнеры.
2. Запуск первой программы в Docker.
3. Основные команды контейнеров Docker.
4. Командная строка Docker-контейнера.
5. Пользовательские образы Docker.
6. Запуск веб-приложения в Docker.
7. Docker и сопоставление портов.
8. Выводы.
➡️ Читать дальше
@data_analysis_ml
Хотите работать с Python? Участвуйте в бесплатных вебинарах по Machine Learning и научитесь писать программы искусственного интеллекта.
Создайте «умного» чат-бота на онлайн-интенсиве: 👉 https://clc.to/0_Yr5A.
Что будет:
💡 познакомитесь с основами Python-разработки;
💡 поработаете с дата-сетами;
💡 создадите чат-бота и подключите его к Telegram.
А ещё будут подарки!
Ждём вас в прямом эфире 19–21 сентября в 21:00 по московскому времени. Участвуйте, задавайте вопросы и получите сертификат на 10 000 рублей на любой курс Skillbox.
Исследовательский отдел Яндекса поделился с сообществом большой нейросетью для задач обработки естественного языка
RuLeanALBERT — децентрализованно обученная модель, которая как минимум не уступает аналогам на таких бенчмарках, как Russian SuperGLUE и RuCoLA. Запустить открытый код нейросети можно даже на домашнем компьютере с достаточно мощным графическим чипом.
Это крупнейшая подобная нейросеть для русского языка. Например, с её помощью можно реализовывать классификаторы, программы для разного представления текстов и других задач, где не нужна генерация. Исследователи Yandex Research выложили код, а также чекпоинт модели, которые позволяют ей воспользоваться.
➡️ Читать дальше
⚙️ Код и чекпоинт
Участвуй в ТурбоХакатоне «Диагностика энергетического оборудования»! Это площадка по решению актуальных задач с треками по предиктивной аналитике состояния оборудования в электроэнергетике.
Два трека:
🔸Соревнование по решению задач обработки данных (реальные датасеты генерирующего оборудования электростанций ПАО «Интер РАО»);
🔹Акселератор решений по диагностике, мониторингу и контролю технического состояния энергетического оборудования.
Участие онлайн+офлайн, в командах от 1 до 5 человек.
💰Призовой фонд — 1 млн рублей.
Таймлайн:
🔸 До 30 сентября регистрация;
🔹 19 сентября - 7 октября – отбор участников для питча;
🔸 13 и 14 октября – проведение питча в Университете Иннополис;
🔹 17 октября - 17 ноября – команды решают задачи хакатона;
🔸 22 декабря – подведение итогов и объявление победителей.
Регистрация здесь
🔪 Метод SHAP для категориальных признаков
Категориальные признаки необходимо преобразовывать, прежде чем использовать их в модели. Зачастую это делается с помощью прямого кодирования — в итоге получаем бинарную переменную для каждой категории.
Проблемы не возникают до попытки понять модель с помощью метода SHAP. Каждая бинарная переменная будет иметь свое собственное значение SHAP. Это затрудняет понимание общего вклада исходного категориального признака.
Для решения этой проблемы используется простой подход — сложение значений SHAP для каждой бинарной переменной. Получаем то, что можно интерпретировать как значение SHAP для исходного категориального признака.
Поговорим о том, как это сделать с помощью кода Python. Вы увидите, что можно использовать агрегированные графические представления SHAP. Однако их возможности ограничены, когда речь идет о понимании природы взаимосвязей категориальных признаков. Поэтому в завершение будет показано, как для визуализации значений SHAP можно использовать диаграммы размаха.
➡️ Читать дальше
🗒 Набор данных
@data_analysis_ml
📄 Анализ данных для выявления признаков неструктурированном тексте с помощью pandas и json.
При анализе данных есть необходимость выявлять объекты контроля по атрибутам, размещенным в неструктурированном текстовом поле. На первый взгляд, задача может показаться легкой, если анализируемый объем незначительный, но когда объем обрабатываемой базы составляет миллионы строк, то для решения задачи необходим творческий подход.
Передо мной стояла задача по выявлению выгодоприобретателей наших клиентов и определению даты последнего обновления сведений о них. Решать ее буду с использованием библиотек Python pandas и json.
Для начала я по признакам, определяющим выгодоприобретателя, осуществил обработку текстового поля, содержащую необходимую информацию и отобрал пул организаций, подходящих под указанные признаки.
➡️ Читать дальше
@data_analysis_ml
💡 SQL для Data Science: альтернатива обмену через Google Disk и Slack
Аналитический труд всегда читается больше одного раза. Поговорим о том, как добиться удобного и надежного обмена проектами в области Data Science с повторным применением коллективных наработок спустя годы.
Специалисты в области науки о данных много времени тратят на продуктовую аналитику. Несмотря на широкий спектр доступных программных инструментов, таких как Jupyter Notebook с Python, Tidyverse, Superset и даже Java UDFs, продуктовая аналитика все равно нуждается в SQL.
Но как происходит сама работа с SQL, где записываются команды и запросы? Например, сначала — написание запроса во встроенной IDE Superset и внесение правок до момента ответа на поставленный вопрос, затем — внесение результатов в Google Doc вместе с другими документами.
А в итоге — отправка результатов через электронное письмо или сообщение в Slack и полное исчезновение в море корпоративного шума.
Содержание руководства:
- Проблематика командной работы в Data Science.
- Разбор нарушений в обмене наработками.
- Замкнутый цикл благодаря открытым записям.
➡️ Читать дальше
@data_analysis_ml
🔐 Предохранители для данных: как автоматические выключатели повышают Data Quality
Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных?
В чем суть предохранителя
Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.
Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
➡️ Читать дальше
@data_analysis_ml
КАК СТАТЬ ВОСТРЕБОВАННЫМ АНАЛИТИКОМ И ПОЛУЧАТЬ ПРЕДЛОЖЕНИЯ О РАБОТЕ ОТ КРУПНЫХ КОМПАНИЙ
📍Хотите углубить и расширить свои знания в области Аналитики?
📍И получать даже в кризис предложения по работе от ведущих компаний?
Тогда эфир закрытого Клуба Аналитиков для вас.
📆 Дата: 13 сентября (ВТ)
⏰ Время: 18:00 по мск
Регистрируйтесь прямо сейчас👇🏻
https://mtrushko.ru/mini_landing/analitica?start=dataanalysisml
На эфире вы узнаете:
✅ Какими знаниями нужно обладать Аналитику, чтобы быстро продвигаться по карьере
✅ Как зарабатывать удаленно и иметь источник дополнительного дохода с помощью знаний Аналитики
✅ Практический опыт и лайфхаки от приглашенных спикеров - топовых экспертов
И заберете 3 подарка:
🎁 Видео-урок «Принципы и правила формирования отчетности»
🎁 Топ 10 ошибок начинающих аналитиков
🎁 Список топ-литературы для Аналитика
Главный спикер эфира:
Марина Трушко,
аналитик с 13-летним опытом,
SENIOR BUSINESS ANALYST,
REGIONAL INSIGHT ANALYST
РЕГИСТРИРУЙТЕСЬ ПО ССЫЛКЕ👇🏻
https://mtrushko.ru/mini_landing/analitica?start=dataanalysisml
После регистрации скачивайте
ПОДАРОК 🎁 «Топ источников данных для Аналитика»
❗️Количество мест ограничено
🧰 Инструменты для быстрого овладения наукой о данных.
Подобное желание изъявляют тысячи выпускников вузов. Им не хватает четкого ориентира в приобретении навыков, необходимых для того, чтобы стать специалистом по обработке данных. Наука о данных — очень популярная область, которая прельщает многих высокими доходами и возможностью работать на дому. Поэтому вышеописанные ожидания вполне понятны. Однако кто-то должен помочь вчерашнему выпускнику стать специалистом по обработке данных, причем незамедлительно. Имея за плечами более десяти лет академического и отраслевого опыта, я могу предложить быстрое решение, которое поможет всем претендентам достичь своей цели.
Для начала стоит выяснить, зачем нужен специалист по обработке данных и какие требования к нему предъявляют бизнесмены-работодатели. После этого поговорим о роли науки о данных в современном мире.
➡️ Читать дальше
@data_analysis_ml
🔥 Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги.
Недавно собрал ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.
— Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением.
— Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус.
— В-третьих, начну с рекордно короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем:
➡️ Читать дальше
@data_analysis_ml
Познай новую область IT - Нагрузочное тестирование. И сразу прокачай в нем свою карьеру!
15 сентября в 18:00 (по МСК) Кирилл Борисов, начальник управления нагрузочного тестирования Газпромбанка, расскажет:
— о тестировании ПО, мифах и реалиях профессии;
— как начать карьеру в тестировании и развиваться в IT;
— о видах и направлениях тестирования;
— об особенности тестирования производительности.
Лекция пройдет в Zoom – нужна регистрация: https://vk.cc/cgohwy
🔎 Обнаружение фейковых новостей с помощью машинного обучения
Однажды летом мама угостила меня горячей содовой с лаймом. Зачем же подогревать охлаждающий напиток? Мама объяснила, что лайм, соединяясь с горячей водой, превращается из кислоты в основание. По ее словам, такой напиток может убивать раковые клетки — она узнала это из социальных сетей.
Удивительный факт! А что если это просто обман? Оказалось, что так и есть.
➡️ Читать дальше
📄 Датасет
⚙️ Код
@data_analysis_ml
9.09 @data_analysis_ml
🧠 Напишите свою первую нейронную сеть!
Встречаемся 15 сентября в 20:00 мск на открытом уроке OTUS.
💬 Вместе с Антоном Витвицким, экспертом по компьютерному зрению и глубокому обучению, рассмотрим основные этапы создания и обучения своей первой нейронной сети и попробуем решить известную задачу классификации MNIST полносвязной и сверточной нейронными сетями на примере фреймворка PyTorch.
📚 Больше практики и и интересных задач ждут вас на онлайн-курсе «Deep Learning».
Для участия необходимо знать основы Python, поэтому проходите вступительный тест и 👉 регистрируйтесь
Реклама. Информация о рекламодателе на сайте otus.ru
🐍📊 Графики в Python: 9 видов визуализации, привлекающих внимание лучше, чем гистограмма. Инструкция по визуализации данных.
Гистограмма – это двухмерный график с прямоугольными столбцами по оси X или Y. Мы используем эти столбцы для сравнения значений, принадлежащих дискретным категориям, сравнивая высоту или ширину соответствующих столбцов. Такие графики часто используются для визуализации данных, поскольку их нетрудно создать и просто понять.
Однако в некоторых ситуациях, таких, как создание инфографики или когда необходимо привлечь внимание публики к данным, гистограмма может быть недостаточно привлекательной. Иногда слишком большое количество гистограмм может сделать презентацию скучной.
Визуализация данных включает множество видов графиков. Эта статья продемонстрирует девять идей, которые можно использовать не только для разнообразия, но и для улучшения внешнего вида полученных результатов.
➡️ Читать дальше
@data_analysis_ml
"Spark Developer" - это хардкорный онлайн-курс по самым мощным инструментам обработки больших данных.
📌Справитесь ли вы с уровнем курса? Покажет вступительный тест.
Пройдите тестирование, чтобы:
● оценить свои навыки
● зарегистрироваться на бесплатные демо-занятия курса
● занять место по специальной цене
● получить доступ в закрытое сообщество дата-инженеров
👉 Пройти тест: https://otus.pw/xbe0/
Реклама. Информация о рекламодателе на сайте otus.ru
🎇 Сравнение различных способов редактирования Spark DataFrame
При работе с распределенными базами данных чаще всего используют Spark и его собственные DataFrame.
В данном посте разберём различные способы создания столбцов путем преобразования, вычислений, применения регулярных выражений и т.д. Также мы сравним длительность каждого способа и какой лучше где п
➡️ Читать дальше
📄 Основы работы со Spark DataFrame
⚙️ Spark
@data_analysis_ml
Загляните в мир разработки на Python! Пройдите бесплатный интенсив Skillbox и начните осваивать один из самых распространённых языков программирования.
Успейте записаться и получить статью «Экспекто Питонум: 10 заклинаний на змеином языке» при регистрации. В ней — полезные скрипты на Python: ▶️ https://clc.to/qSme_A
📌 Освоите азы программирования на Python и разберёте основные элементы языка.
📌 Поработаете с библиотеками PyQT, Kivy, wxWidgets, Тkinter и поймёте основы сетевого ПО.
📌 Напишете интерфейс мессенджера на Python на практических вебинарах.
Спикер интенсива — специалист, который 17 лет работает в области разработки высоконагруженных систем, обработки больших данных и машинного обучения, Михаил Овчинников.
🎁 Подключайтесь, задавайте вопросы и получите сертификат на 10 000 рублей на любой курс Skillbox.
Ждём вас в прямом эфире с 12 по 14 сентября в 21:00 по московскому времени 😉
🏙 Большое руководство по визуализации. Визуализация данных с помощью веб-фреймворка Dash.
Сам Dash это некий коллаб HTML, React.Js, Flask и CSS и предоставляет python классы для всех своих визуальных компонентов.
В качестве демонстративного датасета я возьму датасет diamonds с сайта kaggle (https://www.kaggle.com/shivam2503/diamonds)
Если описывать полностью все функции, которые предоставляет dash, уйдет довольно много времени, исходя из этого, предлагаю в качестве простого примера визуализировать более камерную задачу. Допустим, вывести гистограмму количества драгоценных камней в зависимости от нескольких факторов: качество огранки, уровень чистоты и цвет. При этом выбор нужной гистограммы происходит непосредственно в веб интерфейсе.
➡️ Читать дальше
📄 Датасет
⚙️ Код
@data_analysis_ml
15 сентября, 18:00
Selectel ML MeetUp: проблемы ML команд в 2022
Присоединяйтесь к ежегодному митапу от @Selectel, где мы поговорим об актуальных сложностях, трендах и инструментах построения production ML-систем.
Что обсудим:
◽️ Подготовку инфраструктуры для внедрения ML-инструментов.
◽️ Состояние российского рынка ML.
◽️ Новые Data/ML-продукты Selectel.
◽️ Кейсы наших партнеров и гостей митапа.
Все участники получат запись сессии и смогут принять участие в розыгрыше приза за лучший вопрос.
Регистрируйтесь на офлайн-встречу в Санкт-Петербурге: https://slc.tl/h53qb
Регистрируйтесь на онлайн-трансляцию: https://slc.tl/l0mab
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
