Анализ данных (Data analysis)
前往频道在 Telegram
Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp
显示更多📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览
频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 50 255 名订阅者,在 技术与应用 类别中位列第 2 658,并在 俄罗斯 地区排名第 12 450 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 50 255 名订阅者。
根据 26 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 46,过去 24 小时变化为 6,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 9.29%。内容发布后 24 小时内通常能获得 6.48% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 4 671 次浏览,首日通常累积 3 258 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 29。
- 主题关注点: 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“Data science, наука о данных.
@haarrp - админ
РКН: clck.ru/3FmyAp”
凭借高频更新(最新数据采集于 27 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
50 255
订阅者
+624 小时
+327 天
+4630 天
帖子存档
Как использовать Регулярные выражения в Pandas для работы со строками
Регулярное выражение – это самый мощный метод очистки и извлечения данных. Если вы когда-либо работали с большим текстовым набором данных, вы бы знали, насколько много это отнимает времени и энергии.
Я часто использую регулярные выражения для очистки телефонных номеров и электронных писем, а также для стандартизации адресов. Но существуют и более сложные случаи, когда приходится обращаться к ним.
▪ Читать
@data_analysis_ml
Что дают аналитику навыки машинного обучения?
Представьте двух аналитиков: один анализирует данные продукта и визуализирует результаты; второй делает то же самое, но потом ещё и исследует неоднозначные события, глубже погружаясь в продукт, и прогнозирует будущие показатели.
Кто приносит бизнесу больше пользы?
Однозначно, второй. Он решает больше задач компании. Знание машинного обучения поможет вам стать более востребованным специалистом.
Освоить всё необходимое для работы можно на курсе Start ML.
Вы будете учиться под руководством опытных специалистов из Райффайзен и Яндекс. За 7 месяцев вы прокачаетесь в написании кода на Python, научитесь обучать классические модели и нейронные сети, а также оценивать их влияние на бизнес с помощью статистики и A/B-тестов — всё на реальных задачах бизнеса.
Записывайтесь на курс по ссылке до 10 марта. А по промокоду ANALYSISML18 вы получите скидку 10% на полную оплата. Ждем вас!
🛠 7 инструментов Python, которые должен иметь каждый разработчик машинного обучения и Data Science специалист.
В этой статье будут представлены 7 полезных инструментов Python, которые должны изучить все программисты в 2023 году, чтобы ускорить процесс написания кода и упростить трудоёмкие задачи анализа данных.
Вы увидите инструменты, начиная от сред разработки (IDE), таких как PyCharm, и заканчивая инструментами тестирования браузера, такими как Selenium.
▪Читать
@data_analysis_ml
🧬 Примите участие в международной конференции Data Fusion 2023 от ВТБ, которая пройдёт 13-14 апреля.
Конференция будет полезна разработчикам и специалистам в области Data Science, CDO, бизнес-заказчикам DS-продуктов и сервисов, представителям государства и науки.
Первый день конференции будет посвящен аспектам управления данными, практикам перехода на доверенные технологии, доступности дата-сетов для ИИ и другим темам, актуальным для CDO и руководителей бизнес-подразделений.
Программа 14 апреля адресована data science специалистам и исследователям. Темы докладов и сессий распределены по трем стримам: «ML+», «AI Classic», «ML Environment».
На конференции представят новейшие технологии и инструменты, а также будут проведены практические сессии и выступления ведущих предприятий. Не пропустите возможность улучшить свои навыки и расширить свои знания в области Data Science.
Участие в конференции бесплатное. Успейте зарегистрироваться по ссылке: https://cnrlink.com/datafusion2
🔎 Как найти информативные фичи при работе с данными
Отбор признаков – удаление не информативных признаков из общего набора признаков. Вследствие чего достигается уменьшение времени обучения моделей, повышение точности, а также уменьшение вероятности переобучения.
Выделение признаков – генерация новых признаков на основе имеющихся. Новые признаки полностью описывают исходный набор данных и при этом уменьшают его размерность.
В этой статье я подробно расскажу о задаче отбора признаков. Существует множество методов для решения данной задачи.
▪Читать
@data_analysis_ml
Введение в развёртывание ML: Flask, Docker и Locust
Вы потратили много времени на EDA, тщательно проработали все функции, несколько дней настраивали модель и, наконец, получили то, что хорошо работает в тестовом варианте. Теперь, мой друг, вам нужно развернуть вашу модель. В конце концов, любая модель, которая остаётся на локальном компьютере, ничего из себя не представляет, независимо от того, насколько она хороша.
Изучение этой части рабочего процесса Data Science может показаться непосильным, особенно если у вас нет большого опыта разработки программного обеспечения. Не бойтесь, основная цель этой статьи — познакомить вас с одним из самых популярных фреймворков для развёртывания на Python – Flask. Кроме того, вы узнаете, как контейнеризировать развёртывание и измерить его производительность – два аспекта, которые часто упускаются из виду.
▪Читать
▪Код
@data_analysis_ml
Раскройте потенциал Python Numpy: руководство для начинающих в науке о данных
Смотреть
@data_analysis_ml
Завершился финал по профилю «Искусственный интеллект» Национальной технологической олимпиады
Ранее мы писали, что финал стартовал 27 февраля и продлится он вплоть до 3 марта. Школьники работали над задачей от Sber AI в командном туре, а в индивидуальном — показывали свои знания математики и информатики. По итогам финала были определены:
🏅 5 команд-победителей — они получат денежные сертификаты на образование. Напомним, призовой фонд конкурса — более 4 млн рублей.
🏅8 победителей и 17 призеров индивидуального тура — они получат преференции при поступлении в топ-вузы нашей страны, а также приглашения на прохождение оплачиваемой стажировки в Сбере и командах-партнерах. Направление стажировки — «Машинное обучение».
«Вы уже все, уважаемые конкурсанты, победители. Смело идите вперед, покоряйте свои вершины. Новых вам успехов и больших побед», — поздравила конкурсантов ректор Национального исследовательского технологического института «МИСиС» Алевтина Черникова.
🌐 Пошаговое руководство по NLP: конструирование признаков текстовых данных
Конструирование признаков (feature engineering) — процесс выбора и создания наиболее релевантных и полезных признаков для ввода в модель машинного обучения. Это важнейший шаг в ходе МО, который может существенно повлиять на производительность, сложность и способность модели обобщать новые данные. Тщательно выбирая и конструируя признаки, используемые в качестве входных данных, можно повысить точность и эффективность модели и избежать ее чрезмерного обучения.
Одним из основных текстовых источников является Twitter. Соцсеть содержит множество информации, которую можно использовать для создания моделей МО, помогающих решать различные задачи, такие как анализ настроений, тематическая классификация и многие другие.
Чтобы обучить модель МО на данных твитов, сначала нужно извлечь из них признаки. Рассмотрим различные типы признаков, которые можно извлечь из твитов, и способы их получения в Python.
▪Читать
@data_analysis_ml
Получите надежную базу для быстрого старта в сфере data science: обучим в онлайн-формате за 2 месяца полностью бесплатно.
📚 Официальный образовательный партнер Томского государственного университета
💰 Преподаватели-практики с выдающимся профессиональным опытом в своей области
🙌 Увлеченное коммьюнити и новые полезные контакты
🎓 Диплом о профессиональной переподготовке установленного образца
💻 Удобная обучающая платформа
🙍♀️ Поддержка тьютора в зачислении и обучении
Кто может участвовать?
— Студенты старшего курса и выпускники
— Женщины в декрете и мамы детей до 7 лет
— Безработные и лица под риском увольнения
и другие категории граждан. Подробные условия — на нашем сайте.
Ближайший поток стартует уже в марте!
🚀 Подайте заявку прямо сейчас:
https://clck.ru/33fqHw
🔎 13 Инструкций SQL для решения 90% ваших задач по обработке данных
Независимо от того, являетесь ли вы новичком в SQL или имеете некоторый опыт работы с ним, эта статья предоставит вам ценную информацию для подготовки к интервью и практические советы по работе с данными .
▪ Статья
@data_analysis_ml
ИИшница уже завтра! 🍳
Институт AIRI проводит ИИшницы – митапы для исследователей, ML-инженеров и DSов.
Расписание митапа уже в канале AIRI. Подписывайтесь, чтобы не пропускать новые события.
На ИИшницах разбирают статьи с конференций уровня NeurIPS вместе с авторами, обсуждают применение технологий ИИ и отвечают на вопросы слушателей 👾
🖥 Подбор гиперпараметров модели машинного обучения в PySpark
Сегодня я расскажу, как с помощью библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark.
Apache Spark реализован на языке программирования Scala, который выполняется на JVM (Java Virtual Machine). Чтобы получить функциональность Spark в Python, используется PySpark. Поэтому те, кто не знаком со Scala, но знаком с Python, могут запросто использовать возможности фрейвморка Apache Spark.
• Читать
@data_analysis_ml
Реши Data Science-задачу и получи 200 тысяч рублей
Участвуй в хакатоне Marking Hack — вместе с командой собери за 40 часов работающий MVP на основе реальных данных из системы цифровой маркировки товаров «Честный знак».
• 24–26 марта
• Онлайн
• Призовой фонд — 900 тысяч рублей
• Команда 3–5 человек
• Две задачи для решения на выбор
Регистрируйся по ссылке до 14 марта.
Организатор: «Честный знак» и ЦРПТ
📄 Методы обработки текста для NLP задач: лемматизация, стемминг
Лемматизация - приведение слова в его начальную форму в зависимости от конекста. Например: для слов "решал", "решала", "решаемые" начальная форма будет - "решать". Чтобы ваша модель классификации не считала эти слова разными - используем лемматизацию, чем повысим производительность и точность
Стемминг - удаление окончаний слов. Например: для слов "красивый", "красивое", "красивые" результатом будет - "красив". Используется для тех же целей, что и лемматизация
Код для использования и подробное описание подходов тут - статья ( от себя - рекомендую использовать spaCy )
Разберём методы исключения стоп-слов из ваших текстов после 50 🔥 под этим постом!
@data_analysis_ml
27 февраля стартовал финал совместного профиля «Искусственный интеллект» НТО и Академии искусственного интеллекта для школьников БФ Сбербанка «Вклад в будущее»
📌 3 дня продлится командная работа над финальной задачей.
Sber AI подготовил задание по разработке алгоритма, который анализирует видео и отвечает на вопросы по его содержанию. Такое решение позволит ускорить анализ видеоинформации, а также проводить эффективный поиск по видеопоследовательностям.
📌Подробности по ссылке: https://www.ng.ru/news/760842.html
По итогам командам-победителям вручат приглашения на оплачиваемую стажировку в Сбер и компании-партнеры по направлению «Машинное обучение». Призовой фонд превышает 4 млн рублей
📝 Предобработка текста для обучения модели классификации
Перед обучением модели классификации необходимо провести предварительную обработку текста, используя следующие методы:
▪Лемматизация / стемминг
▪Приведение слов в нижний регистр
▪Исключение стоп-слов из текста
▪Удаление пунктуации, союзов, предлогов, частиц
▪Очистка текстов от часто встречающихся слов
▪Токенизация
Порядок шагов обязателен. Поясню: если вы предварительно не привели слова в нижний регистр, то "Документ" и "документ" будут в вашем словаре разными токенами. То же самое и для других шагов
Хотите подробный разбор каждого из методов обработки текста? Тогда ставьте свои - 🔥 и уже совсем скоро подробно разберём каждый пункт
▪ Классификация текста с использованием моделей трансформеров
@data_analysis_ml
Хотите опыт и знания, которые помогут вам вырасти профессионально, и ускорить обработку данных в ваших рабочих проектах?
Тогда пора на 4-й поток онлайн-программы Spark Advanced!
20 марта NewProLab запускает программу для дата-инженеров, имеющих практический опыт работы с Apache Spark 2 и желающих изучить внутреннюю архитектуру проекта. За 8 занятий в зуме вы узнаете, что у Spark под капотом и сможете выполнить 4 лабы:
• Разработаете Encoder JSON to Row
• Разработаете коннектор для DataFrame API с использованием Datasource API
• Добавите поддержку Predicate Pushdown в коннектор
• Добавите поддержку Structured Streaming API в коннектор
Преподаватели NewProLab – эксперты-практики из ведущих компаний России и мира, обучат работать с инструментами и технологиями через решение типичных задач с реальными дата-сетами. Полученные в ходе обучения знания возможно сразу внедрять в рабочие проекты!
Бонус: Получите скидку 23% при покупке программы по промокоду birthday23.
Подробности по ссылке!Гайд по работе с изображениями Python Pillow для Датасаентиста
В этом уроке вы узнаете, как:
▪Читать изображения с помощью Pillow
▪Выполнять основные операции с изображениями
▪Использовать Pilow для обработки изображений
▪Используйте NumPy с Pillow для дальнейшей обработки
▪Создавать анимации с помощью Pillow
В этом руководстве представлен обзор возможностей библиотеки Python Pillow с помощью распространенных методов. Как только вы освоитесь в использовании этих методов, вы сможете использовать документацию Pillow для изучения остальных методов в библиотеке.
Если вы никогда раньше не работали с изображениями в Python, это отличная возможность сразу приступить!
▪ Читать
@data_analysis_ml
Зачем индустрии IT необходимы архитекторы и как стать экспертом в этом направлении? Узнаешь на ближайшей лекции Digital Лектория Газпромбанка.
Владимир Григорьев, Архитектор стрима «Розничный Миддл» в Газпромбанке, расскажет о:
— истории и причинах появления специальности ИТ-архитектора
— разных видах ИТ-архитекторов и требованиях к специалистам
— специализации и работе ИТ-архитекторов
— роли ИТ-архитектора в Газпромбанке.
Регистрируйся и присоединяйся к лекции «Карьера IT-архитектора: что нужно знать новичкам о профессии» — https://www.gpbspace.ru/digital-lectory-hall-form/
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
