Анализ данных (Data analysis)

Відкрити в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Сітка:Machinelearning Росія12 428 Технології та додатки2 659...

📈 Аналітичний огляд Telegram-каналу Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 50 263 підписників, посідаючи 2 659 місце в категорії Технології та додатки та 12 428 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 50 263 підписників.

За останніми даними від 28 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 42, а за останні 24 години на 3, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 10.26%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.15% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 5 157 переглядів. Протягом першої доби публікація в середньому набирає 3 091 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 29.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, контекст, openai, архитектура, deepseek.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Завдяки високій частоті оновлень (останні дані отримано 29 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

50 263

Підписники

+324 години

+87 днів

+4230 день

5 157

Перегляди допису

~ 3 09124 години

~ 3 47148 годин

10.26%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

50 260

💻 Моделирование данных в мире современного стека данных 2.0 Представьте, что вам нужно проанализировать данные об элементах, которые клиенты видят в списке веб-приложения. Это могут быть результаты поиска, товары для продажи, наиболее релевантные сообщения в ленте новостей и список новых звонков в службу поддержки клиентов — для аналитиков они все одинаковы. Такие данные могут быть использованы аналитиками для оценки CTR (показателя кликабельности) при разработке тех или иных рекомендательных алгоритмов, позволяющих определить наблюдаемость различных позиций в списке (например, 1-я по сравнению с 10-й). ➡️ Читать дальше ➡️ Моделирование данных: зачем нужно и как реализовать @data_analysis_ml

50 260

🪄 Магия таблиц стилей Matplotlib. Продвинутая Визуализации данных. Визуализация данных — важная компетенция любого специалиста по данным. К сожалению, создание готовых к публикации визуализаций данных занимает очень много времени и хорошего вкуса. В мире Python + Matplotlib специалисты по данным зачастую строят графики низкого качества, которые, мягко говоря, не вдохновляют. К счастью, замечательная библиотека Matplotlib может улучшить качество ваших графиков с помощью всего лишь нескольких строк кода. В Matplotlib есть много таблиц стилей по умолчанию, которые вы можете найти здесь, но куда интереснее создать свой стиль. Я решил показать вам, как создать свою собственную таблицу стилей, которая может улучшить уровень ваших визуализаций. Вы можете использовать таблицу стилей, которую я сгенерировал, или изменить ее по своему вкусу. Давайте начнем. ➡️ Читать дальше ↪️ Код @data_analysis_ml

50 260

Big Data Science [RU] — канал для профессионалов и любителей Data Science. 🔥Лови свежие новости современной науки о данных и интерактивные тесты каждые 2 дня. 🏂Узнавай первым о полезных библиотеках, фреймворках, подходах и других лайфхаках, которые помогут анализировать данные еще быстрее и качественнее. 👀Смотри ежемесячный дайджест конференций, митапов, хакатонов и других интересных DS-событий. Актуальный, релевантный и практичный контент. Без лишней рекламы и инфоцыганства. Подписывайтесь по ссылке.

50 260

🚀 Data-Science-процессы: Jupyter Notebook для продакшена Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний. ➡️ Читать дальше ↪️ Код @data_analysis_ml

50 260

Курс «Английский для IT-профессий» от Яндекс Практикума Для тех, кто хочет изменить свою профессиональную жизнь и работать в международной команде. Обучение построено не вокруг абстрактной теории, а вокруг рабочих ситуаций и полезных для карьеры навыков: ✋Стендапы. Подготовитесь обсуждать задачи, задавать вопросы и просить о помощи. 👨‍💻 Работа с заказчиками. Научитесь презентовать решения, говорить про баги и фичи. 📣 Митапы. Сможете понимать на слух доклады и выступать сами. 😎 Собеседования. Научитесь рассказывать про свой опыт, понимать вопросы и тактично переспрашивать. 👯 Неформальное общение с коллегами. Сможете рассказать о своих интересах, опыте, планах на будущее. 💻 Код-ревью. Сможете описать сделанное, дать обратную связь, тактично отстоять своё мнение. Запишитесь на бесплатную консультацию. Определим ваш уровень языка, расскажем про обучение и ответим на все вопросы

50 260

✅ Качественно новый уровень визуализации данных в Python Нам сложно отказываться от дел, на которые мы уже потратили много времени. Поэтому мы остаёмся на нелюбимой работе, вкладываемся в проекты, которые точно не «взлетят». А ещё продолжаем пользоваться утомительной библиотекой matplotlib для построения графиков, когда есть более эффективные и привлекательные альтернативы. За последние несколько месяцев я осознал, что единственная причина, по которой я пользуюсь matplotlib, заключается в том, что я потратил сотни часов на изучение её запутанного синтаксиса. Из-за неё я жил на StackOverflow, пытаясь найти ответ на тот или иной вопрос. К счастью, для создания графиков на Python настали светлые времена, и после изучения доступных вариантов я выбрал явного победителя (с точки зрения простоты использования, документации и функциональности) в лице библиотеки plotly. В этой статье мы с ней познакомимся и научимся делать более качественные графики за меньшее время — зачастую с помощью одной строки кода. Весь код для этой статьи доступен на GitHub. Все графики интерактивны, а посмотреть их можно на NBViewer. ➡️ Читать дальше ↪️ Код @data_analysis_ml

50 260

Количество кибератак во 2-м квартале 2022 выросло в России на 31% С увеличением числа киберугроз увеличился и спрос на специалистов по информационной безопасности. Именно они отражают хакерские атаки, просчитывают риски утечки информации и участвуют в создании и поддержке систем защиты данных. Начать карьеру в этой сфере и стать востребованным специалистом поможет совместная онлайн-магистратура ВШЭ и Нетологии. 18 августа в 19:00 на дне открытых дверей «Кибербезопасность: какие специалисты нужны и как войти в профессию» эксперты программы расскажут: ▪️ какие знания и навыки помогают специалистам решать задачи по информационной безопасности; ▪️ как уже на старте карьеры повысить свою профессиональную ценность на рынке; ▪️ что ждёт вас в магистратуре: формат обучения, дисциплины, виды практических заданий, стажировки; ▪️ из каких этапов состоит поступление: необходимые документы, вступительные испытания, варианты оплаты. Присоединяйтесь - https://netolo.gy/i6l

50 260

⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др. ➡️ Читать дальше ↪️ Github @machinelearning_ru

50 260

Хотите стать аналитиком данных и получить заветный оффер? Наберитесь опыта, решая реальные рабочие задачи. Всего за 5 недель вы научитесь: ▪️Разрабатывать интерактивные дашборды ▪️Автоматизировать поиск аномалий в данных ▪️Строить ETL-пайплайны ▪️Анализировать продуктовые метрики ▪️Планировать и запускать A/B-тесты Пройдя симулятор вы сможете уверенно справляться с ежедневными задачами аналитика и поймёте, какая логика стоит за каждым решением. Наставники курса: ▪️Анатолий Карпов (работал ведущим аналитиком VK и JetBrains) ▪️Мария Сомова (senior аналитик Sumsub) ▪️Ян Пиле (руководитель группы аналитики поиска VK) Они точно знают, как эффективно решать рабочие задачи, и готовы поделиться опытом с вами. Важно: симулятор подойдёт тем, кто хотя бы на базовом уровне знает Python, SQL, Git и статистику. Переходите по ссылке и записывайтесь до 19 августа.

50 260

🌓 Как разделять набор данных Как оптимально разделить набор данных на обучающую, валидационную и тестовую выборки? У каждого подмножества данных есть цель, от создания модели до обеспечения её производительности: Обучающий набор: это подмножество данных, которые я буду использовать для обучения модели. Валидационная выборка: используется для контроля процесса обучения. Она поможет предотвратить переобучение и обеспечит более точную настройку входных параметров. Тестовый набор: подмножество данных для оценки производительности модели. @data_analysis_ml

50 260

📊 «Представление информации»: базовые правила визуализации данных Рассказываем о самых важных принципах дизайнерской работы с инфографикой. Работа с данными требует точности и педантичности. Даже из-за неправильного выбора цвета или ошибочной сортировки вся инфографика может испортиться, а читатель уйдёт с неправильными выводами. В книге «Представление информации» Тафти на реальных примерах разбирает ошибки в визуализации данных и формулирует принципы, которые помогут вам сделать инфографику понятной. Издательство — Graphics Press. Эдвард Тафти — американский статистик и член Американской статистической ассоциации. Благодаря своим книгам и публикациям о представлении информации считается одним из основоположников информационного дизайна. В своих книгах он рассказывает об удачных инфографиках и аргументированно критикует плохие. Рассказываем о принципах из книги «Представление информации»: почему данные не нуждаются в декорациях, как использовать информационные слои и как количество информации может влиять на эмоции человека. ➡️ Читать дальше 📓 Handbook of Data Visualization @data_analysis_ml

50 260

📃 Классификация текста с использованием моделей трансформеров Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста. Для работы с текстом существует большое количество решений. Самая простая и популярная связка – TF-IDF + линейная модель. Данный подход позволяет обрабатывать и решать языковые задачи без особых затрат вычислительных ресурсов. Однако процесс использования такой связки требует дополнительных операций: чистка, лемматизация. В случае с BERT можно (даже нужно) опустить препроцессинг и сразу перейти к токенизации и обучению. Помимо дополнительных шагов, линейные модели часто выдают некорректные результат, так как не учитывают контекст слов. Понимание контекста является главным преимуществом трансформеров. На входе имеются обращения пользователей на различные темы. Необходимо обучить модель находить обращения с жалобой на сотрудника или другими словами – бинарная классификация ➡️ Читать дальше @data_analysis_ml

50 260

Многих молодых аналитиков, и не только их, работа с исследованиями уводит в темные дебри поиска проблем, планирования, итераций, выводов, а про презентацию результатов и вовсе забывают. Самое досадное случается, когда все потраченные усилия уходят «в стол». И это далеко не редкость для бизнеса. В последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий.

50 260

📋 Собеседование в области науки о данных: 7 распространенных ошибок Наука о данных — одна из самых быстрорастущих областей в технологической индустрии. Если вы постоянно получаете отказы после собеседований, постарайтесь выявить свои “слабые места” и поработать над ними. Данная статья вам в этом поможет. Материал написан на основе собеседований с более чем 70 кандидатами на различные должности в области науки о данных и МО. ➡️ Читать дальше @data_analysis_ml

50 260

Попробуйте себя в практической разработке — создайте собственный продукт на Python! Участвуйте в онлайн-интенсиве по программированию с 15 по 17 августа в 21:00 по московскому времени и попробуйте себя в сфере IT! Успейте записаться бесплатно: 🔜 https://clc.to/GcRF4Q Зарплата специалистов Python с опытом работы 1–3 года, по данным HeadHunter, достигает 250 000 рублей. За 3 дня вы научитесь: — понимать основы сетевого ПО; — разбираться в различных типах данных, структурах, функциях и ООП; — программировать клиентскую часть для подключения и передачи сообщений; — разрабатывать сервер для прослушивания подключений; — работать с библиотеками PyQT, Kivy, wxWidgets, Тkinter; — создавать форму через Qt Designer. Спикер интенсива — специалист, который 17 лет работает в области разработки высоконагруженных систем, обработки больших данных и машинного обучения, Михаил Овчинников. 🎁 Всем, кто зарегистрируется, отправим статью с полезными скриптами на Python «Экспекто Питонум: 10 заклинаний на змеином языке». А тем, кто дойдёт до конца интенсива, — электронную книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. ⭐️ Подключайтесь, задавайте вопросы и получите сертификат на 10 000 рублей на любой курс Skillbox.

50 260

💪 Colossal-AI инструмент, который упрощает инженерные задачи обучения нейронных сетей для исследователей данных Архитектура Transformer улучшила производительность моделей глубокого обучения в таких областях, как компьютерное зрение и обработка естественного языка. Вместе с лучшей производительностью приходят и большие размеры моделей. Это создает проблемы производительности аппаратного обеспечения. Не разумно тренировать большие модели, такие как Vision Transformer, BERT, GPT, на одном графическом процессоре или одной машине. Существует острая потребность в обучении моделей в распределенной среде. Однако распределенное обучение, особенно параллелизм моделей, часто требует знаний в области компьютерных систем и архитектуры. Для исследователей ИИ остается сложной задачей внедрение сложных распределенных обучающих решений для своих моделей. В этой статье рассмотрим систему Colossal-AI, которая представляет собой единую параллельную обучающую систему, предназначенную для плавной интеграции различных парадигм методов распараллеливания. Она позволяет исследователям данных сосредоточиться на разработке архитектуры модели и отделяет проблемы распределенного обучения от процесса разработки. ➡️ Читать дальше ⚙️ Github @data_analysis_ml

50 260

На картинке 12 терминов. Сколько из них вы можете объяснить? Если больше 10 - то вы молодец ✔️ Если меньше - то есть риск не вписаться в новую реальность ❌ Всё поправимо. Достаточно 2 минуты в день читать этот канал, который ведут инсайдеры из крупнейших российских компаний и ведомств, и вы быстро войдёте в курс необходимых в 2022 году знаний о цифровой трансформации. Как минимум, сможете блеснуть на собеседовании. Как максимум - сможете перезапустить бизнес. А ещё там подписчикам раздают чек-листы по цифровизации и топовые книги. Подписывайтесь по этой ссылке: https://t.me/cdo2day.

50 260

🦾 Динамика в деле: интерактивные графики в Dash. Фреймворк Dash позволяет создавать веб-приложения с визуализацией различной информации, в частности – графиков. Несомненно, такая функция фреймворка очень полезна для специалиста по анализу данных. Dash в основном использует «под капотом» Plotly.js (построение диаграмм), Flask (веб-сервер) и React (веб-интерфейс). Вам не нужно разбираться в этих технологиях, чтобы успешно применять Dash в своей работе, достаточно просто иметь базовые знания в Python и представлять, какие графики вы хотите видеть на своем дэшборде. ➡️ Читать дальше ⚙️ Полный код @data_analysis_ml

50 260

💨 Машинное обучение для поиска аномалий Выявлять нетипичное поведение или аномальные значения признаков можно разными путями. При наличие данных за прошедшие периоды, размеченные как fraud/not fraud, можно использовать модели классификаторы для выявления подозрительных операций в настоящем. Я же рассмотрю случай, когда размеченных должным образом данных нет и анализ нужно проводить с чистого листа. Данная методика была применена для анализа поставщиков программного обеспечения и компьютерной техники на предмет выявления компаний с аномальным, не характерным для подобных контрагентов поведением. ➡️ Читать дальше @data_analysis_ml