Анализ данных (Data analysis)

Открыть в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Больше

Сеть:Machinelearning Россия12 450 Технологии и приложения2 658...

📈 Аналитический обзор Telegram-канала Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 50 255 подписчиков, занимая 2 658 место в категории Технологии и приложения и 12 450 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 50 255 подписчиков.

Согласно последним данным от 26 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 46, а за последние 24 часа — 6, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 9.29%. В первые 24 часа после публикации контент обычно набирает 6.48% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 4 671 просмотров. В течение первых суток публикация набирает 3 258 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 29.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как llm, контекст, openai, архитектура, deepseek.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Благодаря высокой частоте обновлений (последние данные получены 27 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

50 255

Подписчики

+624 часа

+327 дней

+4630 день

4 671

Просмотры поста

~ 3 25824 часа

~ 3 69748 часов

9.29%

Коэффициент вовлеченности

~ 5

Постов в день

Ads index

beta

Архив постов

50 257

⁉️ Готовы перейти на следующую ступень в системном анализе? Приходите на открытый урок 27 марта в 20:00 онлайн-курса «Системный аналитик. Advanced». Тема вебинара: «Какие сервисы делать на gRPC». Спикером выступит Иннокентий Бодров, ведущий аналитик продуктовой команды. ✅ На занятии мы: — Познакомимся с причинами развития подхода RPC компанией Google, основными отличиями в подходах к проектированию с классическим REST API. — Получим представление об описании сервисов gRPC и структуры контента, которым обмениваются участники взаимодействия. 💻 Урок будет полезен системным аналитикам, решающим задачи интеграций и стримминга больших объемов информации. Не упустите возможность протестировать курс, продолжить обучение можно в рассрочку. 🟢 Для участия пройдите вступительный тест https://otus.pw/bLEM/ Реклама. Информация о рекламодателе на сайте www.otus.ru

50 257

🖥 Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных При работе с постоянно растущим потоком данных, довольно часто возникает необходимость проверить, не появляются ли какие-либо аномалии, будь то фродовые мошеннические операции или произвольно возникающие ошибки из-за периодически напоминающих о себе багов внутри самой инфраструктуры или, как это часто бывает, человеческого фактора. Большинство перечисленных событий не являются статистически частыми, что вносит их в рамки редких, даже аномальных, и которые необходимо как-то фиксировать и устранять. Я хочу поделиться способом решения задач классификации, а именно поиска аномалий, при помощи неприспособленного, на первый взгляд, для этого инструмента — автоэнкодера. ▪ Читать @data_analysis_ml

50 257

📊 3 Уникальные диаграммы, созданные с помощью Matplotlib В рамках этой статьи мы кратко рассмотрим три уникальные визуализации, которые могут быть сгенерированы с помощью matplotlib (возможно, вы даже не представляли, что такое можно создать). ▪ Читать @data_analysis_ml

50 257

Если на языке не пишут, то его и не знают Разработчики-преподаватели из «Девман» понимают, как важно начинающему специалисту обучаться на реальных проектах из практики коммерческой разработки. Именно поэтому ребята создали авторскую методику обучения Python программированию «От Новичка до Мидла». Ученик на «Девмане» осваивает материалы в состоянии высокой озадаченности: строит гипотезы, ищет решения, исправляет ошибки, пытается сделать так, чтобы проект заработал. Все это похоже на то, что мы делаем на работе. Обучение стартует 27 марта. Первая неделя курса – пробная. На ней каждый может ощутить себя Python разработчиком. На пробной неделе: ▫️Новички сделают сервис, который показывает погоду в разных городах. ▫️Более опытные успеют написать и собственный сервис по сокращению ссылок. ▫️Джуны создадут своего чат бота или сделают собственный сайт с афишей мероприятий. Не упустите возможность сделать свой первый проект на Python! Для записи переходите в бота → bit.ly/3JtGLuj Реклама ООО «Девман» Pb3XmBtzsw2epy4YehAmcEGRSCHbt81WvZSzSfY

50 257

Полная дорожная карта для начинающих в машинном обучении В 18 лет я получил работу своей мечты в качестве инженера по машинному обучению, которую многие считают высококонкурентной и предназначенной для профессионалов с многолетним опытом. Путь к этому был нелёгким. Если вы заинтересованы в том, чтобы стать инженером по машинному обучению, но не знаете, с чего начать, вы находитесь в правильном месте. В этой статье я поделюсь полной дорожной картой для того, чтобы стать инженером по машинному обучению . Дорожная карта составлена на основе обширных исследований и обсуждений с несколькими инженерами-самоучками ML ▪ Читать @data_analysis_ml

50 257

Хотите освоить SQL и научиться решать реальные продуктовые задачи? karpovꓸcourses сделали бесплатный Симулятор, где SQL изучают с нуля до продвинутого уровня на практике. Сейчас на курсе более 120 задач: от базовых до оконных функций. Это не просто курс, где вы изучите синтаксис языка и основные виды запросов. Здесь вы попробуете себя в роли настоящего аналитика сервиса доставки, поработаете в реальном рабочем окружении и научитесь решать нетривиальные задачи. Вы разберётесь как: — переводить запросы с языка бизнеса на язык аналитики — формулировать и проверять гипотезы — рассчитывать продуктовые метрики — визуализировать результаты анализа — строить интерактивные дашборды Обучение проходит на платформе школы [Начать учиться SQL]

50 257

✅ MLOps. Советы и хитрости. 75 примеров кода MLOps, или операции машинного обучения, относятся к набору методов, которые оптимизируют разработку, развёртывание и обслуживание моделей машинного обучения. Эта статья с содержит советы и рекомендации по MLOps и обработке данных, охватывая широкий круг тем, таких как обучение моделей, предварительная обработка данных, оптимизация производительности, мониторинг и развёртывание моделей. ▪ Читать @data_analysis_ml

50 257

🔥 Как применяют NLP в современном мире? 📌 Обсудим 21 марта в 18:00 мск на открытом уроке онлайн-курса «Natural Language Processing (NLP)» в OTUS (возможна рассрочка). Тема вебинара: «Современные применения Natural Language Processing». 📝 На занятии вы узнаете: — Что делает область NLP одной из самых востребованных областей Data Science сегодня — Какие задачи сегодня решают с помощью методов NLP и что стоит за успехами в этой области — Какие существуют подходы к решению задач по NLP? 👉 Урок будет полезен IT-специалистам, которые хотят расширить свои знания в Data Science, дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов. 💻 Спикером выступит Мария Тихонова, руководитель курсов по ML в OTUS и Senior Research Data Scientist в команде AGI NLP в SberDevices. ✅Для участия пройдите вступительный тест: https://otus.pw/Okdr/

50 257

📊 Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков Взуализация данных – это важная область, которую специалисты по обработке данных могут использовать для получения исследовательской информации, визуализации тенденций и закономерностей или доведения результатов своих выводов до заинтересованных сторон. Однако часто этим диаграммам не хватает чёткости, их трудно читать и интерпретировать или они просто слишком перегружены информацией, чтобы извлечь из них какие-либо значимые выводы. Часто верно и обратное. Визуальное представление, содержащее минимум информации, может быть полностью устаревшим, и лучшей альтернативой было бы простое числовое представление или таблица. В этой статье приведены 9 ценных советов о том, как избежать подобных сценариев и повысить ясность и эффективность информации, которую вы хотели бы донести в виде диаграмм. ▪ Читать @data_analysis_ml

50 257

Математика дата саентиста - здесь мы публикуем математические задачи и гайды для машинного обучения с упором на практику. Проверяем ваши знания, а затем на основе ошибок предлагаем статьи и уроки. Если хочешь познать дзен и понимать как работают алгоритмы, а не просто импортировать их, подписывайся. Здесь реально учат. @ds_math

50 257

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas. Для примера будем возьмем датасет iris:


import pandas as pd
df = pd.read_csv("iris.data",              header=None,
                 names=["sepal_length", "sepal_width",                        "petal_length","petal_width","class"])
df.head()

1) pandas.DataFrame.plot Это самый простой способ быстро создавать диаграммы. Все, что вам нужно сделать, это добавить .plot() в конце имени DataFrame. df.plot() Пример: df["sepal_length"].plot.hist(figsize=(15,7)) 2) pd.plotting.scatter_matrix() Функция scatter_matrix из pandas plotting быстро создает матрицу точечных диаграмм (рассеяния). Таким образом, вы можете видеть взаимосвязь каждого столбца с каждым другим столбцом датафрейма. Просто используйте функцию: pd.plotting.scatter_matrix(df); Пример:

pd.plotting.scatter_matrix(df[["sepal_length", 
                               "sepal_width"]], figsize=(15,7));

3) pd.pivot_table().plot.barh() Функция pivot_table() группирует указанные столбцы DataFrame вместе и суммирует другие указанные числовые столбцы в соответствии с предоставленной агрегатной функцией. Для примера изменим немного наш код:

bins = [0,5,10] 
labels = ["'0-5'","'6-10'"] 
df['sepal_length_bucket'] = pd.cut(df['sepal_length'], 
                                   bins=bins, labels=labels)

df.head() После этого вы можете использовать функцию pivot_table()

pd.pivot_table(data=df, index = ["class"], 
               columns=["sepal_length_bucket"], 
               values=["sepal_width"])

@data_analysis_ml

50 257

Хотите попробовать силы в Data Science? Пройдите бесплатный онлайн-интенсив по обработке и анализу данных с 22 по 24 марта. Начало прямых трансляций — в 19:00 по московскому времени. Записывайтесь: 👉 https://goo.su/MyR49 Кому полезен интенсив: 📌 Интересующимся новичкам. Узнаете, с чем сталкиваются в работе специалисты по данным. Разберётесь, для чего нужны нейросети и как применять их в повседневной жизни. Решите несколько реальных задач и поймёте, интересна ли вам эта профессия. 📌 Начинающим специалистам. Научитесь применять Python для построения статистических моделей. Поработаете с библиотеками Pandas и Matplotlib. Разберёте несколько практических заданий и повысите свой уровень. 💬 Спикер интенсива — руководитель направления по исследованию данных в Сбере с восьмилетним опытом в программировании Анастасия Борнева. 🎁 Участвуйте, задавайте вопросы и получите сертификат на скидку 10 000 рублей на любой курс Skillbox. Присоединяйтесь!

50 257

⚙️ Контролируемое машинное обучение (ML): Ускоренный курс по обработке данных 2023 В этом посте мы собираемся изучить этапы, необходимые для успешной интеграции и предварительной обработки любых данных, которые могут быть использованы в аналитических проектах в машинном обучении. Мы взяли реальный пример того, как предсказать погоду на озере Мичиган, взяв данные из двух разных источников. • Читать дальше @data_analysis_ml

50 257

Команда аналитиков из Авито занимается улучшением пользовательского опыта продавцов в Авито Доставке. Аналитик Саша Голубев поделился очень крутым кейсом — как исследовали одну из метрик и её реальный потенциал оказался в 2 раза меньше ожидаемого. Особенно интересно, когда такие штуки происходят в крупной компании. Переходите и читайте статью по ссылке: clc.to/VuJVnw Реклама. ООО «Авито Тех».

50 257

5️⃣ Декораторов Python, которые я использую почти во всех своих проектах в области Data Science С помощью декораторов мы можем сократить код и улучшить его читаемость. Я постоянно декораторами в своей работе. Вот пять наиболее распространённых декораторов, которые я использую почти в каждом проекте с большим объёмом данных. • Читать @data_analysis_ml

50 257

В анализ данных переходят из самых разных сфер. Например, спикеры нашего вебинара — это бывшие сисадмин, врач и выпускник философского факультета МГУ. А сейчас они работают с данными в известных компаниях. На вебинаре они расскажут, как освоили профессии в аналитике данных. → Бесплатно, 20 марта в 15:00 Ваши проводники в анализ данных: ◾️Игорь Алдабаев,- Руководитель группы анализа данных в СберМаркете ◾️Ольга Мазур, руководительница практики бизнес-анализа в Samokat.tech ◾️ Антон Гаврюшин, старший системный аналитик в Positive Technologies ◾️Эдуард Григорян, Head of Data Science в Ленте ◾️Артём Исакин, руководитель трудоустройства в направлении анализа данных Яндекс Практикума Поговорим о четырёх профессиях: бизнес-аналитика, системного аналитика, аналитика данных и специалиста по Data Science. Вы узнаете: — в чём заключается их работа, — кому подходят эти профессии, — нужно ли хорошее знание математики, — на что обращать внимание при поиске первой работы, — какие перспективы роста. Вы сможете задать спикерам вопросы о смене профессии и старте карьеры. → Зарегистрироваться на вебинар

50 257

🖥 Docker: размещение и запуск Python сценария на русском Процесс размещения скрипта Python в контейнере Docker: • Создание Dockerfile • Создание образа из Dockerfile • Запуск образа Docker #doc #python #docker • Читать @data_analysis_ml

50 257

🔥 Проверьте свои навыки в системном анализе! Пройдите тест из 12 вопросов онлайн-курса «Системный аналитик. Advanced» и узнайте, осилите ли вы обучение в OTUS. 💣 Все, кто успешно пройдет тест, получит доступ к 2 открытым урокам курса для знакомства с форматом и спец.цену на курс. — «Какие сервисы делать на gRPC?» — «Use case: примеры и разбор ошибок» В программе курса разбираются технические аспекты архитектурного проектирования приложений и аналитические инструменты! За 6 месяцев обучения вы научитесь решать задачи уровня Middle+ и четко определите круг своих профессиональных навыков. 👉 Пройти тест: https://otus.pw/rqoW/

50 257

8️⃣ Приемов очистки данных в SQL 1. Выявление и удаление дублирующих записей SELECT DISTINCT column1, column2, ... FROM table_name; В качестве альтернативы можно использовать GROUP BY, чтобы сгруппировать похожие записи вместе, а затем удалить количество записей в каждой группе.

SELECT column_name, COUNT(*) 
FROM table_name 
GROUP BY column_name 
HAVING COUNT(*) > 1;

2. Стандартизация текстовых полей

UPDATE table_name 
SET column_name = UPPER(column_name);

Вы также можете использовать функцию REPLACE для замены определенных символов или строк в текстовых полях. Например:

UPDATE table_name 
SET column_name = REPLACE(column_name, 'OldString', 'NewString');

3. Обработка отсутствующих или нулевых значений

SELECT column1, column2, ...
FROM table_name
WHERE column_name IS NULL;

Затем вы можете удалить эти записи или заменить отсутствующие значения значением по умолчанию. Например:

UPDATE table_name 
SET column_name = 'DefaultValue' 
WHERE column_name IS NULL;

4. Удаление кривых символов

UPDATE table_name 
SET column_name = REPLACE(column_name, 'InvalidChar', '');

UPDATE table_name 
SET column_name = REGEXP_REPLACE(column_name, '[^a-zA-Z0–9 ]', '');

5. Обработка выбросов Чтобы определить и удалить выбросов, мы можем использовать функции AVG и STDDEV для расчета среднего и стандартного отклонения столбца.

SELECT AVG(column_name), STDDEV(column_name)
FROM table_name;

6. Корректировка форматов дат Функция STR_TO_DATE может преобразовать строку в формат даты. Синтаксис функции следующий:

SELECT STR_TO_DATE(date_string, format_string)
FROM table_name;

7. Очистка текстовых данных Функция REPLACE может заменить подстроку в строке. Функция TRIM позволяет удалить из строки ведущие и последующие пробелы. Синтаксис выглядит следующим образом:

SELECT UPPER(column_name)
FROM table_name;

SELECT REPLACE(column_name, 'old_string', 'new_string')
FROM table_name;
SELECT TRIM(column_name)
FROM table_name;

8. Проверка типов данных Важно убедиться, что ваши данные имеют правильный тип данных. Для проверки и преобразования типов данных можно использовать функции CAST или CONVERT. Например:

SELECT CAST(column_name AS INT) 
FROM table_name;

SELECT CONVERT(column_name, DATE) 
FROM table_name;

@data_analysis_ml