Анализ данных (Data analysis)

前往频道在 Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

显示更多

网络:Machinelearning 俄罗斯12 450 技术与应用2 658...

📈 Telegram 频道 Анализ данных (Data analysis) 的分析概览

频道 Анализ данных (Data analysis) (@data_analysis_ml) 俄语语言赛道中的是活跃参与者。目前社区聚集了 50 255 名订阅者，在 技术与应用 类别中位列第 2 658，并在 俄罗斯 地区排名第 12 450 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 50 255 名订阅者。

根据 26 六月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 46，过去 24 小时变化为 6，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 9.29%。内容发布后 24 小时内通常能获得 6.48% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 4 671 次浏览，首日通常累积 3 258 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 29。
主题关注点： 内容集中在 llm, контекст, openai, архитектура, deepseek 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

凭借高频更新（最新数据采集于 27 六月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

50 255

订阅者

+624 小时

+327 天

+4630 天

4 671

帖子浏览量

~ 3 25824 小时

~ 3 69748 小时

9.29%

参与率

~ 5

每日帖子数

Ads index

beta

帖子存档

50 257

⁉️ Готовы перейти на следующую ступень в системном анализе? Приходите на открытый урок 27 марта в 20:00 онлайн-курса «Системный аналитик. Advanced». Тема вебинара: «Какие сервисы делать на gRPC». Спикером выступит Иннокентий Бодров, ведущий аналитик продуктовой команды. ✅ На занятии мы: — Познакомимся с причинами развития подхода RPC компанией Google, основными отличиями в подходах к проектированию с классическим REST API. — Получим представление об описании сервисов gRPC и структуры контента, которым обмениваются участники взаимодействия. 💻 Урок будет полезен системным аналитикам, решающим задачи интеграций и стримминга больших объемов информации. Не упустите возможность протестировать курс, продолжить обучение можно в рассрочку. 🟢 Для участия пройдите вступительный тест https://otus.pw/bLEM/ Реклама. Информация о рекламодателе на сайте www.otus.ru

50 257

🖥 Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных При работе с постоянно растущим потоком данных, довольно часто возникает необходимость проверить, не появляются ли какие-либо аномалии, будь то фродовые мошеннические операции или произвольно возникающие ошибки из-за периодически напоминающих о себе багов внутри самой инфраструктуры или, как это часто бывает, человеческого фактора. Большинство перечисленных событий не являются статистически частыми, что вносит их в рамки редких, даже аномальных, и которые необходимо как-то фиксировать и устранять. Я хочу поделиться способом решения задач классификации, а именно поиска аномалий, при помощи неприспособленного, на первый взгляд, для этого инструмента — автоэнкодера. ▪ Читать @data_analysis_ml

50 257

📊 3 Уникальные диаграммы, созданные с помощью Matplotlib В рамках этой статьи мы кратко рассмотрим три уникальные визуализации, которые могут быть сгенерированы с помощью matplotlib (возможно, вы даже не представляли, что такое можно создать). ▪ Читать @data_analysis_ml

50 257

Если на языке не пишут, то его и не знают Разработчики-преподаватели из «Девман» понимают, как важно начинающему специалисту обучаться на реальных проектах из практики коммерческой разработки. Именно поэтому ребята создали авторскую методику обучения Python программированию «От Новичка до Мидла». Ученик на «Девмане» осваивает материалы в состоянии высокой озадаченности: строит гипотезы, ищет решения, исправляет ошибки, пытается сделать так, чтобы проект заработал. Все это похоже на то, что мы делаем на работе. Обучение стартует 27 марта. Первая неделя курса – пробная. На ней каждый может ощутить себя Python разработчиком. На пробной неделе: ▫️Новички сделают сервис, который показывает погоду в разных городах. ▫️Более опытные успеют написать и собственный сервис по сокращению ссылок. ▫️Джуны создадут своего чат бота или сделают собственный сайт с афишей мероприятий. Не упустите возможность сделать свой первый проект на Python! Для записи переходите в бота → bit.ly/3JtGLuj Реклама ООО «Девман» Pb3XmBtzsw2epy4YehAmcEGRSCHbt81WvZSzSfY

50 257

Полная дорожная карта для начинающих в машинном обучении В 18 лет я получил работу своей мечты в качестве инженера по машинному обучению, которую многие считают высококонкурентной и предназначенной для профессионалов с многолетним опытом. Путь к этому был нелёгким. Если вы заинтересованы в том, чтобы стать инженером по машинному обучению, но не знаете, с чего начать, вы находитесь в правильном месте. В этой статье я поделюсь полной дорожной картой для того, чтобы стать инженером по машинному обучению . Дорожная карта составлена на основе обширных исследований и обсуждений с несколькими инженерами-самоучками ML ▪ Читать @data_analysis_ml

50 257

Хотите освоить SQL и научиться решать реальные продуктовые задачи? karpovꓸcourses сделали бесплатный Симулятор, где SQL изучают с нуля до продвинутого уровня на практике. Сейчас на курсе более 120 задач: от базовых до оконных функций. Это не просто курс, где вы изучите синтаксис языка и основные виды запросов. Здесь вы попробуете себя в роли настоящего аналитика сервиса доставки, поработаете в реальном рабочем окружении и научитесь решать нетривиальные задачи. Вы разберётесь как: — переводить запросы с языка бизнеса на язык аналитики — формулировать и проверять гипотезы — рассчитывать продуктовые метрики — визуализировать результаты анализа — строить интерактивные дашборды Обучение проходит на платформе школы [Начать учиться SQL]

50 257

✅ MLOps. Советы и хитрости. 75 примеров кода MLOps, или операции машинного обучения, относятся к набору методов, которые оптимизируют разработку, развёртывание и обслуживание моделей машинного обучения. Эта статья с содержит советы и рекомендации по MLOps и обработке данных, охватывая широкий круг тем, таких как обучение моделей, предварительная обработка данных, оптимизация производительности, мониторинг и развёртывание моделей. ▪ Читать @data_analysis_ml

50 257

🔥 Как применяют NLP в современном мире? 📌 Обсудим 21 марта в 18:00 мск на открытом уроке онлайн-курса «Natural Language Processing (NLP)» в OTUS (возможна рассрочка). Тема вебинара: «Современные применения Natural Language Processing». 📝 На занятии вы узнаете: — Что делает область NLP одной из самых востребованных областей Data Science сегодня — Какие задачи сегодня решают с помощью методов NLP и что стоит за успехами в этой области — Какие существуют подходы к решению задач по NLP? 👉 Урок будет полезен IT-специалистам, которые хотят расширить свои знания в Data Science, дата-сайентистам, желающим углубить свои знания по автоматической обработке текстов. 💻 Спикером выступит Мария Тихонова, руководитель курсов по ML в OTUS и Senior Research Data Scientist в команде AGI NLP в SberDevices. ✅Для участия пройдите вступительный тест: https://otus.pw/Okdr/

50 257

📊 Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков Взуализация данных – это важная область, которую специалисты по обработке данных могут использовать для получения исследовательской информации, визуализации тенденций и закономерностей или доведения результатов своих выводов до заинтересованных сторон. Однако часто этим диаграммам не хватает чёткости, их трудно читать и интерпретировать или они просто слишком перегружены информацией, чтобы извлечь из них какие-либо значимые выводы. Часто верно и обратное. Визуальное представление, содержащее минимум информации, может быть полностью устаревшим, и лучшей альтернативой было бы простое числовое представление или таблица. В этой статье приведены 9 ценных советов о том, как избежать подобных сценариев и повысить ясность и эффективность информации, которую вы хотели бы донести в виде диаграмм. ▪ Читать @data_analysis_ml

50 257

Математика дата саентиста - здесь мы публикуем математические задачи и гайды для машинного обучения с упором на практику. Проверяем ваши знания, а затем на основе ошибок предлагаем статьи и уроки. Если хочешь познать дзен и понимать как работают алгоритмы, а не просто импортировать их, подписывайся. Здесь реально учат. @ds_math

50 257

3 ПРОСТЫХ СПОСОБА КАК ВИЗУАЛИЗИРОВАТЬ ДАННЫЕ В PANDAS Визуализация данных является важным аспектом работы с данными. Рассмотрим несколько фнкций из арсенала Pandas. Для примера будем возьмем датасет iris:


import pandas as pd
df = pd.read_csv("iris.data",              header=None,
                 names=["sepal_length", "sepal_width",                        "petal_length","petal_width","class"])
df.head()

1) pandas.DataFrame.plot Это самый простой способ быстро создавать диаграммы. Все, что вам нужно сделать, это добавить .plot() в конце имени DataFrame. df.plot() Пример: df["sepal_length"].plot.hist(figsize=(15,7)) 2) pd.plotting.scatter_matrix() Функция scatter_matrix из pandas plotting быстро создает матрицу точечных диаграмм (рассеяния). Таким образом, вы можете видеть взаимосвязь каждого столбца с каждым другим столбцом датафрейма. Просто используйте функцию: pd.plotting.scatter_matrix(df); Пример:

pd.plotting.scatter_matrix(df[["sepal_length", 
                               "sepal_width"]], figsize=(15,7));

3) pd.pivot_table().plot.barh() Функция pivot_table() группирует указанные столбцы DataFrame вместе и суммирует другие указанные числовые столбцы в соответствии с предоставленной агрегатной функцией. Для примера изменим немного наш код:

bins = [0,5,10] 
labels = ["'0-5'","'6-10'"] 
df['sepal_length_bucket'] = pd.cut(df['sepal_length'], 
                                   bins=bins, labels=labels)

df.head() После этого вы можете использовать функцию pivot_table()

pd.pivot_table(data=df, index = ["class"], 
               columns=["sepal_length_bucket"], 
               values=["sepal_width"])

@data_analysis_ml

50 257

Хотите попробовать силы в Data Science? Пройдите бесплатный онлайн-интенсив по обработке и анализу данных с 22 по 24 марта. Начало прямых трансляций — в 19:00 по московскому времени. Записывайтесь: 👉 https://goo.su/MyR49 Кому полезен интенсив: 📌 Интересующимся новичкам. Узнаете, с чем сталкиваются в работе специалисты по данным. Разберётесь, для чего нужны нейросети и как применять их в повседневной жизни. Решите несколько реальных задач и поймёте, интересна ли вам эта профессия. 📌 Начинающим специалистам. Научитесь применять Python для построения статистических моделей. Поработаете с библиотеками Pandas и Matplotlib. Разберёте несколько практических заданий и повысите свой уровень. 💬 Спикер интенсива — руководитель направления по исследованию данных в Сбере с восьмилетним опытом в программировании Анастасия Борнева. 🎁 Участвуйте, задавайте вопросы и получите сертификат на скидку 10 000 рублей на любой курс Skillbox. Присоединяйтесь!

50 257

⚙️ Контролируемое машинное обучение (ML): Ускоренный курс по обработке данных 2023 В этом посте мы собираемся изучить этапы, необходимые для успешной интеграции и предварительной обработки любых данных, которые могут быть использованы в аналитических проектах в машинном обучении. Мы взяли реальный пример того, как предсказать погоду на озере Мичиган, взяв данные из двух разных источников. • Читать дальше @data_analysis_ml

50 257

Команда аналитиков из Авито занимается улучшением пользовательского опыта продавцов в Авито Доставке. Аналитик Саша Голубев поделился очень крутым кейсом — как исследовали одну из метрик и её реальный потенциал оказался в 2 раза меньше ожидаемого. Особенно интересно, когда такие штуки происходят в крупной компании. Переходите и читайте статью по ссылке: clc.to/VuJVnw Реклама. ООО «Авито Тех».

50 257

5️⃣ Декораторов Python, которые я использую почти во всех своих проектах в области Data Science С помощью декораторов мы можем сократить код и улучшить его читаемость. Я постоянно декораторами в своей работе. Вот пять наиболее распространённых декораторов, которые я использую почти в каждом проекте с большим объёмом данных. • Читать @data_analysis_ml

50 257

В анализ данных переходят из самых разных сфер. Например, спикеры нашего вебинара — это бывшие сисадмин, врач и выпускник философского факультета МГУ. А сейчас они работают с данными в известных компаниях. На вебинаре они расскажут, как освоили профессии в аналитике данных. → Бесплатно, 20 марта в 15:00 Ваши проводники в анализ данных: ◾️Игорь Алдабаев,- Руководитель группы анализа данных в СберМаркете ◾️Ольга Мазур, руководительница практики бизнес-анализа в Samokat.tech ◾️ Антон Гаврюшин, старший системный аналитик в Positive Technologies ◾️Эдуард Григорян, Head of Data Science в Ленте ◾️Артём Исакин, руководитель трудоустройства в направлении анализа данных Яндекс Практикума Поговорим о четырёх профессиях: бизнес-аналитика, системного аналитика, аналитика данных и специалиста по Data Science. Вы узнаете: — в чём заключается их работа, — кому подходят эти профессии, — нужно ли хорошее знание математики, — на что обращать внимание при поиске первой работы, — какие перспективы роста. Вы сможете задать спикерам вопросы о смене профессии и старте карьеры. → Зарегистрироваться на вебинар

50 257

🖥 Docker: размещение и запуск Python сценария на русском Процесс размещения скрипта Python в контейнере Docker: • Создание Dockerfile • Создание образа из Dockerfile • Запуск образа Docker #doc #python #docker • Читать @data_analysis_ml

50 257

🔥 Проверьте свои навыки в системном анализе! Пройдите тест из 12 вопросов онлайн-курса «Системный аналитик. Advanced» и узнайте, осилите ли вы обучение в OTUS. 💣 Все, кто успешно пройдет тест, получит доступ к 2 открытым урокам курса для знакомства с форматом и спец.цену на курс. — «Какие сервисы делать на gRPC?» — «Use case: примеры и разбор ошибок» В программе курса разбираются технические аспекты архитектурного проектирования приложений и аналитические инструменты! За 6 месяцев обучения вы научитесь решать задачи уровня Middle+ и четко определите круг своих профессиональных навыков. 👉 Пройти тест: https://otus.pw/rqoW/

50 257

8️⃣ Приемов очистки данных в SQL 1. Выявление и удаление дублирующих записей SELECT DISTINCT column1, column2, ... FROM table_name; В качестве альтернативы можно использовать GROUP BY, чтобы сгруппировать похожие записи вместе, а затем удалить количество записей в каждой группе.

SELECT column_name, COUNT(*) 
FROM table_name 
GROUP BY column_name 
HAVING COUNT(*) > 1;

2. Стандартизация текстовых полей

UPDATE table_name 
SET column_name = UPPER(column_name);

Вы также можете использовать функцию REPLACE для замены определенных символов или строк в текстовых полях. Например:

UPDATE table_name 
SET column_name = REPLACE(column_name, 'OldString', 'NewString');

3. Обработка отсутствующих или нулевых значений

SELECT column1, column2, ...
FROM table_name
WHERE column_name IS NULL;

Затем вы можете удалить эти записи или заменить отсутствующие значения значением по умолчанию. Например:

UPDATE table_name 
SET column_name = 'DefaultValue' 
WHERE column_name IS NULL;

4. Удаление кривых символов

UPDATE table_name 
SET column_name = REPLACE(column_name, 'InvalidChar', '');

UPDATE table_name 
SET column_name = REGEXP_REPLACE(column_name, '[^a-zA-Z0–9 ]', '');

5. Обработка выбросов Чтобы определить и удалить выбросов, мы можем использовать функции AVG и STDDEV для расчета среднего и стандартного отклонения столбца.

SELECT AVG(column_name), STDDEV(column_name)
FROM table_name;

6. Корректировка форматов дат Функция STR_TO_DATE может преобразовать строку в формат даты. Синтаксис функции следующий:

SELECT STR_TO_DATE(date_string, format_string)
FROM table_name;

7. Очистка текстовых данных Функция REPLACE может заменить подстроку в строке. Функция TRIM позволяет удалить из строки ведущие и последующие пробелы. Синтаксис выглядит следующим образом:

SELECT UPPER(column_name)
FROM table_name;

SELECT REPLACE(column_name, 'old_string', 'new_string')
FROM table_name;
SELECT TRIM(column_name)
FROM table_name;

8. Проверка типов данных Важно убедиться, что ваши данные имеют правильный тип данных. Для проверки и преобразования типов данных можно использовать функции CAST или CONVERT. Например:

SELECT CAST(column_name AS INT) 
FROM table_name;

SELECT CONVERT(column_name, DATE) 
FROM table_name;

@data_analysis_ml