Анализ данных (Data analysis)

Відкрити в Telegram

Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp

Сітка:Machinelearning Росія12 436 Технології та додатки2 650...

📈 Аналітичний огляд Telegram-каналу Анализ данных (Data analysis)

Канал Анализ данных (Data analysis) (@data_analysis_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 50 259 підписників, посідаючи 2 650 місце в категорії Технології та додатки та 12 436 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 50 259 підписників.

За останніми даними від 27 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 45, а за останні 24 години на 0, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 10.21%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.59% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 5 131 переглядів. Протягом першої доби публікація в середньому набирає 3 311 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 30.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як llm, контекст, openai, архитектура, deepseek.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Data science, наука о данных. @haarrp - админ РКН: clck.ru/3FmyAp”

Завдяки високій частоті оновлень (останні дані отримано 28 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

50 259

Підписники

Немає даних24 години

-27 днів

+4530 день

5 131

Перегляди допису

~ 3 31124 години

~ 3 74648 годин

10.21%

Коефіцієнт залучення

~ 5

Дописів на день

Ads index

beta

Архів дописів

50 259

Как начать работать с AI Вместе с командой Cloud собрали пошаговую инструкцию, благодаря которой вы сможете сделать первые шаги в сторону внедрения AI Подписывайтесь на канал Cloud, чтобы еще больше узнать об облачных технологиях и искусственном интеллекте от ведущих экспертов🤜🤛

50 259

⚜️ Руководство по созданию интерактивных визуализаций на Python Визуализация данных — один из важнейших этапов проекта в области науки о данных и аналитики данных. Она помогает как изучать и понимать данные, так и эффективно обмениваться результатами. Самыми распространенными библиотеками для создания визуализаций на Python являются Matplotlib и Seaborn, но существует и множество других инструментов. В этом руководстве мы изучим инструменты HoloViz, а точнее Panel и hvPlot — библиотеки с открытым исходным кодом, которые используются для создания интерактивных диаграмм и контрольных панелей. Также узнаем, как легко развернуть и поделиться контрольной панелью с помощью Jupyter Notebook. В этом проекте мы будем использовать данные о различных покемонах, доступные на Kaggle и Wikipedia, а также данные о продажах игр про покемонов. Краткий обзор Мы выполним следующие задачи. Создадим простой интерактивный график, используя hvPlot и Pandas. Построим более сложные визуализации, используя Panel для создания виджетов, которые будут фильтровать данные, и hvPlot для отображения этих данных. Создадим контрольную панель, показывающую табличные данные, информацию о проекте, а также различные интерактивные диаграммы. Узнаем, как развертывать контрольную панель на Heroku, чтобы проектом можно было делиться. ➡️ Читать дальше ⚙️ Код @data_analysis_ml

50 259

📎 Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных Данные из боевых баз в нашей архитектуре асинхронно попадают в аналитическое хранилище (Clickhouse), где уже аналитики создают дашборды для продуктовых команд и делают выборки. Базы здоровые и под ощутимой нагрузкой: мы в день отправляем флот самолётов средней авиакомпании, несколько поездов и кучу автобусов. Поэтому взаимодействий с продуктом много. ETL-процесс (извлечение данных, трансформация и загрузка в хранилище) часто подразумевает сложную логику переноса данных, и изначально нет уверенности в том, что данные доставляются без потерь и ошибок. Мы используем Kafka как шину данных, промежуточные сервисы на Benthos для трансформации записей и отправки в Clickhouse. На этапе создания пайплайна нужно было убедиться в отсутствии потерь с нашей стороны и корректной логике записи в шину данных. Проверять вручную расхождения каждый раз не хотелось, кроме того мы нуждались в сервисе, который умел бы сверять новые данные по расписанию и показывать наглядно, где и какие имеются расхождения. Поэтому мы сделали сервис сверок, о котором я и расскажу, потому что готовых решений не нашёл. ➡️ Читать дальше @data_analysis_ml

50 259

English for Developers - канал для тех, кто хочет учить технический английский. 1. техническая лексика 2. опросы на английском 3. шутки на английском Подписывайтесь, проходите опросы, читайте полезные прогерские фразы на английском: english_forprogrammers. 1 канал вместо тысячи учебников и курсов

50 259

✔️ Как прокачать свой SQL до уровня больших данных Чем отличается SQL в больших данных от обычного SQL? В больших данных используются распределённые вычисления. Вычисления распределяются между несколькими серверами. Одна база данных находится сразу на нескольких серверах. Результат запроса тоже вычисляется одновременно несколькими серверами. Алгоритмы распределённых вычислений описывает парадигма MapReduce. Давайте разберём, на что это влияет и как прокачать свой SQL до уровня больших данных. Предупреждение: в данной статье рассматриваются канонические архитектуры обработки данных. Многие современные СУБД и фреймворки построены на их основе и содержат в себе множество доработок и улучшений. Однако набор оптимизаций может отличаться. Поэтому реальная обработка данных на вашем проекте может отличаться в лучшую сторону благодаря именно вашему инструменту. Важно понимать, какие именно оптимизации способен выполнять ваш фреймворк, чтобы правильно контролировать эффективность алгоритмов. ➡️ Читать дальше @data_analysis_ml

50 259

🔍 Data Quality: новые правила В нашем мире проблемы с данными делятся на два типа: предсказуемые (известные неизвестные) и непредсказуемые (неизвестные неизвестные). Вот какой комплексный подход применяют лучшие специалисты по работе с данными для решения этих проблем в крупномасштабных системах. Это статья о новых способах повышения качества данных с помощью тестирования и наблюдаемости (observability). В последние годы команды по анализу данных стали использовать аналог юнит-тестирования для обнаружения проблем с качеством данных. В 2021 году на фоне все увеличивающегося потока обрабатываемых данных пайплайны становятся сложнее, — и подход, основанный на выявлении единой точки отказа, перестал работать. Тестировать самые важные данные надо — без этого нельзя выявить конкретные, лежащие на поверхности известные проблемы в пайплайне. Для этой задачи есть прекрасные инструменты. Например, данные из того же Segment или Salesforce извлекаются с помощью Fivetran, поступают в хранилище данных Snowflake, трансформируются с помощью dbt и в конечном счете оказываются на дашборде Looker, который ваш CEO использует для просмотра квартальных финансовых отчетов. Сразу же, без всяких проверок. Но даже если вы автоматизировали тестирование, у вас все равно остается немало задач: обновлять имеющиеся тесты и пороговые значения, писать новые и удалять старые — потому что экосистема данных развивается, а данные меняются. Со временем этот процесс становится утомительным, занимает все больше времени и приводит к образованию технического долга, по которому придется расплачиваться позже. ➡️ Читать дальше @data_analysis_ml

50 259

28 сентября приглашаем на форум «Управление данными — 2022. Всё о стратегиях, архитектурах и практике работы с данными в эпоху перемен» Вас ждут: 📌Проверенный кризисом опыт извлечения ценности из корпоративных данных 📌Практика миграции на отечественные платформы управления данными 📌Мастер-класс с разбором ошибок реализации процессов управления данными 📌Обмен свежими идеями с коллегами из разных отраслей, в том числе c лауреатами Data Award. 🎤 В программе выступления экспертов: Банка России, ВТБ, Сбера, «Тинькофф банка», МТС, Tele2, ЕВРАЗа, «УралХима», «Балтики», «М.Видео-Эльдорадо», «Магнита», «Интер РАО — Онлайн», «ВсеИнструменты.ру», «К-Скай», «Юнидата», Arenadata, Data.Ру, DIS Group, Navicon и др. Присоединяйтесь к крутому сообществу дата-профессионалов! Где: в Москве, в Palmira Business Club, Новоданиловская наб., 6, корп. 2 🎧 Онлайн тоже будет! Регистрация тут Подписчикам канала Издательство «Открытые системы» скидка 10% про промокоду tgDA10dm22

50 259

⌚ Gluon Time Series – библиотека от Amazon для работы с временными рядами Данные временных рядов, то есть наборы данных, которые индексированы по времени, присутствуют в различных областях и отраслях. Например, розничный торговец может подсчитывать и сохранять количество проданных единиц для каждого продукта в конце каждого рабочего дня. Для каждого продукта это приводит к временному ряду ежедневных продаж. Электроэнергетическая компания может измерять количество электроэнергии, потребляемой каждым домохозяйством за фиксированный интервал, например, каждый час. Это приводит к сбору временных рядов потребления электроэнергии. Клиенты могут использовать данные для записи различных показателей, относящихся к их ресурсам и услугам, что приводит к сбору данных, которые основаны на временных рядах. К распространенным задачам машинного обучения, относящимся к временным рядам, являются: экстраполяция (прогнозирование), интерполяция (сглаживание), обнаружение (например, выбросы, аномалии), классификация. Временные ряды возникают во многих различных приложениях и процессах, обычно путем измерения значения некоторого базового процесса за фиксированный интервал времени. ➡️ Читать дальше ⚙️ Код 🗒 Документация по GluonTS ✔️ Информация по модели DeepAR Forecasting Algorithm @data_analysis_ml

50 259

Работаете специалистом по машинному обучению и хотите расширить свои знания в области Computer Vision? ⚡️ Начните осваивать необходимые навыки 22 сентября в 20:00 на открытом вебинаре «Сверточные нейронные сети» На занятии мы рассмотрим: ⁃ сверточную нейронную сеть ⁃ деконволюцию и субдискретизацию ⁃ Dropout и BatchNorm для сверток 📚 Demo-занятие пройдет в рамках онлайн-курса «Computer Vision» и позволяет оценить качество материалов и познакомиться с преподавателем. Чтобы записаться на мероприятие 👉Пройдите вступительное тестирование

50 259

Сжатие текстовых данных методом арифметического кодирования АРИФМЕТИЧЕСКОЕ КОДИРОВАНИЕ Арифметическое кодирование (АК) — это статистический метод сжатия данных, работающий по принципу кодирования одного символа за один раз. Длина закодированного выходного кода каждого символа может варьироваться в зависимости от вероятности частоты появления символа. Меньшее количество битов используется для кодирования символов, которые встречаются с высокой вероятностью, а большее количество – с низкой вероятностью. Идея алгоритма АК: При арифметическом кодировании слово представляется в виде интервала действительных чисел от 0 до 1. С увеличением длины слова, уменьшается интервал для его представления и увеличивается число бит для его определения. Более вероятные символы уменьшают интервал на меньшую величину, чем маловероятные символы, и, следовательно, добавляют меньше битов к слову. ➡️ Читать дальше ⚙️ Код @data_analysis_ml

50 259

Аналитику данных без математики не обойтись. Если вы мечтаете об этой професии, но ваши знания нужно обновить или подтянуть, в Яндекс Практикуме есть курс «Математика для анализа данных». Курс подойдет: Начинающим аналитикам Начинающим специалистам по Data Science Тем, кто готовится к собеседованиям в IT-компании Студентам и выпускникам курсов по анализу данных Как мы учим: ◼️Объясняем сложное простым языком, интерактивно и не скучно ◼️Разбираем бизнес-кейсы и каждый урок завершаем практикой ◼️Помогаем освоить навыки для работы и собеседований, объясняем и разбираем типовые задачи На всех этапах вас поддержат: ◼️Преподаватели – ответят в чате и помогут с решением сложных задач ◼️Кураторы – напомнят о сроках и ответят на вопросы об учебном процессе ◼️Поддержка 24/7 – поможет с техническими вопросами ◼️Одногруппники – развеселят и обнимут Оцените формат и пройдите бесплатный вводный урок: https://practicum.yandex.ru/math-for-da-ds/

50 259

🚀 Статистический анализ данных с помощью SKLEARN Основная цель работы – это проведение регрессионного и корреляционного анализа на основе 10000 входных данных, которые являются файлами в формате json многоуровневой вложенности. ➡️ Читать дальше ⚙️ Код @data_analysis_ml

50 259

Сколько можно заработать на 3D-визуализации? Олег Кононыхин, 3D-визуализатор с 20-летним опытом, в 2021 году заработал 4 млн. Из них 500к пассивно. Да, вы можете сказать, что это опыт. Но, ребята, всему нужно учиться. Сейчас Олег набирает группу на 2-недельный курс и вы можете попробовать себя в профессии 3D-визуализатора абсолютно бесплатно. Что вас ждет? 📗 90% программы ー чистая практика. Вы с 0 сделаете 3D-визуализацию комнаты на основе реального фото интерьера. 📘 10% ー концентрированная теория без воды. Олег расскажет, как вам стать визуализатором и начать зарабатывать уже в этом году. 📙 Во время обучения персональный наставник поможет довести вашу работу до классного результата и ответит на все вопросы. 🎁 В конце автор лучшей работы получит 10.000 руб. Старт 23 сентября 👉 @diskill6_bot

50 259

🌍 Создание приложения на Python для систематизации фото по геолокации и дате Как-то я переустановил ОС на ноутбуке и собрал всевозможные резервные копии фотографий с разных устройств в одном месте. Получившийся каталог заслуживал только одного определения — полный бардак. Он включал резервные копии с различных телефонов и других устройств, при этом некоторые из них отличались очень сложной структурой папок. За исключением нескольких тематических названий папок, все фотографии были совершенно не отсортированы. О сортировке вручную не могло быть и речи. Зато представился превосходный случай написать приложение для систематизации фотографий, о котором я давно подумывал. Приложение должно: принимать аргументы командной строки, позволяя использовать его в bash-скриптах; основываться на базе данных (БД) для хранения необходимой информации; сортировать и находить фотографии по дате и местоположению; распознавать людей, объекты на фото и проводить выборку изображений по этим категориям. Из материала статьи вы узнаете, как извлекать необходимые метаданные из фотографий, создавать и заполнять БД PostGIS, а также запрашивать изображения по местоположению. ➡️ Читать дальше ⚙️ Код @data_analysis_ml

50 259

🚀Мало кто откажется от большей зарплаты, востребованности и возможности работать на удалёнке. OTUS начинает набор онлайн-курса «Аналитик данных» для тех, кто хочет большего! 👉ПРОЙТИ ТЕСТ НА КУРС ПО АНАЛИТИКЕ ДАННЫХ — Хотите протестировать процесс обучения и познакомиться с преподавателями заранее? Регистрируйтесь на бесплатные вебинары: — «Обзорная экскурсия по основам визуализации данных и информационного дизайна»: регистрация — «Основы статистики»: регистрация

50 259

💡 Как в условиях недостатка данных улучшить качества классификатора Одна из основных проблем человека, который занимается машинным обучением, — данные. Исследователи сталкиваются с плохим качеством данных и/или их отсутствием. Рассмотрим способы улучшение метрик классификатора в условиях малого количества признаков. В машинном обучении одним из основных критериев успеха является правильная предобработка данных. В условиях отсутствия дополнительных факторов качество классификатора можно улучшить за счет обеспечения монотонности целевой переменной от признаков, а также за счет увеличения порядка пространства признаков. Цель кейса: определить, куда доставлялся заказ, основываясь на двух признаках: времени размещения и времени доставки. Что делаем: - Преобразовываем время к удобному формату - Строим графики для генерации гипотез - Строим классификатор №1 и визуализируем результаты - Обеспечиваем монотонность целевой переменной, строим классификатор №2.1. Увеличиваем порядок пространства признаков, строим классификатор №2.2. - Обеспечиваем монотонность целевой переменной и увеличиваем порядок пространства признаков одновременно, строим классификатор №3, наблюдаем улучшение метрик. ➡️ Читать дальше @data_analysis_ml

50 259

Что такое безопасность приложений и как проводить пентесты на уязвимости? Как подобрать пароль или устранить угрозу взлома? Узнайте всё о кибербезопасности на бесплатном интенсиве Skillbox с 22 по 24 сентября в 21:00 по московскому времени: https://clc.to/0TNkdw Сразу после регистрации вы получите на почту полезную статью о защите информации в сети ✔ Что вас ждёт: ▶️ Интересные практические задания. Напишете простейший подбор паролей на Python и попробуете взломать CSRF-защиту. ✔ Полезная теория. Узнаете, как устроено приложение и что такое протокол HTTP. 💬 Общение со спикером. Экс-руководитель команды, которая разработала платформу антиспама и машинного обучения в Badoo, Михаил Овчинников расскажет про зарплаты, востребованность и перспективы работы в сфере. 🎁 Присоединяйтесь к прямым эфирам и получите сертификат на 10 000 рублей на любой курс Skillbox. А всем, кто дойдёт до конца интенсива, подарим книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ

50 259

🌠 Лучшие примеры инфографики (51 фото) простые, сложные, крутые В современном мире все информационные ресурсы борются за привлечение внимания пользователей. Когда сознание перегружено бытовыми проблемами, телевидением, радио, перепиской в социальных сетях, межличностным общением и информационным шумом, человеку сложно сосредоточиться. Если пользователь видит неструктурированный, без картинок текст, скорее всего, он его проигнорирует, решит, что не стоит тратить время на чтение. Инфографика помогает привлечь внимание людей и передает данные в наглядной и простой форме. В статье мы расскажем о ней подробнее, плюс будут даны примеры инфографики в картинках. ➡️ Читать дальше @data_analysis_ml

50 259

💥 Реализовать вау-фичи и задрайвить рост проекта? Задействуем Machine Learning (ML).Сделать удобнее базовые элементы сервисов? Тоже ML. Технологии машинного обучения — это ответ на все вопросы и must have для тех, кто смотрит в будущее. При поддержке VK на Saint HighLoad++ представлен целый трек докладов на эту тему. Поговорим о том, как на базе ML создавать практичные решения, готовые к большим нагрузкам. Расскажем, как встраивать их в существующие пайплайны и эксплуатировать в продакшене. ✅ Программа ML-трека - https://bit.ly/3qDDMXc 🖐 Встречаемся на Saint HighLoad++ 22 и 23 сентября.