Аналитика данных / Data Study
Открыть в Telegram
Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных
Больше9 473
Подписчики
-3124 часа
-277 дней
-1930 день
Архив постов
Мониторинг качества данных в ETL процессах
ETL процессы используются для передачи и преобразования данных между различными источниками данных и целевыми системами. Такие процессы обычно
📍забирают данные с информационных систем
📍преобразуют данные если нужно в процессе
📍загружают данные в единое аналитическое хранилище, а также служат для перегрузки данных по слоям хранилища
Правильное функционирование этих процессов оказывает огромное влияние на качество данных. Представьте, что если нарушить механизм сбора, трансформации и загрузки данных, то все может пойти дальше по одному месту)
Поэтому перед инженерами данных и аналитиками всегда стоит большая задача - обеспечить мониторинг качества данных.
Проверок данных может быть огромное количество, перечислю для примера самые простые для понимания, но не всегда простые по реализации:
1️⃣ Проверка объемов
Сколько выгрузили = столько должны загрузить. Это работает, если в процессе у нас не участвуют этапы трансформации в виде фильтрации, либо агрегации. Выгрузили из источника данных 1000 строк и в таком же виде эти 1000 строк переложили в хранилище данных.
Если объемы не совпадают - срабатывает алерт, либо специальны мониторинг.
🔎 Алерт (alert) - сигнал, уведомление для человека, что что-то пошло не по плану.
2️⃣ Проверка контрольных сумм
Работает тогда, когда в данных есть числовые метрики, например сумма продаж, стоимость продуктов и т.п.
Можно считать общую сумму по набору забираемых данных и сравнивать с суммой загруженных по итогу данных в целевую систему. Например, забираем из источника 1100 строк, с общей суммой по столбцу sale_amount = 350к. + стоит правила на фильтрацию данных с заказами, где sale_amount = 0. В итоге загрузили в целевую систему уже только 900 строк (объем был 1100), а по сумме заказов sale_amount = 350к, т.е. все хорошо. Просто в процессе правильно отфильтровались нулевые заказы и даже можно считать сколько таких было.
3️⃣ Частота выгрузки
Большая часть процессов работает по расписанию. Например, мы вугружаем данные 1 раз в час.
Т.е. каждый час у нас происходит: выгрузка, трансформация, загрузка почки данных.
Если в очередной час выгрузка не сработала - это повод для алерта.
В зависимости от данных и бизнес-задач существует большое количество проверок, которые могут быть важны в одном кейсе, но совершенно бесполезны в другом.
Накидайте реакций, если вам интересна эта тема и стоит еще про нее рассказывать 😉
Уже завтра начинаем заниматься с учениками группы курса 😍
Их 100% результат, который получит каждый из группы
📍через месяц - уверенно работают с данными в базе данных с помощью SQL
📍через 2 месяца - пишут свои скрипты Python для извлечения, трансформации и загрузки данных
📍через 3 месяца - реализуют свой практический проект c помощью SQL, Python, визуализации BI и готовят документацию своего решения
И каждый еще в процессе будет искать и находить работу аналитиком 🔥
Желающие еще могут присоединиться к нам 😉 ➡️ Запись в группу
Буду рад вас видеть в группе единомышленников! Уже завтра будем общаться с вами и осваивать новые навыки
Data Study
Хочу зафиксировать здесь некоторые цели, которые поставил перед собой на 2024
1️⃣ Улучшить свою физическую форму и здоровье
Это пожалуй цель топ-1 на этот год. С удаленной работой очень мало подвижности, что сразу сказывается на самочувствии, и как правило отражается в настроении. Ввожу потихоньку домашние тренировки и наращиваю нагрузку постепенно, надеюсь созреть опять на походы в бассейн
2️⃣ Разработать материалы для курса Analytics Engineering (Аналитика данных 2.0)
Работы в этом направлении очень много: написать программу обучения, поделить ее на модули/уроки.темы, подготовить материалы презентаций, конспектов, сделать практическую часть обучения, оформить домашние задания... Начну в скором времени закидывать сюда опросы, пройдя которые вы мне поможете определить основные тезисы и блоки программы обучения
3️⃣ Записать онлайн-курс на одну из платформ курсов
Это будет отличный опыт формирования курса именно полностью в онлайн форме. Плюсом хочется сделать курс по смежным инструментам, которые важно знать не только аналитикам, но и всем кто работает на IT проектах. Пока мыслей много, но их нужно все формализовать
4️⃣ Дорастить канал до 10 000 подписчиков
Канал - это оказалось то место, которое помогает
📍мне донести до вас полезную информацию или просто зафиксировать мысли из головы, а также находить людей под разные цели и задачи
📍вам получить для себя практические материалы, перенять возможно в чем-то мой опыт, ну и также найти единомышленников
Спасибо вам, что участвуете в моей жизни таким образом 🔥😉
Вы кстати тоже помогаете развивать канал, если делитесь постами отсюда со своими друзьями, коллегами, знакомыми 😎
Есть еще и другие более личные цели, которые пожалуй сюда писать не буду) Посмотрим через год что из этого будет достигнуто и закрыто и на каком уровне 🚀
Достучаться до истины (часть 2)
Вчера поднял тему доверия к данным. Основная причина почему доверия нет - низкое качество данных.
Пример:
У компании есть сайт, на котором она продает товары покупателям. Компания отслеживает когда покупатель на сайте просматривал карточку товара и нажал на кнопку "В корзину". Считаем конверсию сколько людей просмотрели карточку -> сколько из них положили товар в корзину.
Проблема на Frontend (пользовательский интерфейс сайта)
Всегда клик по кнопке "В корзину" учитывался корректно, а в один из дней вдруг взяло и перестало считаться. Заметил это бравый разработчик через пару дней и поправил баг.
➡️ Из-за такого инцидента пока ошибка не была устранена - данным в этот период доверять нельзя.
Проблема на Backend (логика приложения и база данных)
С новым релизом приложения поменялся API метод и принимаемый формат сообщения данных, благодаря которому данные о клике пользователя записываются в базу данных. Из-за скрытого и трудно воспроизводимого бага не заметили проблему и в итоге часть сообщений записывалось в базу успешно, а часть записывалось с дублированием данных, но под разным временем записи события. В итоге: клик клиент сделал один раз - а в базе на этот клик оказалось 2 события
Проблема в ETL при передачи из БД в Аналитическое Хранилище
Есть поток данных, который каждый день выгружает пачку накопившихся событий о кликах за сутки и записывает это в аналитическое хранилище. Выгрузка идет ночью, чтобы не нагружать системы в рабочее время. И вот представим такое правило: сколько данных в пачке забрали из базы -> столько и должны положить в хранилище (пусть трансформаций никаких не будет).
И вот представьте, наступает время выгрузки ночью, запускается процесс, и в это время возникает проблема с внутренней сетью и инструмент просто отваливается и перестает грузить пачку данных. Сбой в одну ночью, через неделю еще сбой, через месяц еще похожая ситуация. Если такие сбои не улавливать и не прогружать части данных после них корректно - в итоге многое можно потерять.
Проблема при расчетах на аналитическом слое
Здесь не буду усложнять и растягивать. Пусть мы на эту задачу поставили не очень внимательного аналитика, не провалидировали его расчеты и отдали это бизнес-пользователям. А потом через время получили от них ***, потому что цифры с реальностью вообще никак не бьются.
Кто виноват?
- невнимательный аналитик?
- frontend-разработчик?
- тестировщики?
- backend-разработчик?
📍Каждый конечно отвечает за свою зону ответственности, но как правило чем ближе ты находишься к слою аналитики и видишь перед собой длинный поток данных до тебя, тем больше вероятность того, что тебе и предстоит помогать другим коллегам отлавливать ошибки, баги, сбои и т.д.
Здесь прям хочется дать сравнение с рекой . Если кто-то наверху течения кинул мусор в реку, то его увидят все кто стоит ниже по течению. А тому кто выше будет пофиг на это, ведь у него все чисто)
Не мусорите ни в природе, ни в потоках данных 😃
Достучаться до истины
Отсутствие доверия к данным - одна из проблем в компаниях.
Почему нет доверия?
Существует список причин, который так или иначе подрывает доверие к имеющимся данным
📍низкое качество данных
📍потери данных
📍противоречивые данные в разных системах
📍кривые отчеты аналитиков
...
Давайте на примере разберем, почему так может происходить.
Стандартная поток данных от их генерации до аналитического отчета выглядит так ⤵️
1️⃣ Ввод данных в UI (пользовательский интерфейс)
2️⃣ Обработка данных на backend и запись в базу данных приложения
3️⃣ Отправка данных в аналитическое хранилище / систему аналитики
4️⃣ Расчеты и построение отчетов, витрин данных
5️⃣ Использование данных для получения инсайтов и отчетности
Каждый из этих шагов может иметь ошибки, баги, сбои - все то что приводит к ухудшению или потери данных.
P.S. буквально из рабочего чата для вас достал золотые слова на скриншоте.
Завтра допишу вторую часть поста с примером где и по каким причинам может упасть качество данных, если на этот пост конечно реакций накидаете 😉
Пока идут праздники, прочитал много статей, материалов про мир криптовалюты и различные проекты. Я придерживаюсь мысли, что источников дохода должно быть несколько и лучше чтобы они были разнообразными.
Дак вот пока читал разные материалы, наткнулся на проект Notcoin. Это телеграмм-бот с геймификацией по заработку (майнингу) монет. Пока механика очень проста - кликаешь по экрану -> получаешь монеты 🪙
Можно прокачивать уровень чтобы получать больше монет 🔝
Можете попробовать сами здесь
Проект хайпанул сильно, в будущем возможно будет листинг этих монет на криптобиржах или это превратится во внутреннюю валюты телеграмма, пока никто не знает)
Я пока перегружаю голову на выходных решил немного побаловаться 😃
Осталось 3 дня до повышения цены 🎅
Уже 16 января стартуем обучение 8 потока курса "Основы анализа данных", врываемся в новый год с обучением и прокачкой своих 🧠🤓
Много вопросов пишите в личку, решил самые популярные из них оформить в виде карточек (смотри картинки к посту).
Для желающих пойти получать практические прикладные знания анализа данных - советую не откладывать покупку на следующий год
📍с января цена возрастает до 55. т.р 📈
Сейчас можно забронировать и купить курс за 45 т.р. 🎁
Вчера отработал последний рабочий день в 2023, на конец недели взял 2 day off чтобы не пропали)
Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔
Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉
Вчера отработал последний рабочий день в 2023, на конец недели взял 2 day off чтобы не пропали)
Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔
Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉
Поддерживаю с учениками общение и они меня не перестают радовать 😃
Влад учился на 6 потоке курса, обучение закончилось в сентябре. Написал мне по техническому вопросу, а разговор зашел в тему трудоустройства, так бы и не узнал что выпускник работает аналитиком в МТС 👍
И за учеников радостно, и нетворк по компаниям увеличивается, везде свои люди есть 😅
Порадуемся за Влада 🔥🔥🔥
P.S. интересно, сколько еще выпускников устроились на работу и не сказали мне об этом?)))
Вакансия Аналитик данных
Компания: Market Lab
Формат работы: гибрид (Москва)
ЗП: от 200 000 до 300 000 руб. на руки
🔹Чем предстоит заниматься:
*Созданием математических метрик, матриц мотивации;
*Анализом имеющихся данных и постановкой ТЗ для разработки;
*Созданием достоверности метрик и контролем за их корректным вычислением.
✅ Что ожидаем:
*Уверенный уровень Excel/Google таблиц;
*Знание SQL;
*Написание ТЗ по формированию метрического пространства;
*Умение своими руками сделать расчет метрик, исходя из выгрузок;
*Понимание статистических тестов.
💰Мы предлагаем:
* Забудь о скучных переговорках! Мы работаем в современном офисе в Москва-Сити;
* У нас нет бюрократических заморочек – мы ценим идеи и результат;
* У нас нет места для лагов: мы работаем на новых макбуках;
*Комфортный рабочий день с 11 до 18, в пятницу до 17, чтобы у тебя было время на отдых;
*Ты можешь легко выбрать удобный способ получения ЗП;
*Адаптация у нас – это не формальность: помогаем плавно интегрироваться в команду.
📲 Интересно?) Присылай резюме: @a18dima
Знакомые попросили опубликовать вакансию. Кто находится в поиске или кому вакансия покажется интересной, велкам ⤵️
Прошла защита итоговых проектов учеников - ребята сделали очень большую и классную работу 🎉🎉🎉
Темы проектов различны: начиная от анализа клиентской базы Netflix, анализом эффективности трансферов игроков в футбольных клубах, заканчивая изучением исторических данных по появлению торнадо в США и их тенденцией из года в год
Ну и конечно отзывы выпускников, новоиспеченных аналитиков данных 😎
Сегодня начинаю погружаться в новую задачу в рамках проектной активности. И как круто когда уделено много внимания документации. Вот прям все до мелочей рассказано, от описания технической инфраструктуры с пометками куда и как подключаться, до описания модели данных, словаря с описанием каждого столбца в таблице с его бизнес-смыслом 😍
Такая документация однозначно сокращает время на онбординг и вовлечение новых людей на проекте, а также снимает с вас груз ответственности за "клад знаний", которые вы держите в своей голове, отвечаете на 100500 вопросов. Это сэкономит вам и вашей команде уйму времени, а это ценный ресурс ⏳
Позиция аналитика данных
В первом уроке рассказываю ⤵️
1. Что такое аналитика данных
2. В каких компаниях работают аналитики
3. Продуктовые и проектные команды - их различия и сходства
4. Роли в команде data проекта
5. SDLC цикл разработки и как он выглядит при работе на data проекте
6. Примеры задач аналитика на проекте, его роль и взаимодействие с членами команды
Ссылка на урок 🎦
Это открытый доступ к первому уроку курса «Основы анализа данных».
У вас есть выбор)
📍записаться в группу на полное наставничество (45 тыс.)
📍или записаться на онлайн тариф по супер низкой цене и получить доступ ко всем материалам уже сейчас 🎁 (25 тыс.)
P.S. текущая цена действует до конца декабря, залетающие в последний вагон платят всегда больше)
Пойти учиться
Erid:LjN8JuJ5G
Разбираем тестовое задание в СБЕР на позицию junior-аналитика
📣 Всем привет! Команда Simulative и наш CEO – Андрон Алексанян приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание на позицию junior-аналитика в компанию СБЕР. Это будет последний обучающий интенсив в этом году.
Нам предстоит проанализировать историю договоров клиентов банка, провести аналитику и сформулировать бизнес-выводы.
📅 Дата: 26 декабря
🕘 Время: 19:00 по Мск
Что будем делать на интенсиве:
➖ Решать задания с помощью SQL
➖ Писать хитрые запросы на SCD, pivot table и другие
➖ Подробно разбирать каждый шаг
➖ Считать retention банка и проводить сегментацию
➖ Проводить аналитику и составлять бизнес-выводы
В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩
❗️ Записи интенсива не будет. Только один раз и только в live-формате.
А вы готовы бустануть свои знания и скиллы в аналитике?
🔗 Регистрируйтесь на интенсив
Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134
Достижения 2023 года
Год был насыщен разными событиями. Хочу зафиксировать для себя и для вас основные из них в этом посте:
📍Выступление на конференции "Big Analytics" с докладом Документация на Data проекте
📍Разработан модуль по SQL и записан в онлайн-уроках для школы Data Diving и Томского Гос. Университета
📍Проведены 2 потока личного курса "Основы анализа данных" и 1 поток "Бизнес-анализ в IT". 50+ выпускников за этот год 🔥
📍Закончил и защитил магистерский диплом по программе НИУ ВШЭ "Бизнес-аналитика и системы больших данных"
📍Личное менторство 7 учеников в течение года, 4 из них уже нашли работу аналитиком + записали Моковое интервью на BI аналитика
📍Проведены 3 потока модуля SQL в школе Mathshub в качестве преподавателя
📍Успешно выполнен проект на фрилансе по анализу недвижимости в Испании, еще несколько проектов в процессе работы
📍Поменял место работы 😊
Часть личных активностей остается за рамками данного канала и публикуется в других соц. сетях)
Есть сферы жизни, где сильно просел, потому что ресурсов и фокуса внимания не хватает на все. Буду нагонять в следующем году 😉
Пересматриваю материалы, которые готовил когда-то для презентаций курса. Подумал, почему бы не поделиться полезной схемой здесь)
Схема классификации данных
Как начать работать в иностранной компании аналитиком после обучения
Хочу рассказать вам историю Екатерины - ученицы 6-го потока курса Data Study "Основы анализа данных". Их обучение закончилось в сентябре этого года.
Точка А, с которой началось обучение:
📍Екатерина не имела представления об инструментах работы с данными
Точка Б, куда Екатерина пришла сейчас:
📍Работа в крупной иностранной аутсорс-компании на позиции data analyst
Как выглядел путь ⤵️
1️⃣ Изучен SQL и работа с базами данных
Как ни крути, но это база, без которой никуда. SQL - самый востребованный навык для работы с данными
2️⃣ Научились работать с данными с помощью Python
Python является основным языком программирования для задач сферы Data Analysis/Engineering. Вы можете не столкнуться с ним на стажировке или на своей первой работе, но при дальнейшем развитии в сфере вам он будет встречаться все чаще
3️⃣ Визуализация данных и BI инструменты
Бизнес-заказчики как правило работают с данными на уровне визуальных интерактивных отчетов (дашбордов), поэтому визуализировать данные - must have для аналитика
В конце курса Екатерина защитила итоговый проект, который был по теме анализа авиаперевозок в России. При выполнении проекта как раз применяются все изученные инструменты и закрепляются еще раз на практике.
- Python для извлечения и обработки, отчистки данных
- SQL для расчета необходимых метрик
- BI для построения интерактивного отчета с результатами анализа
Как итог, в конце курса у Кати есть готовое портфолио с проектом и практические навыки. Она успешно с отличной обратной связью прошла собеседование, тестовое задание и получила оффер в компанию 🎉🎉🎉
Порадуемся вместе за Катю и других выпускников, кто успешно применяет полученные знания в своих рабочих задачах 🔥😃
Недавно прилетело несколько интересных предложений по фриланс-проектам
За все браться не могу, часть запросов отсеиваются, потому что есть
📍основная работа
📍курс и работа с учениками
📍другой интересный фриланс-проект, на котором работаю с сентября
Расскажу про последние запросы
1️⃣ Построение сквозной аналитики компании на основе данных CRM
Основной запрос - построение слоя аналитической отчетности в виде дашборда. Данные уже есть, нужно изучить, правильно рассчитать метрики, очистить при необходимости и визуализировать в виде дашборда
2️⃣ Продукт по оценке эффективности контента соц. сети по привлечению подписчиков
Есть соц. сеть и разного плана контент: посты, сторис и т.п. Сервис собирает статистику и на ее основе подсвечивает какой именно контент привлек подписчиков и в каком объеме.
Пайплайн по сбору данных и сам аналитический расчет есть. Сейчас стоит задача в правильной и user friendly визуализации выводов, которые отдает аналитический сервис
На самом деле предложений по проектам на частичную занятость прилетает довольно много, но на все не хватает личных рук и ресурсов. Поэтому подключаю своих учеников на задачки, на текущий проект позвал Данилу - ученика с текущего потока 😃
На рынке аналитики много работы и есть выраженный дефицит классных специалистов, руководители и HR-ы компаний не дадут соврать)
Поэтому самое время осваивать новые навыки и сразу применять их на реальных проектах
➡️ Data Study "Основы анализа данных"
Сегодня написала ученица прошлого потока курса, тот поток закончился в сентябре. Сейчас она уже работает в международной IT-компании и создает собственные дашборды в Tableau, как-нибудь покажу вам ее большой отзыв об учебе и как она за неделю после получения сертификата прошла на стажировку, а потом на постоянную позицию 🔥😃
P.S. как в поговорке говорится: "Везёт тому кто везёт"
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
