Аналитика данных / Data Study
Open in Telegram
Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных max-8fjb
Show more9 503
Subscribers
+224 hours
+107 days
+630 days
Posts Archive
Начинаю трансляцию через пару минут
Вопросы можно писать в чате трансляции или в группе для вебинаров
Ссылка на трансляцию
Начинаю трансляцию через пару минут
Вопросы можно писать в чате трансляции или в группе для вебинаров
Ссылка на трансляцию
Сегодня проведу практический стрим в 19:00
🔹Попишем код на SQL и Python, чтобы отправлять аналитическую сводку в телеграм на ежедневной основе
🔹Отвечу на ваши вопросы в процессе практики
🔹Обсудим что должен уметь аналитик-инженер
🔹Покажу внутреннюю структуру курса по разработке витрин данных и ETL автоматизации
🔹Расскажу кому обучение будет полезным а кому просто не подойдет
Ссылка на трансляцию
По какой логике создавать DAGи и делить их между собой?
На практике без опыта может возникнуть желание объединить все процессы обновления данных в рамках одного DAG, чтобы не плодить множество разных.
Но если копнуть глубже, то к задаче формирования DAG нужно подходить внимательно
1. Каждый DAG имеет свое расписание запуска. Если нужно разное расписание или частота запуска, тогда нужны разные DAGи
2. Объединение множества задач в один DAG может быть критичным, когда нам например нужно чтобы часть задач из него не выполнялась, а остальные продолжали работать. Так сделать не получится, только переписывать DAG
3. В рамках задач обновления данных в витринах удобно создавать отдельные DAG с разным расписанием запуска, чтобы равномерно распределять нагрузку на кластер DWH, чтобы не было пиковых нагрузок в один момент времени
#вопрос_от_ученика
Мужчины, с праздником!
Желаю вам здоровья, уверенности в себе и своих действиях. Достигайте новых вершин в карьере, будьте добытчиком лучших ресурсов для своей семьи. Острый ум и высокий интеллект - ваше лучшее украшение и вложение в себя.
Пусть в ваших семьях всегда будет мир и согласие, а в доме будет уютно, тепло и спокойно.
▶️ 25 февраля проведу практический стрим, на котором построим операционный отчет по продажам с отправкой в телеграм
С помощью SQL и Python автоматизируем сбор и отправку ежедневного отчета с метриками по продажам в телеграм
Что обсудим:
- функциональное программирование на Python
- напишем SQL запрос для сбора метрик
- напишем python функции для извлечения данных из базы и отправки сообщения в телеграм
- посмотрим как автоматизировать это все через Airflow
Начало в 19:00, ссылку пришлю здесь 25 числа
Запись будет, но участника в онлайне дам бонус 😎
🔥 кто будет в онлайне или смотреть в записи
Запись моего выступления с недавней конференции
Тема «Как мы строили единый CJM клиента компании, когда каждый продукт имеет свою воронку»
Топ вакансий на аналитика-инженера с интересными задачами
BI/ Data Engineer (SQL, Airflow) - 250+ тыс.
Ключевой навык: Отличное знание SQL и опыт написания сложных запросов
Full Stack Data (engineer + analyst) - 220 тыс. на руки
Ключевой навык: уверенное знание SQL, понимание нормализации, опыт разработки витрин.
70% времени занимает аналитика, 30% разработка
Middle+/Senior Data-аналитик - 200-300 тыс.
Ключевые навыки: продвинутый SQL, опыт построения аналитических витрин,навыки работы в BI инструментах, опыт с ETL инструментами
Data-аналитик - 260-320 тыс. на руки
Ключевые навыки: опыт работы с ETL-процессами (описание, мониторинг, разработка), написание сложных SQL запросов для витрин данных
Data Analyst - 200 тыс. на руки
Ключевой навык: опыт подготовки системных требований формата source to target, уверенное владение SQL, разработка систем обработки данных на базе DWH и ETL
Кайфую от таких вакансий, потому что сам работаю на стыке аналитика и инженера данных и вижу что такое ценится на рынке и востребовано судя по кол-ву открытых вакансий
Сейчас на курсе идёт 1-й практический спринт
1️⃣ Ученик разрабатывает логику сборки и обработки данных в хранилище на SQL, проверяет качество данных, считает нужные метрики. Важно, чтобы витрина соответствовала техническому заданию и данные в ней были верные и качественные.
2️⃣ Когда логика сбора данных готова, начинаем реализовывать автоматическую загрузку данных с помощью Airflow или Cloud Functions.
Можно сделать частичную или полную загрузку, создать таблицу или мат. представление.
При этом нужно учесть нюансы применения витрины из задания
- частота обновления и использования витрины
- количество источников и их тип загрузки и частоту обновления
И многое другое, о чем рассказано в уроках
Приглашаю тебя на бесплатный индивидуальный созвон
🔹обсудим твой опыт в аналитике и чего ты хочешь дальше
🔹найдем шаги развития в профессии конкретно для тебя
🔹покажу материалы обучения "Продвинутый SQL и автоматизация витрин данных"
🔹отвечу на любые вопросы в сфере аналитики/инженерии, обучения и карьеры
Записаться на бесплатную консультацию
В работе нравится использовать ИИ помощников для ускорения разработки и анализа
Закрываю ИИ 2 задачи
1. Задать вопросы по документации или помочь исправить ошибку в коде. Для этого подходит любой ИИ-чат
2. Автодополнение кода. Использую когда пишу на Python, очень помогает ускорить работу, т.к. инструменты могут и просто строку дописывать или целые код-блоки
Вот для второй задачи есть бесплатно классное расширение - Kodacode
Использую его в VS Code, в документации все написано про установку и быстрый старт 🎹
С масленицей!
Весна в Москве пока не ожидается, опять все замело. Но не забываем себя радовать вкусными блинами)
Мой личный топ
1. незаменимая классика со сгущенкой
2. начинка из красной рыбы и творожного сыра, это максимально вкусно
3. блины с творогом и сметаной
4. блины из гречневой муки со сметаной. если не пробовали, очень рекомендую
5. если где-то заказываю, то ветчина/сыр или курица в сливочном соусе
пока писал пост от мыслей проголодался 😄
Операторы в Apache Airflow
Для создания логики задач в Apache Airflow удобно использовать различные операторы. Это как готовая логика, в которую только передаешь нужные параметры на вход.
Например:
PythonOperator - используется для вызова python функций
SQLExecuteQueryOperator - используется для вызова SQL запросы к базе данных по указанному соединению
BashOperator - вызов команд терминала на Bash
EmailOperator - для формирования и отправки писем на электронную почту
Мы работаем с PythonOperator как самым часто применяемым в компаниях. Это дает максимальную гибкость в формировании логики задачи с помощью Python кода, в котором можно если нужно и SQL вызвать, и API запрос сделать, и на email письмо отправить. А что еще важней правильно сделать обработку ошибок, логирование и повторные попытки вызовов если необходимо.
#вопрос_от_ученикаОптимизируем SQL запросы
Кейс: использование подзапросов в джойнах
обычно такое встречается, когда хотят соединить таблицу только на определенную выборку данных из другой таблицы
Как переписать более оптимально: напиши обычный join, при этом добавь нужное условие соединения в on
Избавляйтесь от подзапросов в джойнах когда это возможно. Эффективней будет дописать условие соединения, чем вызывать подзапрос
--так не делай
SELECT *
FROM customer_reg r
LEFT JOIN (SELECT * FROM customer_auth WHERE rn_first = 1) af
ON r.customer_id = af.customer_id
LEFT JOIN (SELECT * FROM customer_auth WHERE rn_last = 1) al
ON r.customer_id = al.customer_id
;
--делай так
SELECT *
FROM customer_reg r
LEFT JOIN customer_auth af
ON r.customer_id = af.customer_id
AND af.rn_first = 1
LEFT JOIN customer_auth al
ON r.customer_id = al.customer_id
AND al.rn_last = 1У нас в группе обучения собрались очень классные специалисты из разных компаний, разным опытом и сферой деятельности. Очень ценно, что у каждого есть своя цель в обучении:
🎯 научиться оптимизировать SQL запросы
🎯 освоить автоматизацию через Airflow
🎯 самостоятельно разрабатывать витрину, не только ставить ТЗ инженерам
🎯 усилить знания и практику чтобы сменить работу
Все это максимально достижимо, стоит лишь выделить свой ресурс времени на 1.5 месяца и впитывать как губка все материалы и практику
Подробно про обучение
➡️ предзапись в группу через созвон со мной
Книги по SQL
📗 SQL: быстрое погружение / Уолтер Шилдс
📗 SQL. Сборник рецептов / Энтони Молинаро, Роберт де Грааф
📗 Изучаем SQL / Алан Бьюли
📗 SQL для чайников / Аллен Тейлор
Книги конечно хорошо, но потом наступает этап когда нужно закреплять и усиливать свои знания на практических задачах, а не в симуляторе или в теории. А если нет опыта или возможности сразу брать задачи на работе, то максимально приближенные к рабочим условия создал на курсе по продвинутому SQL - старт 2 марта
Завтра выступаю на конференции c докладом
Расскажу чем занимались в компании прошлый год в рамках клиентской аналитики, приходите послушать в 14:00
- определение клиентского статуса в зависимости от целевого действия
- атрибуция клиента на уровне компании и отдельных продуктов
- техническая реализация единой аналитической витрины клиентских продуктовых действий
Регистрация
Available now! Telegram Research 2025 — the year's key insights 
