fa
Feedback
Аналитика данных / Data Study

Аналитика данных / Data Study

رفتن به کانال در Telegram

Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных

نمایش بیشتر
9 473
مشترکین
-3124 ساعت
-277 روز
-1930 روز
آرشیو پست ها
Мониторинг качества данных в ETL процессах ETL процессы используются для передачи и преобразования данных между различными источниками данных и целевыми системами. Такие процессы обычно 📍забирают данные с информационных систем 📍преобразуют данные если нужно в процессе 📍загружают данные в единое аналитическое хранилище, а также служат для перегрузки данных по слоям хранилища Правильное функционирование этих процессов оказывает огромное влияние на качество данных. Представьте, что если нарушить механизм сбора, трансформации и загрузки данных, то все может пойти дальше по одному месту) Поэтому перед инженерами данных и аналитиками всегда стоит большая задача - обеспечить мониторинг качества данных. Проверок данных может быть огромное количество, перечислю для примера самые простые для понимания, но не всегда простые по реализации: 1️⃣ Проверка объемов Сколько выгрузили = столько должны загрузить. Это работает, если в процессе у нас не участвуют этапы трансформации в виде фильтрации, либо агрегации. Выгрузили из источника данных 1000 строк и в таком же виде эти 1000 строк переложили в хранилище данных. Если объемы не совпадают - срабатывает алерт, либо специальны мониторинг. 🔎 Алерт (alert) - сигнал, уведомление для человека, что что-то пошло не по плану. 2️⃣ Проверка контрольных сумм Работает тогда, когда в данных есть числовые метрики, например сумма продаж, стоимость продуктов и т.п. Можно считать общую сумму по набору забираемых данных и сравнивать с суммой загруженных по итогу данных в целевую систему. Например, забираем из источника 1100 строк, с общей суммой по столбцу sale_amount = 350к. + стоит правила на фильтрацию данных с заказами, где sale_amount = 0. В итоге загрузили в целевую систему уже только 900 строк (объем был 1100), а по сумме заказов sale_amount = 350к, т.е. все хорошо. Просто в процессе правильно отфильтровались нулевые заказы и даже можно считать сколько таких было. 3️⃣ Частота выгрузки Большая часть процессов работает по расписанию. Например, мы вугружаем данные 1 раз в час. Т.е. каждый час у нас происходит: выгрузка, трансформация, загрузка почки данных. Если в очередной час выгрузка не сработала - это повод для алерта. В зависимости от данных и бизнес-задач существует большое количество проверок, которые могут быть важны в одном кейсе, но совершенно бесполезны в другом. Накидайте реакций, если вам интересна эта тема и стоит еще про нее рассказывать 😉

Уже завтра начинаем заниматься с учениками группы курса 😍 Их 100% результат, который получит каждый из группы 📍через месяц - уверенно работают с данными в базе данных с помощью SQL 📍через 2 месяца - пишут свои скрипты Python для извлечения, трансформации и загрузки данных 📍через 3 месяца - реализуют свой практический проект c помощью SQL, Python, визуализации BI и готовят документацию своего решения И каждый еще в процессе будет искать и находить работу аналитиком 🔥 Желающие еще могут присоединиться к нам 😉 ➡️ Запись в группу Буду рад вас видеть в группе единомышленников! Уже завтра будем общаться с вами и осваивать новые навыки Data Study

Хочу зафиксировать здесь некоторые цели, которые поставил перед собой на 2024 1️⃣ Улучшить свою физическую форму и здоровье Это пожалуй цель топ-1 на этот год. С удаленной работой очень мало подвижности, что сразу сказывается на самочувствии, и как правило отражается в настроении. Ввожу потихоньку домашние тренировки и наращиваю нагрузку постепенно, надеюсь созреть опять на походы в бассейн 2️⃣ Разработать материалы для курса Analytics Engineering (Аналитика данных 2.0) Работы в этом направлении очень много: написать программу обучения, поделить ее на модули/уроки.темы, подготовить материалы презентаций, конспектов, сделать практическую часть обучения, оформить домашние задания... Начну в скором времени закидывать сюда опросы, пройдя которые вы мне поможете определить основные тезисы и блоки программы обучения 3️⃣ Записать онлайн-курс на одну из платформ курсов Это будет отличный опыт формирования курса именно полностью в онлайн форме. Плюсом хочется сделать курс по смежным инструментам, которые важно знать не только аналитикам, но и всем кто работает на IT проектах. Пока мыслей много, но их нужно все формализовать 4️⃣ Дорастить канал до 10 000 подписчиков Канал - это оказалось то место, которое помогает 📍мне донести до вас полезную информацию или просто зафиксировать мысли из головы, а также находить людей под разные цели и задачи 📍вам получить для себя практические материалы, перенять возможно в чем-то мой опыт, ну и также найти единомышленников Спасибо вам, что участвуете в моей жизни таким образом 🔥😉 Вы кстати тоже помогаете развивать канал, если делитесь постами отсюда со своими друзьями, коллегами, знакомыми 😎 Есть еще и другие более личные цели, которые пожалуй сюда писать не буду) Посмотрим через год что из этого будет достигнуто и закрыто и на каком уровне 🚀

Достучаться до истины (часть 2) Вчера поднял тему доверия к данным. Основная причина почему доверия нет - низкое качество данных. Пример: У компании есть сайт, на котором она продает товары покупателям. Компания отслеживает когда покупатель на сайте просматривал карточку товара и нажал на кнопку "В корзину". Считаем конверсию сколько людей просмотрели карточку -> сколько из них положили товар в корзину. Проблема на Frontend (пользовательский интерфейс сайта) Всегда клик по кнопке "В корзину" учитывался корректно, а в один из дней вдруг взяло и перестало считаться. Заметил это бравый разработчик через пару дней и поправил баг. ➡️ Из-за такого инцидента пока ошибка не была устранена - данным в этот период доверять нельзя. Проблема на Backend (логика приложения и база данных) С новым релизом приложения поменялся API метод и принимаемый формат сообщения данных, благодаря которому данные о клике пользователя записываются в базу данных. Из-за скрытого и трудно воспроизводимого бага не заметили проблему и в итоге часть сообщений записывалось в базу успешно, а часть записывалось с дублированием данных, но под разным временем записи события. В итоге: клик клиент сделал один раз - а в базе на этот клик оказалось 2 события Проблема в ETL при передачи из БД в Аналитическое Хранилище Есть поток данных, который каждый день выгружает пачку накопившихся событий о кликах за сутки и записывает это в аналитическое хранилище. Выгрузка идет ночью, чтобы не нагружать системы в рабочее время. И вот представим такое правило: сколько данных в пачке забрали из базы -> столько и должны положить в хранилище (пусть трансформаций никаких не будет). И вот представьте, наступает время выгрузки ночью, запускается процесс, и в это время возникает проблема с внутренней сетью и инструмент просто отваливается и перестает грузить пачку данных. Сбой в одну ночью, через неделю еще сбой, через месяц еще похожая ситуация. Если такие сбои не улавливать и не прогружать части данных после них корректно - в итоге многое можно потерять. Проблема при расчетах на аналитическом слое Здесь не буду усложнять и растягивать. Пусть мы на эту задачу поставили не очень внимательного аналитика, не провалидировали его расчеты и отдали это бизнес-пользователям. А потом через время получили от них ***, потому что цифры с реальностью вообще никак не бьются. Кто виноват? - невнимательный аналитик? - frontend-разработчик? - тестировщики? - backend-разработчик? 📍Каждый конечно отвечает за свою зону ответственности, но как правило чем ближе ты находишься к слою аналитики и видишь перед собой длинный поток данных до тебя, тем больше вероятность того, что тебе и предстоит помогать другим коллегам отлавливать ошибки, баги, сбои и т.д. Здесь прям хочется дать сравнение с рекой . Если кто-то наверху течения кинул мусор в реку, то его увидят все кто стоит ниже по течению. А тому кто выше будет пофиг на это, ведь у него все чисто) Не мусорите ни в природе, ни в потоках данных 😃

Достучаться до истины Отсутствие доверия к данным - одна из проблем в компаниях. Почему нет доверия? Существует список причин
Достучаться до истины Отсутствие доверия к данным - одна из проблем в компаниях. Почему нет доверия? Существует список причин, который так или иначе подрывает доверие к имеющимся данным 📍низкое качество данных 📍потери данных 📍противоречивые данные в разных системах 📍кривые отчеты аналитиков ... Давайте на примере разберем, почему так может происходить. Стандартная поток данных от их генерации до аналитического отчета выглядит так ⤵️ 1️⃣ Ввод данных в UI (пользовательский интерфейс) 2️⃣ Обработка данных на backend и запись в базу данных приложения 3️⃣ Отправка данных в аналитическое хранилище / систему аналитики 4️⃣ Расчеты и построение отчетов, витрин данных 5️⃣ Использование данных для получения инсайтов и отчетности Каждый из этих шагов может иметь ошибки, баги, сбои - все то что приводит к ухудшению или потери данных. P.S. буквально из рабочего чата для вас достал золотые слова на скриншоте. Завтра допишу вторую часть поста с примером где и по каким причинам может упасть качество данных, если на этот пост конечно реакций накидаете 😉

Пока идут праздники, прочитал много статей, материалов про мир криптовалюты и различные проекты. Я придерживаюсь мысли, что и
Пока идут праздники, прочитал много статей, материалов про мир криптовалюты и различные проекты. Я придерживаюсь мысли, что источников дохода должно быть несколько и лучше чтобы они были разнообразными. Дак вот пока читал разные материалы, наткнулся на проект Notcoin. Это телеграмм-бот с геймификацией по заработку (майнингу) монет. Пока механика очень проста - кликаешь по экрану -> получаешь монеты 🪙 Можно прокачивать уровень чтобы получать больше монет 🔝 Можете попробовать сами здесь Проект хайпанул сильно, в будущем возможно будет листинг этих монет на криптобиржах или это превратится во внутреннюю валюты телеграмма, пока никто не знает) Я пока перегружаю голову на выходных решил немного побаловаться 😃

Осталось 3 дня до повышения цены 🎅 Уже 16 января стартуем обучение 8 потока курса "Основы анализа данных", врываемся в новый
+5
Осталось 3 дня до повышения цены 🎅 Уже 16 января стартуем обучение 8 потока курса "Основы анализа данных", врываемся в новый год с обучением и прокачкой своих 🧠🤓 Много вопросов пишите в личку, решил самые популярные из них оформить в виде карточек (смотри картинки к посту). Для желающих пойти получать практические прикладные знания анализа данных - советую не откладывать покупку на следующий год 📍с января цена возрастает до 55. т.р 📈 Сейчас можно забронировать и купить курс за 45 т.р. 🎁

Вчера отработал последний рабочий день в 2023, на конец недели взял 2 day off чтобы не пропали) Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔 Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉

Вчера отработал последний рабочий день в 2023, на конец недели взял 2 day off чтобы не пропали) Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔 Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉

Поддерживаю с учениками общение и они меня не перестают радовать 😃 Влад учился на 6 потоке курса, обучение закончилось в сен
+2
Поддерживаю с учениками общение и они меня не перестают радовать 😃 Влад учился на 6 потоке курса, обучение закончилось в сентябре. Написал мне по техническому вопросу, а разговор зашел в тему трудоустройства, так бы и не узнал что выпускник работает аналитиком в МТС 👍 И за учеников радостно, и нетворк по компаниям увеличивается, везде свои люди есть 😅 Порадуемся за Влада 🔥🔥🔥 P.S. интересно, сколько еще выпускников устроились на работу и не сказали мне об этом?)))

Вакансия Аналитик данных Компания: Market Lab Формат работы: гибрид (Москва) ЗП: от 200 000 до 300 000 руб. на руки 🔹Чем предстоит заниматься: *Созданием математических метрик, матриц мотивации; *Анализом имеющихся данных и постановкой ТЗ для разработки; *Созданием достоверности метрик и контролем за их корректным вычислением. ✅ Что ожидаем: *Уверенный уровень Excel/Google таблиц; *Знание SQL; *Написание ТЗ по формированию метрического пространства; *Умение своими руками сделать расчет метрик, исходя из выгрузок; *Понимание статистических тестов. 💰Мы предлагаем: * Забудь о скучных переговорках! Мы работаем в современном офисе в Москва-Сити; * У нас нет бюрократических заморочек – мы ценим идеи и результат; * У нас нет места для лагов: мы работаем на новых макбуках; *Комфортный рабочий день с 11 до 18, в пятницу до 17, чтобы у тебя было время на отдых; *Ты можешь легко выбрать удобный способ получения ЗП; *Адаптация у нас – это не формальность: помогаем плавно интегрироваться в команду. 📲 Интересно?) Присылай резюме: @a18dima

Знакомые попросили опубликовать вакансию. Кто находится в поиске или кому вакансия покажется интересной, велкам ⤵️

Прошла защита итоговых проектов учеников - ребята сделали очень большую и классную работу 🎉🎉🎉 Темы проектов различны: начи
+1
Прошла защита итоговых проектов учеников - ребята сделали очень большую и классную работу 🎉🎉🎉 Темы проектов различны: начиная от анализа клиентской базы Netflix, анализом эффективности трансферов игроков в футбольных клубах, заканчивая изучением исторических данных по появлению торнадо в США и их тенденцией из года в год Ну и конечно отзывы выпускников, новоиспеченных аналитиков данных 😎

Сегодня начинаю погружаться в новую задачу в рамках проектной активности. И как круто когда уделено много внимания документац
Сегодня начинаю погружаться в новую задачу в рамках проектной активности. И как круто когда уделено много внимания документации. Вот прям все до мелочей рассказано, от описания технической инфраструктуры с пометками куда и как подключаться, до описания модели данных, словаря с описанием каждого столбца в таблице с его бизнес-смыслом 😍 Такая документация однозначно сокращает время на онбординг и вовлечение новых людей на проекте, а также снимает с вас груз ответственности за "клад знаний", которые вы держите в своей голове, отвечаете на 100500 вопросов. Это сэкономит вам и вашей команде уйму времени, а это ценный ресурс ⏳

Позиция аналитика данных В первом уроке рассказываю ⤵️ 1. Что такое аналитика данных 2. В каких компаниях работают аналитики 3. Продуктовые и проектные команды - их различия и сходства 4. Роли в команде data проекта 5. SDLC цикл разработки и как он выглядит при работе на data проекте 6. Примеры задач аналитика на проекте, его роль и взаимодействие с членами команды Ссылка на урок 🎦 Это открытый доступ к первому уроку курса «Основы анализа данных». У вас есть выбор) 📍записаться в группу на полное наставничество (45 тыс.) 📍или записаться на онлайн тариф по супер низкой цене и получить доступ ко всем материалам уже сейчас 🎁 (25 тыс.) P.S. текущая цена действует до конца декабря, залетающие в последний вагон платят всегда больше) Пойти учиться

Erid:LjN8JuJ5G Разбираем тестовое задание в СБЕР на позицию junior-аналитика 📣 Всем привет! Команда Simulative и наш CEO – Андрон Алексанян приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание на позицию junior-аналитика в компанию СБЕР. Это будет последний обучающий интенсив в этом году. Нам предстоит проанализировать историю договоров клиентов банка, провести аналитику и сформулировать бизнес-выводы. 📅 Дата: 26 декабря 🕘 Время: 19:00 по Мск Что будем делать на интенсиве: ➖ Решать задания с помощью SQL ➖ Писать хитрые запросы на SCD, pivot table и другие ➖ Подробно разбирать каждый шаг ➖ Считать retention банка и проводить сегментацию ➖ Проводить аналитику и составлять бизнес-выводы В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩 ❗️ Записи интенсива не будет. Только один раз и только в live-формате. А вы готовы бустануть свои знания и скиллы в аналитике? 🔗 Регистрируйтесь на интенсив Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134

Достижения 2023 года Год был насыщен разными событиями. Хочу зафиксировать для себя и для вас основные из них в этом посте: 📍Выступление на конференции "Big Analytics" с докладом Документация на Data проекте 📍Разработан модуль по SQL и записан в онлайн-уроках для школы Data Diving и Томского Гос. Университета 📍Проведены 2 потока личного курса "Основы анализа данных" и 1 поток "Бизнес-анализ в IT". 50+ выпускников за этот год 🔥 📍Закончил и защитил магистерский диплом по программе НИУ ВШЭ "Бизнес-аналитика и системы больших данных" 📍Личное менторство 7 учеников в течение года, 4 из них уже нашли работу аналитиком + записали Моковое интервью на BI аналитика 📍Проведены 3 потока модуля SQL в школе Mathshub в качестве преподавателя 📍Успешно выполнен проект на фрилансе по анализу недвижимости в Испании, еще несколько проектов в процессе работы 📍Поменял место работы 😊 Часть личных активностей остается за рамками данного канала и публикуется в других соц. сетях) Есть сферы жизни, где сильно просел, потому что ресурсов и фокуса внимания не хватает на все. Буду нагонять в следующем году 😉

Пересматриваю материалы, которые готовил когда-то для презентаций курса. Подумал, почему бы не поделиться полезной схемой зде
Пересматриваю материалы, которые готовил когда-то для презентаций курса. Подумал, почему бы не поделиться полезной схемой здесь) Схема классификации данных

Как начать работать в иностранной компании аналитиком после обучения Хочу рассказать вам историю Екатерины - ученицы 6-го пот
+2
Как начать работать в иностранной компании аналитиком после обучения Хочу рассказать вам историю Екатерины - ученицы 6-го потока курса Data Study "Основы анализа данных". Их обучение закончилось в сентябре этого года. Точка А, с которой началось обучение: 📍Екатерина не имела представления об инструментах работы с данными Точка Б, куда Екатерина пришла сейчас: 📍Работа в крупной иностранной аутсорс-компании на позиции data analyst Как выглядел путь ⤵️ 1️⃣ Изучен SQL и работа с базами данных Как ни крути, но это база, без которой никуда. SQL - самый востребованный навык для работы с данными 2️⃣ Научились работать с данными с помощью Python Python является основным языком программирования для задач сферы Data Analysis/Engineering. Вы можете не столкнуться с ним на стажировке или на своей первой работе, но при дальнейшем развитии в сфере вам он будет встречаться все чаще 3️⃣ Визуализация данных и BI инструменты Бизнес-заказчики как правило работают с данными на уровне визуальных интерактивных отчетов (дашбордов), поэтому визуализировать данные - must have для аналитика В конце курса Екатерина защитила итоговый проект, который был по теме анализа авиаперевозок в России. При выполнении проекта как раз применяются все изученные инструменты и закрепляются еще раз на практике. - Python для извлечения и обработки, отчистки данных - SQL для расчета необходимых метрик - BI для построения интерактивного отчета с результатами анализа Как итог, в конце курса у Кати есть готовое портфолио с проектом и практические навыки. Она успешно с отличной обратной связью прошла собеседование, тестовое задание и получила оффер в компанию 🎉🎉🎉 Порадуемся вместе за Катю и других выпускников, кто успешно применяет полученные знания в своих рабочих задачах 🔥😃

Недавно прилетело несколько интересных предложений по фриланс-проектам За все браться не могу, часть запросов отсеиваются, потому что есть 📍основная работа 📍курс и работа с учениками 📍другой интересный фриланс-проект, на котором работаю с сентября Расскажу про последние запросы 1️⃣ Построение сквозной аналитики компании на основе данных CRM Основной запрос - построение слоя аналитической отчетности в виде дашборда. Данные уже есть, нужно изучить, правильно рассчитать метрики, очистить при необходимости и визуализировать в виде дашборда 2️⃣ Продукт по оценке эффективности контента соц. сети по привлечению подписчиков Есть соц. сеть и разного плана контент: посты, сторис и т.п. Сервис собирает статистику и на ее основе подсвечивает какой именно контент привлек подписчиков и в каком объеме. Пайплайн по сбору данных и сам аналитический расчет есть. Сейчас стоит задача в правильной и user friendly визуализации выводов, которые отдает аналитический сервис На самом деле предложений по проектам на частичную занятость прилетает довольно много, но на все не хватает личных рук и ресурсов. Поэтому подключаю своих учеников на задачки, на текущий проект позвал Данилу - ученика с текущего потока 😃 На рынке аналитики много работы и есть выраженный дефицит классных специалистов, руководители и HR-ы компаний не дадут соврать) Поэтому самое время осваивать новые навыки и сразу применять их на реальных проектах ➡️ Data Study "Основы анализа данных" Сегодня написала ученица прошлого потока курса, тот поток закончился в сентябре. Сейчас она уже работает в международной IT-компании и создает собственные дашборды в Tableau, как-нибудь покажу вам ее большой отзыв об учебе и как она за неделю после получения сертификата прошла на стажировку, а потом на постоянную позицию 🔥😃 P.S. как в поговорке говорится: "Везёт тому кто везёт"