uk
Feedback
Аналитика данных / Data Study

Аналитика данных / Data Study

Відкрити в Telegram

Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных

Показати більше
9 473
Підписники
-3124 години
-277 днів
-1930 день
Архів дописів
🔍 ETL с помощью SQL: Инкрементальная загрузка с обновлением данных🔍 ✨ В предыдущем посте мы разобрали инкрементальную загрузку с сохранением всей историчности данных. Давайте разберем загрузку инкремента, чтобы в target таблицы оставались только актуальные значения данных, т.е. исторические значение перезаписывались актуальными. Ключевые этапах этого процесса будут следующие: 1️⃣ Определение инкремента данных Пример выделения инкремента из таблицы source по условию, что поле update_date имеет сегодняшнюю дату
SELECT *
FROM source s
WHERE update_date = CURRENT_DATE()


Лучше нам результат запроса сохранить в промежуточную временную таблицу.

CREATE TEMPORARY TABLE tmp_increment AS 
SELECT *
FROM source s
WHERE update_date = CURRENT_DATE()

2️⃣ Вставка инкремента в target таблицу с актуализацией значений данных (перезапись) Выполняем в 2 шага: 1) Удаляем данные из target, которые есть во временной таблице по уникальному идентификатору записи (например, id). Это удалит нам записи, которые нужно обновить
DELETE FROM target
WHERE id IN (SELECT id 
FROM tmp_increment);

2) Вставляем инкремент с актуальными записями из временной таблицы tmp_increment в target

INSERT INTO target
SELECT *
FROM tmp_increment;
     
Таким образом в target таблицы будут добавлять новые записи и перезаписываться обновленные актуальные записи из source в target Оставляйте реакции, если пост был полезен 😉

Вакансия Продуктовый аналитик Это одна из важных ролей в команде. Твои результаты исследований и анализа данных экспериментов
Вакансия Продуктовый аналитик Это одна из важных ролей в команде. Твои результаты исследований и анализа данных экспериментов напрямую влияют на продукт. О задачах: выстраивать дерево метрик; определять, рассчитывать и валидировать продуктовые метрики для оценки успеха внедрения новых фичей; проводить исследования поведения пользователей на основе данных для определения точек роста в продукте; работать в тесном сотрудничестве с продуктовыми менеджерами, UX исследователями, дизайнерами и разработчиками, сопровождая A/B тесты от дизайна эксперимента до интерпретации результатов. Стек технологий: Python, SQL, Hadoop stack, Hive, Spark Что еще интересного: гибрид; офис в Москве и коворкинг в СПб; организуем внутренние и внешние митапы; помогаем развивать личный бренд шопинг на Lamoda со скидками до 40% Подробнее о вакансии. Реклама. ООО «Ламода Тех». ИНН 7734461512. erid:LjN8KDq9Z

Сегодня стажеры в свой первый день получали доступы и впитывали новые термины. Сразу вспомнился такой мем в тему 😃
Сегодня стажеры в свой первый день получали доступы и впитывали новые термины. Сразу вспомнился такой мем в тему 😃

Большую статью про аналитику с Varioqub написали ребята из Х5 Tech. Расписано все от и до не только по самому модулю, но и по
Большую статью про аналитику с Varioqub написали ребята из Х5 Tech. Расписано все от и до не только по самому модулю, но и по отдельным его критериям 😉 Их кейс с A/B-тестированием поможет лучше понять, как устроен критерий Mann-Whitney, как устроен Varioqub, и оценить, насколько качественно взвешиваются результаты ваших тестов. Если вы задаетесь вопросом, достаточно ли вашего действующего решения — обязательно к прочтению. Читать статью

Методология DataOps Слышали ли вы про понятие DataOps? Если нет, то сейчас разберем вместе, что оно обозначает. 🔎 DataOps -
Методология DataOps Слышали ли вы про понятие DataOps? Если нет, то сейчас разберем вместе, что оно обозначает. 🔎 DataOps - это методология и набор практик непрерывной интеграции данных, автоматизации и мониторинга управления данными в течение всего их жизненного цикла. Какие задачи входят в DataOps? 📍автоматизация процессов загрузки данных в хранилища 📍мониторинг операционных потоков данных 📍оптимизация аналитики данных 📍создание инфраструктуры для корректного хранения, движения и использования данных Полезные ссылки для погружения в тему: 🔗 DataOps Wikipedia 🔗 Концепция DataOps 🔗 DataOps в Big Data 🔗 What is DataOps

Как получить реальный кейс в портфолио, если джуны никому не нужны?🙄 Решил рассказать про способы развития в BI, о том, где найти тот самый опыт, который так всем требуется. 1️⃣Проекты с открытым исходным кодом. 2️⃣Стажировки. 3️⃣Образовательные проекты. 4️⃣Волонтерство: предложите свои услуги некоммерческим организациям или стартапам.
Мне нужно быстро и кейсы от реальных компаний.
5️⃣Хакатоны/конкурсы — способ для тех, кто уже не совсем новичок в BI, но кому быстро нужен хороший кейс. К слову, после недавнего ресерча узнал, что сейчас проводит конкурс Analytic Workspace — Self-service BI-платформа, которая оснащена: ETL, собственным хранилищем в ClikHouse и ML. Почему стоит принять участие: 📎Экспертное жюри — многих ребят знаю; 📎Наличие HR-партнеров — возможность получить приглашение на собеседование; 📎Спонсор датасета — VK Cloud; Возможность выиграть деньги. Если из-за отсутствия опыта работы внутри системы AW BI сомневаетесь стоит ли участвовать, у ребят есть бесплатный мини-курс на Stepik «BI-аналитик Express: с нуля до готового дашборда за 2 часа». Пройдите это короткое обучение и сомнение не будет. Регистрируйтесь! Заполняйте портфолио кейсам, а если вы уже опытный специалист, то воспользуйтесь возможностью выиграть 💵 🔗Ссылка на все подробности

Открепляю сообщени о стажировке в Сравни Мы набрали стажеров, по впечатлениям от собесов все ребята мотивированы погружаться с головой в аналитические задачи. В понедельник поедем знакомиться в офис, делать онбординг и есть пиццу 😉🍕

Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависи
Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависимости от данных и решаемой потребности визуализации Забирайте себе, может кому-то пригодится на практике 😉

Подборка вакансий для аналитиков: продукт, операции, маркетинг 👀 Tech-команда СберМаркета ищет крутых специалистов уровня Mi
Подборка вакансий для аналитиков: продукт, операции, маркетинг 👀 Tech-команда СберМаркета ищет крутых специалистов уровня Middle и Senior. Подробнее про их Data-культуру в тг-канале — SberMarket Tech. 🟡 Операционный аналитик (Доставка) Будешь заниматься расчётом метрик, подготавливать дашборды, отрисовывать данные в BI системах (Tableau, Metabase). 🟡 Middle Product Analyst (Experimentation platform) Будешь развивать методологию глобальной контрольной группы (holdout), создавать методологию экспериментов с рандомизацией по регионам. 🟡 Маркетинговый аналитик (Retail) Будешь заниматься аналитической поддержкой команды маркетинговой активации ретейлеров, которая реализовывает проекты, нацеленные на увеличение количества заказов / GMV / AOV / new users / частоты покупок в Сбермаркете. 🟡 Маркетинговый аналитик (CRM&Promo) Будешь проводить маркетинговые ресерчи, А/B-тесты, строить отчетности в Tableau и поддерживать её. 🟡 Продуктовый аналитик (Marketing&Promo) Будешь заниматься аналитической поддержкой команды, поиском инсайтов, генерацией гипотез, а также проводить А/B-тесты. 🟡 Маркетинговый аналитик (B2B) Будешь формировать и оптимизировать отчетность, разрабатывать и поддерживать тригерные цепочки коммуникаций с партнерами. 🟡 Старший продуктовый аналитик Будешь проводить исследования данных для поиска инсайтов и проверок гипотез, внедрять их в текущие процессы. Больше вакансий в СберМаркет Tech ищи вот тут! Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: LjN8KVEiH

Лучшие вопросы средней сложности по SQL на собеседовании аналитика данных Хорошая статья для повторения тем по SQL перед собеседованием Статья

Live-интенсив: разбираем тестовое задание в OZON на junior-аналитика! 🔥 Мы знаем, что разбор тестовых заданий - ваш любимый
Live-интенсив: разбираем тестовое задание в OZON на junior-аналитика! 🔥 Мы знаем, что разбор тестовых заданий - ваш любимый формат. Поэтому мы приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание в OZON на аналитика данных! Собираемся в прямом эфире 25 июня (вт) в 19:00 (Мск). Ссылка на трансляцию придет в бота, записывайтесь! 👉🏻 Записаться на live-интенсив 👈🏻 Что будем делать на интенсиве: ◾️ Проанализируем заказы пользователей по retention, времени доставки, сумме заказа т.д. ◾️ Научимся легко генерировать большой DataFrame с синтетическими данными ◾️ Посчитаем описательные статистики ◾️ Изучим полезные фичи Pandas: apply, map, pct_change и др. ◾️ Построим интерактивные графики с помощью plotly ◾️ Научимся строить и читать необычные графики - например, violinplot Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡 Короче, ждем всех – будет мега-круто! 👉🏻 Записаться на live-интенсив 👈🏻 Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8KUuEM

Бесконечно можно радоваться 3 вещам: 1. Когда светит солнышко ☀️ 2. Когда твои ученики находят работу 💼 3. Когда твои посты
Бесконечно можно радоваться 3 вещам: 1. Когда светит солнышко ☀️ 2. Когда твои ученики находят работу 💼 3. Когда твои посты читают и обсуждают в проф. сообществах 🧑‍💻 Вообще сегодня отличное настроение, жена сдала госы и защитила красный диплом 📕👩‍🎓 В медицинском ВУЗе!!! Это вам не аналитике учиться, у них там думать и зубрить кучу материала нужно 😃 Пытаюсь сейчас ее переманить в аналитику или в IT в целом, она говорит смотря на мои открытые экраны со скриптами, что «более скучную работу чем у тебя я не видела» 😅 Вот так, каждому свой выбор)

Для тех, кто хочет в финтех Т-Банк растет и зовет сильных специалистов в команду. Условия — мед: задачи нескучные, коллеги не
Для тех, кто хочет в финтех Т-Банк растет и зовет сильных специалистов в команду. Условия — мед: задачи нескучные, коллеги недушные. Есть над чем подумать и когда отдохнуть. Приходите прокачивать навыки, развивать финтех и работать в команде единомышленников. Посмотреть вакансии и откликнуться, если у вас больше двух лет опыта, можно здесь Реклама. АО «Тинькофф Банк», ИНН 7710140679

Классная статья, в которой можно посмотреть устройство хранилища данных по слоям хранения. Расписаны виды источников данных и даже применяемые SCD типы для загрузки данных 👍 Кто задается вопрос «что это такое ваше DWH и почему придумали новое название для базы данных» - вам обязательно к прочтению 😉 Статья начала 2022 года, видно что описанный стэк технологий явно неактуален. Думаю ребята уже съехали как минимум с Oracle (в конце написано что в планах был переезд на Greenplum), SAP Business Objects и Power BI тоже скорее всего чем-то заменены. Читать статью

Статья про миграцию Big Data платформы и огромное количество данных 🤯 📍2 года миграции 📍1000+ привлеченных специалистов 📍5 Пб объема данных Читать статью

Бесплатный интенсив по подготовке к собеседованиям на позицию аналитика данных 🔥 📣 Всем привет! Хотим пригласить вас на уникальный 4-дневный интенсив по подготовке к собеседованиям на позицию аналитика данных! Программа насыщенная и затрагивает сразу много аспектов подготовки к собеседованиям: ◾️ День 1: Составление резюме, cover letter, портфолио и самомаркетинг ◾️ День 2: Решение задач с собеседований ◾️ День 3: Разбор вопросов с технических собеседований ◾️ День 4: Разбор продуктовых кейсов Каждый день мы будем присылать вам материалы по одной из тем. А по некоторым темам даже будет дополнительное «домашнее задание»! 👉🏻 Записаться на бесплатный интенсив 👈🏻 Интенсив подходит всем, кто изучает аналитику и планирует искать работу. Участие в нем займет не более 1 часа в день, но даже в таком формате вы получите для себя массу пользы! Кстати, вы можете вписаться и получить весь материал абсолютно бесплатно. А если хочется более глубокой проработки и персональных консультаций - мы предусмотрели 30 VIP-мест. Так что записывайтесь, выбирайте формат участия и погнали 🔥 👉🏻 Записаться на бесплатный интенсив 👈🏻 Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8KLZJz

🚀 Исследуем данные с помощью ydata-profiling Сегодня расскажу про инструмент, который вы можете использовать для первичного анализа данных (EDA) и оценки их качества (Data Quality Check) - это библиотека ydata-profiling. Этот инструмент позволяет в считанные минуты получить полный отчёт о ваших данных, исследовать их основные характеристики и выявить потенциальные проблемы до глубокого погружения в анализ. Основные возможности ydata-profiling: 1. Генерация отчётов С помощью библиотеки можно быстро подготовить отчет , который включает в себя статистику по каждой переменной, распределения, корреляций, пропущенных значений и многое другое. 2. Оценка качества данных Этот же отчет поможет обратить внимание на проблемы в ваших данных, такие как пропущенные значения, дубликаты или неоднозначные форматы, что позволит оперативно перейти к очистке данных. 3. Интерактивные визуализации Можно визуально посмотреть на распределения и корреляции благодаря встроенным графикам и интерактивным элементам. Как начать работу? Для начала работы с ydata-profiling нужно установить библиотеку, например с помощью pip: pip install ydata-profiling После установки загрузите ваш DataFrame и сгенерируйте отчёт в несколько строк кода: import pandas as pd from ydata_profiling import ProfileReport df = pd.read_csv('data.csv') profile = ProfileReport(df, title="Profiling Report") И на выходе вы получаете отчет, который можно просматривать прямо в Юпитер ноутбуках, либо сохранить например в html и открыть просто в браузере и даже поделиться с коллегами) 🔗 Официальная документация ydata-profiling

Синдром самозванца Синдром самозванца - психологический синдром, при котором человек не может реально оценить свои качества и личные достижения. Человеку кажется, что он знает меньше других и не достоин того что сейчас имеет. Это проблема адекватной оценки своих достижений и умений. Лично у себя я ловлю такие мысли иногда, что я "делаю мало", "знаю недостаточно хорошо", "не заслуживаю чего добился" или "мог бы в свои годы достичь большего". Знакомо❓ Несколько способов как бороться с этим: 1️⃣ Сравнивайте свое текущее состояние с тем что было 1/2/3 года назад В моменте может показаться, что вы непродуктивны или двигаетесь не так быстро как хотелось бы. Но если вы сравните себя текущего с собой из прошлого, то скорее всего удивитесь как много вы сделали и достигли за это время. 2️⃣ Спрашивайте обратную связь о себе со стороны Мы себя видим одним образом, люди со стороны могут видеть вас совсем по-другому. Спросите у своих родственников, друзей, коллег что они думают про вас. - Как бы они вас описали в нескольких предложения, подчеркнув ваши основные черты - Какие они видят в вас сильные стороны - Какие они видят в вас недостатки (увы, они есть у всех, но с ними можно работать 👌) Вы удивитесь сколько нового можно узнать о себе взглядом других людей со стороны. 3️⃣ Всегда занимайтесь саморазвитием и ставьте перед собой цели Банально, но это дает гарантию, что вы можете оцифровать свои достижения по явному чек-листу прописанных целей. Достижение цели и проставление заветной галочки done ✅ напротив нее дают вам заряд положительных эмоций и фактическое признание своего достижения. Это пункты, которые я взял себе на вооружение, вы их тоже можете попробовать 😉

Это я получил костюм для эндуро-покатушек и мысленно газую на мотике в нем 😂 Сегодня праздничный день, а значит проведите ег
+1
Это я получил костюм для эндуро-покатушек и мысленно газую на мотике в нем 😂 Сегодня праздничный день, а значит проведите его с пользой для себя и своего здоровья, пополните силы перед еще 2-мя рабочими днями!

Приглашаем на вебинар: Разбираемся с продуктовыми метриками с нуля 🔥 Основа любой аналитики - продуктовые метрики. Если анал
Приглашаем на вебинар: Разбираемся с продуктовыми метриками с нуля 🔥 Основа любой аналитики - продуктовые метрики. Если аналитик их не знает, нет смысла учить Python, SQL, математику и прочее. Это база. Поэтому мы решили провести вебинар, где подробно разберем все основные продуктовые метрики, их классификацию, способы расчеты и примеры из разных бизнесов: от торговли до банкинга. 📅 Дата: 13 июня, четверг 🕘 Время: 19:00 по Мск 🔗 Доступ к трансляции придет в бота, записывайтесь → ссылка Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡 Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid:LjN8Jx43c