ar
Feedback
Аналитика данных / Data Study

Аналитика данных / Data Study

الذهاب إلى القناة على Telegram

Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных

إظهار المزيد
9 474
المشتركون
+224 ساعات
-257 أيام
-930 أيام
أرشيف المشاركات
Статья про написание User Stories Работаете в Agile команде и пишите user story? Ставьте 🔥 под постом https://techrocks.ru/2019/03/29/user-stories-writing/

Словарь данных Словарь данных необходим пользователям DWH/BI решений для использования данных в аналитических целях. Словарь
Словарь данных Словарь данных необходим пользователям DWH/BI решений для использования данных в аналитических целях. Словарь должен включать в себя определения и бизнес-правила, понятные как стороне бизнес-заказчика так и команде разработки. 📍Цель создания словаря данных: обеспечение согласованности между бизнес-понятиями и технической терминологией на всех уровнях разработки аналитического решения или хранилища данных. В словарь включаются бизнес-термины, определения, аббревиатуры, бизнес-правила, которые могут отражаться в логической модели данных. В дальнейшем это используется и поддерживается при переходе к разработке физической модели и реализации решения инженерами. Это позволяет минимизировать ошибки и недопонимания терминов между стороной бизнеса и технической командой. Словарь данных обязательно используется как часть проектной документации при работе с требованиями.

📚 Через две недели стартует курс «Клиентские данные в энтерпрайзе: от проектирования MDM-системы до Data Governance и аналитики» 26–28 мая HFLabs проведет уже четвертый поток авторского офлайн-курса. Мы изучили отзывы и доработали программу, чтобы новый набор был полезнее. А еще упаковали материал в три полных дня вместо пяти половинчатых. Осталось пять мест. 🧠 Что узнают участники Мы покажем принципы работы с клиентскими данными: как их правильно хранить, обновлять, стандартизировать, сливать дубликаты, передавать в другие системы и анализировать. Даем мощную базу — все, что узнали за 10 лет работы с данными в крупном бизнесе. 👨‍🎓 Для кого наш курс Обучение будет полезно всем, кто работает или будет работать с данными в крупной компании: банке, страховой, ритейле или телекоме. Специальность роли не играет — знания помогут аналитикам, архитекторам, тестировщикам, инженерам по данным и представителям бизнес-подразделений. ✔️ Где пригодятся полученные знания Мы рассказываем о работе с данными на примере MDM-систем — Master Data Management. Но эти знания пригодятся, чтобы встроить любую систему в архитектуру компании. Неважно, с какими инструментами студенты работают или будут работать. ✏️ Как записаться Купить билет можно на странице курса. Там же — подробная программа, рассказ о преподавателях, примеры лекций и отзывы студентов. https://bit.ly/3lB4bTn

Привет! Коллеги поделились информацией о трёхдневном офлайн-курсе про работу с клиентскими данными. Все подробности в посте ниже и по ссылке ⬇️

Data Mesh как подход к работе с хранилищами данных Data Mesh - подход к организационной структуре управления данными в компании, в который закладывается принцип самоорганизации как процессов управления данными, так и открытая инженерная культура работы с данными. В основу такого подхода можно отнести несколько главных идей: 📍“Self-serve data infrastructure as a platform to enable domain autonomy” (самоорганизация инфраструктуры данных как платформы для обеспечения бизнес-доменов) 📍“Data must be self-describing and documented, and customers should be able to consume all the data in the organization as-a-service Solution” (Данные должны быть описаны и задокументированы таким образом, что пользователи могли использовать их открыто как сервис) 📍“Distributed domain driven architecture” (Распределенная архитектура, где данные управляются командами разных бизнес-доменов, а не распределяются в централизованное хранилище данных. 📍“Product Thinking” (Данные как продукт, где команды с разных бизнес-доменов являются владельцами данных, они могут управлять качеством данных, доступами. Как владельцы данных, они отвечают за продукт (свои данные), поддерживают пользователей, которые работают с их источниками данных) Выделяют следующие характеристики Product Thinking: ✏️ Discoverable (Пользователю должно быть просто найти необходимый дата-продукт. Осуществляется путем создания и поддержания data catalog или регистра продуктов с указанием бизнес-владельца, систем-источников, доступных сущностей таблиц/витрин) ✏️ Addressable (Должен применяться единый стандарт названий продуктов и сущностей, чтобы упростить пользовательский путь по использованию данных) ✏️ Trustworthy and truthful (Дата продукт должен иметь доверие со стороны пользователей, т.е. содержать реальные и актуальные данные с высоким качеством) ✏️ Self-Describing (Продукт должен быть подробно описан, чтобы пользователи могли самостоятельно найти продукт, проанализировать его и начать использовать в своих целях с минимальным вмешательством команды поддержки) ✏️ Inter-Operable and governed by Global Standards (Дата Продукты децентрализованных команд должны иметь возможность интегрироваться между собой с возможностью взаимосвязи данных. Это достигается путем введения глобальных стандартов Data Governance, которых должны придерживаться доменные команды) ✏️ Secured (Должны быть введены глобальные стандарты безопасности для всех продуктов. Также должен быть единый процесс получения доступа к данным, который может в конечном итоге направлять запросы с доступами в доменные команды, ответственные за данные) Ссылка на статью источник

Привет! Может кому-то будет актуально почитать 😉 P.S. Рекомендую также почитать ещё другие источники на эту тему, чтобы проверить достоверность всего материала. Критическое мышление и проверку информации никто не отменял) https://habr.com/ru/post/665370/

Метрики и KPI - в чем разница? Вы когда-нибудь задумывались в чем разница между метриками и KPI? Есть ли вообще разница? Если есть, то в чем она заключается? Любой бизнес использует метрики и KPI при анализе данных и при принятии важных бизнес решений. И от как мы используем эти понятия может привести к недопониманию в общении с бизнес-заказчиками, так и неправильной разработке требований и конечного решения. 🔎 KPIs (Key Performance Indicators) - измеримые величины, которые показывают как эффективно компания достигает своих бизнес-целей. С их помощью измеряется успех достижения той или иной поставленной бизнес-цели и задачи. Для расчета KPI используется метрика, которую выделили как “ключевую”. 🔎 Метрики (Metrics) - также измеряемые величины, которые получаются из аналитических отчетов или других систем аналитики. Все KPIs являются метриками, но не все метрики являются KPIs. (Видел в одной из статей некое сравнение высказывания выше: Все квадраты являются прямоугольниками, но не все прямоугольники можно назвать квадратами.) В чем же все таки разница? Метрик в данных может быть огромное количество. Например: количество заказов в день, количество кликов по ссылке, количество пользователей на сайте, сумма заказов в месяц и т.д. Нужно понимать, что бизнес-заказчикам не всегда бывает важно следить за каждой из этих метрик чтобы понять как успешно развивается бизнес. Из всего множества метрик выбирается список самых главных и ключевых, которые и становятся KPI для дальнейшего отслеживания результатов. Почему важны и KPI и Метрики? KPI - показатели эффективности бизнеса Метрики - вспомогательные показатели, которые могут указать на проблемы, почему тот или иной KPI снизился или не был достигнут.

Привет! Для тех кто хочет погружаться в Машинное Обучение есть курс, который читают студентам НИУ ВШЭ на Факультете Компьютерных Наук. Записи лекций и семинаров выложены на Github https://github.com/esokolov/ml-course-hse

Управление безопасностью данных и распределения доступов с помощью CRUD-матрицы 🔎 CRUD-матрица -это один из методов управлен
Управление безопасностью данных и распределения доступов с помощью CRUD-матрицы 🔎 CRUD-матрица -это один из методов управления информационной безопасностью в управлении данными. Используется подход построения матрицы данные-роли (столбцы матрицы) и данные-процессы (строки матрицы). Доступ управляется уровнями по аббревиатуре CRUD: 📍C (Create) - создание 📍R (Read) - чтение 📍U (Update) - обновление 📍D (Delete) - удаление Иногда добавляют еще одно действие E (Execute) - выполнение В каждую ячейку матрицы можно поставить как одно действие, так и сразу все, если эта роль должна иметь все доступы и возможности.

**Что такое постановка цели по SMART** SMART - одна из техник поставки целей в бизнес-анализе и менеджменте. Правильно софрму
**Что такое постановка цели по SMART** SMART - одна из техник поставки целей в бизнес-анализе и менеджменте. Правильно софрмулированные цели помогают эффективнее достичь результата. И что самое главное - позволяют измерить его Статья на эту тему: https://yagla.ru/blog/marketing/celi-smart-kriterii-i-primery--2108u95038/

Привет! Первым делом хотел поблагодарить всех вас, кто следит за каналом, нас уже больше 1000! 🥳🥳🥳 Я уже рассказывал в своём блоге, что с помощью знаний Python хотя бы нескольких библиотек и Баз данных можно построить свой ETL/ELT процесс для извлечения, обработки и загрузки данных. 1. Извлечение данных (Python и библиотека requests) 2. Обработка (Python с библиотекой pandas) 3. Загрузка данных в БД (библиотека sqlalchemy + БД) 4. Как итог работы - визуализация и построение BI решения (Power BI, Tableau …) На habr нашёл статью с простым описание данного процесса https://habr.com/ru/post/664020/ P.S. На воркшопе мы тоже разбирали подобный процесс работы с данными по вакансиям аналитиков на hh Ссылка на код и дашборд https://github.com/daniildzheparov999/workshop_project

Привет! У меня есть традиция, которая пошла с Instagram блога, делать каждый месяц тест на проверку знаний по аналитике данных. Хорошие новости - вчера я подготовил тест и сегодня готов поделиться ссылкой на него 🔥🥳 И это ещё не все. После каждого теста я раздавал участникам полезный подарок - файл книги, связанной с аналитикой или data science. В этот раз будет целых 2 подарка: 1. Файл книги «Изучаем SQL” 2. Бесплатный воркшоп 21 мая по практике очистке и обработки данных с помощью SQL 📍Воркшоп будет не для всех Как на него попасть? 1. Пройти тест 2. Поделиться результатом теста в любом из ваших чатов в телеграм или опубликовать сторис в Инстаграм 3. На сторис или в сообщении отметить мой профиль Инстаграм daniil.dzheparov или дать ссылку на этот телеграм канал 📍Вы поможете этим охватить больше людей, а я вам буду благодарен и проведу для вас бесплатный воркшоп и поделюсь знаниями ☺️ Ссылка на тест: t.me/QuizBot?start=8wzkoGMl

Привет! Сегодня хотел написать пост про оконные функции в SQL, но получилась целая статья 😅 Выложил материал на Habr. Переходите, читайте, поддерживайте продвижение статьи, если материал интересный 😊 https://habr.com/ru/post/664000/

Привет! Нашел довольно хорошо написанную и очень свежую статью про Spark DataFrame. Это некое подобие датафрейма pandas, но со своим расширенным функционалом распределенных вычислений от PySpark. Очень подойдет новичкам в Spark или начинающим инженерам данных.

Business Analyst vs Data Analyst vs Data Scientist ❓“С чего начать?” - один из самых шаблонных вопросов перед началом изучени
+2
Business Analyst vs Data Analyst vs Data Scientist ❓“С чего начать?” - один из самых шаблонных вопросов перед началом изучения чего-то нового. Помню, как еще на 2-м курсе университета я не имел никакого представления о том, кто такие аналитики в IT и чем они занимаются, непонятно было что изучать. Давайте разберем чем отличаются между собой профессии бизнес-аналитика, аналитика данных и специалиста по науке о данных. 🔎 Бизнес-аналитик (BA) - специалист в области бизнес-анализа, который выступает ключевым связующим звеном между бизнес-заказчиками и командой разработки. 🔎 Аналитик данных (DA) - специалист в области исследования данных с целью выявления из них бизнес-ценности. 🔎 Специалист по науке о данных (DS) - специалист в области исследования данных, машинного обучения с применением знаний математики, алгоритмов и языков программирования. Основные задачи и навыки каждого специалиста смотри в картинках ☝️ Понравился пост? Не забудь поставить реакцию и сделать репост ☺️

+5
image_2022-04-26_20-38-46.png0.19 KB

Примеры SCD

Историчность данных Существует несколько способов управления историчностью данных и обновлением данных в таблицах. В зависимости от структуры данных и их применения появляется потребность в хранении версионности и историчности этих данных. SCD или Slowly Changing Dimensions - медленно меняющиеся измерения, когда некоторые атрибуты в данных могут меняться со временем, тем самым возникает необходимость добавлять новую версию записи данных. SCD type 0 Данные попадают в таблицу только один раз и становятся статичными, нет версионности и изменения данных. Подходит для хранения конкретных справочников, например названия и ISO коды стран SCD type 1 Данные перезаписываются новым значением, что также не позволяет хранить версионность. Механизм простой, вместо старых значений в ту же строку перезаписываются новые значения измененных атрибутов, это позволяет не "раздувать" объем таблицы, но не дает доступа к историчности данных. SCD type 2 Данный тип заключается в том, что в таблицу добавляется новая запись по измененным данным. Это реализовано с помощью специальных атрибутов, которые позволяют управлять версионностью. Обычно эти атрибуты выглядят так: - Дата Начала версии - Дата Конца версии - Актуальность записи SCD type 3 Реализация выглядит таким образом, что в таблице добавляется атрибут со старым значением. - Историческое значение - Новое значение Есть большой недостаток, что невозможно добавлять много новых столбцов для хранения всех версий данных, поэтому история обычно ограничивается только предыдущей версией. SCD type 4 Для хранения исторических данных создается отдельная таблица, чтобы хранить предыдущие версии. Основная таблица будет отображать только актуальную запись по данным. Большой плюс, что можем обращаться всегда к таблице основной версии, но при этом нужно создавать и поддерживать отдельную таблицу с историческими данными. SCD type 5 Это некий гибрид типов 1 и 4. Если таблица имеет много атрибутов, то ее могут разбить на более мелкие таблицы справочники, которые будут статичны. Но если в этом маленьком справочнике будет перезапись значений по типу 1, то также необходимо будет перезаписать данные в связанной с этим справочнике более большой таблице измерений с помощью перезаписи ключа SCD type 6 Гибрид типов 1,2,3. Здесь используется комбинация вышеперечисленных методов, где хранится полная историчность данных с доступом к актуальной версии и всем историческим значениям. Будут добавлены следующие столбцы для управления историчностью: - Дата Начала версии - Дата Конца версии - Актуальность записи - Историческое значение - Новое значение Примеры SCD в картинках ⬇️ Если пост интересен, оставь реакцию и поделись им с другими 🙂

⭐️ Ура! Наша первая digital-конференция: ВИЗУАЛИЗАЦИЯ ДАННЫХ в рамках Sibur Digital Community 26 апреля: Графика и визуализация 27-28 апреля: Данные и визуализация Детали и тезисы —-——————- ✅ 26 апреля (вторник) ГРАФИКА И ВИЗУАЛИЗАЦИЯ 17:00 - 20:00 (мск) ▪️ "Манипуляции в инфографике: темная сторона визуализации данных" - Павел Лебедев - Бизнес-тренер по инфографике и визуализации данных, экс-руководитель отдела веб-дизайна Лаборатории Касперского ▪️ "Презентации в условиях изменений. Чего следует избегать в оформлении слайдов и к чему стремиться" - Антон Дубинчин - ТОП-100 креативщиков России по версии АКАР, основатель агентства креативного дизайна презентаций Proslides ————————- ✅ 27 апреля (среда) ДАННЫЕ И ВИЗУАЛИЗАЦИЯ 17:00 - 20:00 (мск) ▪️ "BI платформы. Тренды, Гартнер и импортозамещение" - Ксения Плесовских - Руководитель направления ML/DA в компании Lad ▪️"Кейсы дашбордов в промышленности. Как построить пульт управления заводом" - Алексей Колоколов - Директор Института Бизнес-Аналитики ————————- ✅ 28 апреля (четверг) ДАННЫЕ И ВИЗУАЛИЗАЦИЯ 17:00 - 20:00 (мск) ▪️ "Дашбордизация как цифровой консалтинг" - Максим Коровин - Владелец продукта СИБУР Диджитал ▪️ "Визуализация данных: красота vs удобство. Кейсы" - Максим Горбачевский - Основатель портала Infographer. ru, CEO агентства бизнес-визуализаций Infographer Регистрация Бесплатно. Онлайн Приходите сами, задавайте вопросы спикерам заранее или сразу после докладов, зовите коллег и всех, кому это потенциально может быть полезно. Отдельная благодарность за репосты в профильные чаты!

Привет! Sibur Digital Community организовало трехдневную бесплатную конференцию по визуализации данных Думаю будет интересно послушать 😉