Аналитика данных / Data Study
前往频道在 Telegram
Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных
显示更多9 472
订阅者
-224 小时
-237 天
-1730 天
帖子存档
Всем привет!
Канал потихоньку растёт и я хочу сказать вам огромное спасибо за ваш интерес и обратную связь 🔥🔥🔥
Разбавлю сегодняшний день небольшим интерактивом. А именно опросом, который поможет мне более эффективно писать и выкладывать посты в будущем для вашей пользы.
Предлагаю пройти опрос на уровень знаний в IT области в целом (оценивайте себя по своей области работы/учебы). Другими словами, выберите свой текущий грейд ⤵️
Это поможет мне понять, какого уровня сложности публиковать посты и на какие темы это лучше всего делать.
Интересная статья про параметрический поиск. Стоит ли применять ML-модели для поиска, когда пользователь сам может поставить фильтр на вывод результатов, которые он хочет получить?
Всегда хотелось поработать на проекте, где решаются задачи поиска пользователями. Может быть в будущем появится опыт работы на таком проекте, а пока читаю статью ⤵️
"Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам"
Читать статью
Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависимости от данных и решаемой потребности визуализации
Забирайте себе, может кому-то пригодится на практике 😉
Колоночные Базы Данных
Наверняка вы знакомы с реляционными базами данных и такими СУБД как Postgres, MySQL, MS SQL Server. Эти базы данных отлично решают задачи обработки транзакций, являются OLTP-системами и подчиняются принципам ACID.
Однако реляционные БД не всегда могут работать эффективно для аналитических задач и обработки большого количества аналитических запросов на чтение данных, особенно если мы говорим про большие объемы данных.
Для обработки аналитических запросов существуют OLAP-системы (Online Analytical Processing), к которым также относятся колоночные базы данных.
📍Различия между колоночными и строковыми базами данных
Сходство: данные структурированы и хранятся в виде таблиц с атрибутами (столбцами) и записями (строками), это удобно для восприятия пользователя, которые работает как с обычными таблицами.
Различия:
- Хранение данных. в строковых БД на физических дисках хранятся значения строк рядом друг с другом, в колоночных БД данные записываются в память диска по столбцам
- Опираясь на предыдущее различие, чтение данных в колоночных БД происходит также по столбцам, что в десятки раз ускоряет чтение данных и выполнение запросов к БД.
Пример:
У нас есть таблица из 50 столбцов и 1 млн. записей. При выполнении запроса по 4 столбцам из таблицы в строковой БД запрос будет идти по всем 50 столбцам и по каждой записи внутри таблицы, т.е. перебором всего 1 млн. записей.
В колоночной БД запрос выберет нужные 4 столбца, пробежит по ним и выдаст только те записи в итоге, которые соответствуют запросу.
Преимущества строчных БД (Реляционные БД):
- быстрое выполнение операций записи и обновления данных (INSERT, UPDATE)
- транзакционная целостность и выполнение ACID
- работа с данными на языке SQL
Преимущества колоночных БД (Один из видов Нереляционных БД):
- быстрое выполнение запросов на чтение данных
- более простая масштабируемость БД
- низкие требования к консистентности данных
- распределенные вычисления и распараллеливание запросов (MPP)
- шардирование данных (хранение по частям на разных хостах)
Примеры решений колоночных БД: Clickhouse, Vertica, Apache Cassandra
Полезные ссылки:
🔗Статья про колоночные и строчные СУБД
🔗Статья про Clickhouse
🔗Статья про Vertica
🔗Clickhouse Documentation
🔗Apache Cassandra Documentation
Привет!
Недавно на одном собеседовании задали вопрос «Как найти долгие запросы в базе данных Postgres?»
Я раньше не сталкивался с таким на практике с Postgres и ответил что-то типа «посмотреть логи базы данных или журнал запросов».
После собеседования решил посмотреть материалы по этой теме. Нашёл материал про расширение pg_stat_statements
Материалы ниже ⬇️
Простое обнаружение проблем производительности в PostgreSQL
Ways to detect slow queries
Познавательная статья про найм IT-специалистов
Для себя вывел такой момент, что на LinkedIn профиль тоже смотрят (надо заполнять 😃).
А джуны, согласно исследованию, могут найти работу быстрее мидлов и синьоров. На это есть много причин, говоря даже по опыту:
- большая вилка ЗП, которую компании не готовы предложить
- часто под выполнение текущих задач компаниям хочется взять синьора, но после собеседований мидлы под скоп текущих задач тоже подходят (берут их по вилке ниже, а по их ожиданиям получается даже порадовать кандидата)
- иногда синьоры находятся в поиске в shadow mode (не активно проходят собесы, а многие вакансии отбрасывают по другим причинам)
Может быть интересно провести онлайн встречу с HR специалистами и пообщаться с ними на тему найма 🤔
Ставьте в реакции 🔥 если такая онлайн встреча вам будет интересна
Привет!
Слышали ли вы про понятие DataOps?
Если нет, то сейчас разберем вместе, что оно обозначает.
🔎 DataOps - это методология и набор практик непрерывной интеграции данных, автоматизации и мониторинга управления данными в течение всего их жизненного цикла.
Какие задачи входят в DataOps?
📍автоматизация процессов загрузки данных в хранилища
📍мониторинг операционных потоков данных
📍оптимизация аналитики данных
📍создание инфраструктуры для корректного хранения, движения и использования данных
Полезные ссылки для погружения в тему:
🔗 DataOps Wikipedia
🔗 Концепция DataOps
🔗 DataOps в Big Data
🔗 What is DataOps
Вполне возможно, что через какое-то время или уже сейчас будут появляться вакансии с названием DataOps-инженер, поэтому стоит разобраться в этой теме и понимать о чем идет речь 😉
Repost from Книги по аналитике (BA, DA, SA, PA)
Алан Бьюли / Изучаем SQL
"SQL - язык для формирования, манипулирования и извлечения данных из реляционных БД. Если вы собираетесь работать с реляционными БД - разрабатывать приложения, администрировать, либо делать аналитику на основе данных - вам понадобится знать SQL."
Скачать книгу
Для тех кто видит перед собой потребность в изучении SQL, книга будет полезным помощником для самостоятельного обучения. Узнаете основные термины, которые используются в реляционных БД, а также научитесь работать с MySQL 😉
А вообще можете посмотреть и другие книги в канале. Туда выкладываю то, что считаю будет полезными ресурсами для погружения в работу с данными в аналитике. Чтобы все было под рукой в одной библиотеке
Типы таблиц в PostgreSQL: clustered, foreign, partitioned и inherited tables
Читать статью
User Persona и как это помогает в разработке продуктов
Привет! Сегодня решил собрать для вас полезные материалы по написанию user persona, которые могут являться как часть пользовательских требований при разработке решения.
🔎 "User Persona (Персона) - это обобщенное, но реалистичное описание типичного или целевого пользователя продукта, то есть архетип, а не реальный живой человек, но персонажи должны описываться так, как если бы они были настоящими людьми."
Зачем нужно описывать персоны:
- детальное описание потребностей пользователя
- понимание процесса использования продукта пользователем
- возможность смотреть на разработку решения со стороны пользователя
Полезные ресурсы по теме:
📍Статья "Об использовании персон (персонажей) пользователей при разработке продуктов"
📍Статья "Метод персон в UX: зачем нужен, почему работает и как применять"
📍Статья "User Story Mapping: от идеи до релиза"
📍Шаблон User Persona в Miro
📍Шаблона User Persona от меня
Привет!
Хотел сделать небольшой проект и посчитать зарплаты в IT на основе открытых вакансий. Можно было собрать описание вакансий с зарплатными вилками, а дальше сделать визуализацию собранных данных по разным категориям (регионы, должности, грейды), а потом поделиться с вами обзором результатов.
Идея хорошая, чтобы понимать текущие зарплатные вилки, но все уже сделали за меня 😁
Хабр Карьера сделали детальный обзор по зарплатам в IT за первое полугодие 2022. Судя по описанию, их исследование ценно тем, что данные собираются не просто из вакансий, а желающие люди на портале анонимно могут указать свою текущую ЗП, которая и будет учитываться в отчете. То, что предлагают в вакансии, и что кандидат может получать в реальности - это иногда совсем разные цифры.
Ставьте реакции, если интересно читать контент про различные обзоры рынка, а я пойду дальше разбираться с Superset и писать требования для нового сайта 😃
Читать зарплатный отчет
Индексы в БД
🔎 Индексы - структура данных в базе, которая позволяет определить положение необходимых данных в базе с более высокой скоростью выполнения запросов к БД.
Пример для понимания: представьте, что вы ходите по торговому центру с целью найти магазин X. Если вы будете обходить весь торговый центр в поисках, пытаясь найти магазин по вывеске, это будет очень долго. Гораздо проще иметь в торговом центре карту или схему расположения магазинов с номерными знаками каждого магазина. Вот эти номерные знаки на карте магазинов возле их названия и будут подобием индексов в базе данных.
Зачем нужны индексы:
- более быстрый поиск необходимых данных внутри таблицы
- фильтрация данных по столбцу с индексом происходит быстрее
- объединение данных из таблиц, если в условиях объединения есть столбцы с индексами
- сортировка выборок данных также может ускориться при помощи сортировки по полю с индексом
Синтаксис создания индекса:
CREATE INDEX index_name ON table_name (column_name)
📍Это один из частых вопросах на собеседованиях, поэтому нужно понимать что такое индексы и как их можно применять
Полезные ссылки для знакомства с индексами:
- Что такое индексы (статья)
- Как создавать индексы в PostgreSQL (статья)
- Индексы (видео)
- Индексы для оптимизации SQL запросов (статья)Привет!
Давно не выходил на связь, буду исправляться)
Нашел статью с подборкой огромного количества материалов для развития soft-skills. Каждый может найти для себя что-то полезное, я вот выписал себе несколько книг и прочитал уже парочку статей про эмоциональный интеллект и управление ресурсами.
Ресурсы в статье:
📍Деловое общение
📍Клиентоцентричность
📍Когнитивная гибкость
📍Коммуникация
📍Управление командой, проектом, процессом
📍Креативное мышление
📍Критическое мышление
📍Наставничество/менторинг
📍Презентация и ораторское искусство
📍Решение проблем и принятие решений
📍Системное мышление
📍Стресс-менеджмент
📍Управление ресурсами
📍Целеполагание
📍Эмоциональный интеллект
Ссылка на статью
Привет!
Осваиваю технологию Docker, т.к. до этого с ней руками сам не работал а только от коллег разработчиков и DevOps-инженеров слышал про контейнеры и образы 😃. А тут стало интересно, как можно разворачивать приложения локально без установки кучи сторонних библиотек и отслеживанием зависимостей их версий и совместимости.
В общем, аналитикам может это и не нужно знать на твердом уровне hard навыка, но минимум принцип работы понимать необходимо. А если захочется установить open source инструмент себе локально и поиграться с ним, то Docker в этом может очень сильно помочь. Делюсь ссылочкой на видео, которое я смотрю ⬇️
Видео по Docker
Привет!
Делюсь небольшой, но полезной шпаргалкой по PySpark и Spark SQL. Позже обязательно расскажу подробнее про PySpark и его области применения 😉
Новая конференция про системный и бизнес-анализ — Flow
В ноябре JUG Ru Group организует конференцию для аналитиков — Flow 2022. В программе — технические доклады и дискуссии об архитектуре, требованиях, стандартах, документации и архитектуре данных.
У вас большой опыт в аналитике или есть интересные кейсы? Тогда подавайте заявку на выступление. Программный комитет поможет с подготовкой: назначит персонального куратора, проведет ревью материала и организует репетиции.
Выбирайте тему выступления на сайте или предлагайте свои идеи — их обязательно рассмотрят.
Всем спикерам JUG Ru Group дарит билет на все конференции сезона в онлайне и офлайне.
А билеты можно купить здесь.
Easy Code - канал с бесплатным книгами, шпаргалками, полезными статьями по анализу данных и программированию.
Подписывайтесь, пригодится!
@code_easy
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
