Аналитика данных / Data Study

前往频道在 Telegram

Помогаю аналитикам расти в профессии и доходе Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/ По всем вопросам: @daniildzheparov Моя жизнь, опыт, аналитика и инженерия данных

显示更多

俄罗斯68 964 教育20 842

9 472

订阅者

-224 小时

-237 天

-1730 天

1 082

帖子浏览量

~ 50524 小时

~ 63448 小时

11.42%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

9 476

Выбери свой грейд в IT

Anonymous voting

9 476

Всем привет! Канал потихоньку растёт и я хочу сказать вам огромное спасибо за ваш интерес и обратную связь 🔥🔥🔥 Разбавлю сегодняшний день небольшим интерактивом. А именно опросом, который поможет мне более эффективно писать и выкладывать посты в будущем для вашей пользы. Предлагаю пройти опрос на уровень знаний в IT области в целом (оценивайте себя по своей области работы/учебы). Другими словами, выберите свой текущий грейд ⤵️ Это поможет мне понять, какого уровня сложности публиковать посты и на какие темы это лучше всего делать.

9 476

Интересная статья про параметрический поиск. Стоит ли применять ML-модели для поиска, когда пользователь сам может поставить фильтр на вывод результатов, которые он хочет получить? Всегда хотелось поработать на проекте, где решаются задачи поиска пользователями. Может быть в будущем появится опыт работы на таком проекте, а пока читаю статью ⤵️ "Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам" Читать статью

9 476

Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависимости от данных и решаемой потребности визуализации Забирайте себе, может кому-то пригодится на практике 😉

9 476

Визуальный пример для поста выше про колоночные БД ⬆️

9 476

Колоночные Базы Данных Наверняка вы знакомы с реляционными базами данных и такими СУБД как Postgres, MySQL, MS SQL Server. Эти базы данных отлично решают задачи обработки транзакций, являются OLTP-системами и подчиняются принципам ACID. Однако реляционные БД не всегда могут работать эффективно для аналитических задач и обработки большого количества аналитических запросов на чтение данных, особенно если мы говорим про большие объемы данных. Для обработки аналитических запросов существуют OLAP-системы (Online Analytical Processing), к которым также относятся колоночные базы данных. 📍Различия между колоночными и строковыми базами данных Сходство: данные структурированы и хранятся в виде таблиц с атрибутами (столбцами) и записями (строками), это удобно для восприятия пользователя, которые работает как с обычными таблицами. Различия: - Хранение данных. в строковых БД на физических дисках хранятся значения строк рядом друг с другом, в колоночных БД данные записываются в память диска по столбцам - Опираясь на предыдущее различие, чтение данных в колоночных БД происходит также по столбцам, что в десятки раз ускоряет чтение данных и выполнение запросов к БД. Пример: У нас есть таблица из 50 столбцов и 1 млн. записей. При выполнении запроса по 4 столбцам из таблицы в строковой БД запрос будет идти по всем 50 столбцам и по каждой записи внутри таблицы, т.е. перебором всего 1 млн. записей. В колоночной БД запрос выберет нужные 4 столбца, пробежит по ним и выдаст только те записи в итоге, которые соответствуют запросу. Преимущества строчных БД (Реляционные БД): - быстрое выполнение операций записи и обновления данных (INSERT, UPDATE) - транзакционная целостность и выполнение ACID - работа с данными на языке SQL Преимущества колоночных БД (Один из видов Нереляционных БД): - быстрое выполнение запросов на чтение данных - более простая масштабируемость БД - низкие требования к консистентности данных - распределенные вычисления и распараллеливание запросов (MPP) - шардирование данных (хранение по частям на разных хостах) Примеры решений колоночных БД: Clickhouse, Vertica, Apache Cassandra Полезные ссылки: 🔗Статья про колоночные и строчные СУБД 🔗Статья про Clickhouse 🔗Статья про Vertica 🔗Clickhouse Documentation 🔗Apache Cassandra Documentation

9 476

Привет! Недавно на одном собеседовании задали вопрос «Как найти долгие запросы в базе данных Postgres?» Я раньше не сталкивался с таким на практике с Postgres и ответил что-то типа «посмотреть логи базы данных или журнал запросов». После собеседования решил посмотреть материалы по этой теме. Нашёл материал про расширение pg_stat_statements Материалы ниже ⬇️ Простое обнаружение проблем производительности в PostgreSQL Ways to detect slow queries

9 476

Познавательная статья про найм IT-специалистов Для себя вывел такой момент, что на LinkedIn профиль тоже смотрят (надо заполнять 😃). А джуны, согласно исследованию, могут найти работу быстрее мидлов и синьоров. На это есть много причин, говоря даже по опыту: - большая вилка ЗП, которую компании не готовы предложить - часто под выполнение текущих задач компаниям хочется взять синьора, но после собеседований мидлы под скоп текущих задач тоже подходят (берут их по вилке ниже, а по их ожиданиям получается даже порадовать кандидата) - иногда синьоры находятся в поиске в shadow mode (не активно проходят собесы, а многие вакансии отбрасывают по другим причинам) Может быть интересно провести онлайн встречу с HR специалистами и пообщаться с ними на тему найма 🤔 Ставьте в реакции 🔥 если такая онлайн встреча вам будет интересна

9 476

Привет! Слышали ли вы про понятие DataOps? Если нет, то сейчас разберем вместе, что оно обозначает. 🔎 DataOps - это методология и набор практик непрерывной интеграции данных, автоматизации и мониторинга управления данными в течение всего их жизненного цикла. Какие задачи входят в DataOps? 📍автоматизация процессов загрузки данных в хранилища 📍мониторинг операционных потоков данных 📍оптимизация аналитики данных 📍создание инфраструктуры для корректного хранения, движения и использования данных Полезные ссылки для погружения в тему: 🔗 DataOps Wikipedia 🔗 Концепция DataOps 🔗 DataOps в Big Data 🔗 What is DataOps Вполне возможно, что через какое-то время или уже сейчас будут появляться вакансии с названием DataOps-инженер, поэтому стоит разобраться в этой теме и понимать о чем идет речь 😉

9 476

Repost from Книги по аналитике (BA, DA, SA, PA)

Алан Бьюли / Изучаем SQL "SQL - язык для формирования, манипулирования и извлечения данных из реляционных БД. Если вы собираетесь работать с реляционными БД - разрабатывать приложения, администрировать, либо делать аналитику на основе данных - вам понадобится знать SQL." Скачать книгу

9 476

Для тех кто видит перед собой потребность в изучении SQL, книга будет полезным помощником для самостоятельного обучения. Узнаете основные термины, которые используются в реляционных БД, а также научитесь работать с MySQL 😉 А вообще можете посмотреть и другие книги в канале. Туда выкладываю то, что считаю будет полезными ресурсами для погружения в работу с данными в аналитике. Чтобы все было под рукой в одной библиотеке

9 476

Типы таблиц в PostgreSQL: clustered, foreign, partitioned и inherited tables Читать статью

9 476

User Persona и как это помогает в разработке продуктов Привет! Сегодня решил собрать для вас полезные материалы по написанию user persona, которые могут являться как часть пользовательских требований при разработке решения. 🔎 "User Persona (Персона) - это обобщенное, но реалистичное описание типичного или целевого пользователя продукта, то есть архетип, а не реальный живой человек, но персонажи должны описываться так, как если бы они были настоящими людьми." Зачем нужно описывать персоны: - детальное описание потребностей пользователя - понимание процесса использования продукта пользователем - возможность смотреть на разработку решения со стороны пользователя Полезные ресурсы по теме: 📍Статья "Об использовании персон (персонажей) пользователей при разработке продуктов" 📍Статья "Метод персон в UX: зачем нужен, почему работает и как применять" 📍Статья "User Story Mapping: от идеи до релиза" 📍Шаблон User Persona в Miro 📍Шаблона User Persona от меня

9 476

Привет! Хотел сделать небольшой проект и посчитать зарплаты в IT на основе открытых вакансий. Можно было собрать описание вакансий с зарплатными вилками, а дальше сделать визуализацию собранных данных по разным категориям (регионы, должности, грейды), а потом поделиться с вами обзором результатов. Идея хорошая, чтобы понимать текущие зарплатные вилки, но все уже сделали за меня 😁 Хабр Карьера сделали детальный обзор по зарплатам в IT за первое полугодие 2022. Судя по описанию, их исследование ценно тем, что данные собираются не просто из вакансий, а желающие люди на портале анонимно могут указать свою текущую ЗП, которая и будет учитываться в отчете. То, что предлагают в вакансии, и что кандидат может получать в реальности - это иногда совсем разные цифры. Ставьте реакции, если интересно читать контент про различные обзоры рынка, а я пойду дальше разбираться с Superset и писать требования для нового сайта 😃 Читать зарплатный отчет

9 476

Индексы в БД 🔎 Индексы - структура данных в базе, которая позволяет определить положение необходимых данных в базе с более высокой скоростью выполнения запросов к БД. Пример для понимания: представьте, что вы ходите по торговому центру с целью найти магазин X. Если вы будете обходить весь торговый центр в поисках, пытаясь найти магазин по вывеске, это будет очень долго. Гораздо проще иметь в торговом центре карту или схему расположения магазинов с номерными знаками каждого магазина. Вот эти номерные знаки на карте магазинов возле их названия и будут подобием индексов в базе данных. Зачем нужны индексы: - более быстрый поиск необходимых данных внутри таблицы - фильтрация данных по столбцу с индексом происходит быстрее - объединение данных из таблиц, если в условиях объединения есть столбцы с индексами - сортировка выборок данных также может ускориться при помощи сортировки по полю с индексом Синтаксис создания индекса:

CREATE INDEX index_name ON table_name (column_name)

📍Это один из частых вопросах на собеседованиях, поэтому нужно понимать что такое индексы и как их можно применять Полезные ссылки для знакомства с индексами: - Что такое индексы (статья) - Как создавать индексы в PostgreSQL (статья) - Индексы (видео) - Индексы для оптимизации SQL запросов (статья)

9 476

Привет! Давно не выходил на связь, буду исправляться) Нашел статью с подборкой огромного количества материалов для развития soft-skills. Каждый может найти для себя что-то полезное, я вот выписал себе несколько книг и прочитал уже парочку статей про эмоциональный интеллект и управление ресурсами. Ресурсы в статье: 📍Деловое общение 📍Клиентоцентричность 📍Когнитивная гибкость 📍Коммуникация 📍Управление командой, проектом, процессом 📍Креативное мышление 📍Критическое мышление 📍Наставничество/менторинг 📍Презентация и ораторское искусство 📍Решение проблем и принятие решений 📍Системное мышление 📍Стресс-менеджмент 📍Управление ресурсами 📍Целеполагание 📍Эмоциональный интеллект Ссылка на статью

9 476

Привет! Осваиваю технологию Docker, т.к. до этого с ней руками сам не работал а только от коллег разработчиков и DevOps-инженеров слышал про контейнеры и образы 😃. А тут стало интересно, как можно разворачивать приложения локально без установки кучи сторонних библиотек и отслеживанием зависимостей их версий и совместимости. В общем, аналитикам может это и не нужно знать на твердом уровне hard навыка, но минимум принцип работы понимать необходимо. А если захочется установить open source инструмент себе локально и поиграться с ним, то Docker в этом может очень сильно помочь. Делюсь ссылочкой на видео, которое я смотрю ⬇️ Видео по Docker

9 476

Привет! Делюсь небольшой, но полезной шпаргалкой по PySpark и Spark SQL. Позже обязательно расскажу подробнее про PySpark и его области применения 😉

9 476

Новая конференция про системный и бизнес-анализ — Flow В ноябре JUG Ru Group организует конференцию для аналитиков — Flow 2022. В программе — технические доклады и дискуссии об архитектуре, требованиях, стандартах, документации и архитектуре данных. У вас большой опыт в аналитике или есть интересные кейсы? Тогда подавайте заявку на выступление. Программный комитет поможет с подготовкой: назначит персонального куратора, проведет ревью материала и организует репетиции. Выбирайте тему выступления на сайте или предлагайте свои идеи — их обязательно рассмотрят. Всем спикерам JUG Ru Group дарит билет на все конференции сезона в онлайне и офлайне. А билеты можно купить здесь.

9 476

Easy Code - канал с бесплатным книгами, шпаргалками, полезными статьями по анализу данных и программированию. Подписывайтесь, пригодится! @code_easy