DataEng

Открыть в Telegram

Data Engineering & Distributed Systems Contact @adilkhash

Больше

Россия126 818 Технологии и приложения20 696

4 399

Подписчики

-124 часа

-87 дней

+130 день

1 264

Просмотры поста

Нет данных24 часа

Нет данных48 часов

28.72%

Коэффициент вовлеченности

Нет данных

Постов в день

Ads index

beta

Архив постов

4 399

В базе данных Amazon Redshift наконец то стали доступны материализованный представления (materialized views) для всех: https://aws.amazon.com/ru/blogs/aws/materialize-your-amazon-redshift-views-to-speed-up-query-execution/

4 399

Ребята из AppsFlyer поделились кейсом использования Apache Airflow: https://medium.com/appsflyer/how-appsflyer-uses-apache-airflow-to-run-over-3-5k-daily-jobs-and-more-683106cb24fc Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/

4 399

В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именно: - Amazon S3 - Amazon Glue - Amazon Athena Прочитать можно по ссылке: http://bit.ly/2Tkcswc Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake

4 399

Доклад Future of Data Engineering на QCon от инженера из WePay: https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/

4 399

Сам отчёт Dice.com 🔥

4 399

Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fastest Growing Tech Occupations с результатом 50%. Это значит, что спрос на дата инженеров вырос на 50% в сравнении с 2019 годом. Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.

4 399

Amazon опубликовали научную статью по работе Firecracker. Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications

4 399

Накатал статейку про введение в Apache Airflow: http://bit.ly/37o3tiD

4 399

Друзья, ссылка на вебинар: https://www.youtube.com/watch?v=fkKKD93WA4s. Начало через 7 минут. С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.

4 399

10 февраля в 20:00 МСК OTUS приглашает на открытый вебинар “Data Build Tool для хранилища Amazon Redshift” . Запишитесь https://otus.pw/PZUt/ - пришлем напоминание в день вебинара. На занятии мы рассмотрим построение моделей и зависимостей. Также изучим полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование. Вебинар проходит в рамках набора на профессиональный онлайн-курс "Data Engineer" , а проведет его преподаватель курса Артемий Козырь, Senior Data Engineer, более 5-ти лет опыта работы с Хранилищами Данных. Чтобы попасть на онлайн-курс "Data Engineer" с welcome-скидкой прямо сейчас, пройдите вступительный тест!

4 399

Доклад про ETL на базе event-driven от сотрудника Confluent: https://talks.rmoff.net/Jn6rgo#sriL5Sw

4 399

Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP). Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/

4 399

Нашел интересный пост про уровни зрелости организаций относительно аналитики на имеющихся данных. Автор на основе своего опыта выделил 4 уровня: 0. Латентный (Latent) На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений. 1. Анализ (Analysis) На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных. 2. Обучение (Learning) К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing. 3. Действие (Acting) Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение). Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc А на каком уровне находитесь вы?

4 399

Всем привет! На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США. Из наиболее популярных навыков для дата инженера упоминаются: - Apache Spark - Hadoop - Python - SQL - ETL - Amazon Web Services Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.

4 399

В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/ Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.

4 399

На Data Engineering Podcast вышел выпуск про SnowflakeDB: https://www.dataengineeringpodcast.com/snowflakedb-cloud-data-warehouse-episode-110/

4 399

Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: http://bit.ly/2OgHC6m

4 399

Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming

4 399

Друзья! На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях. Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д). В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом. Стоимость курса всего $10. Ссылка на курс: http://bit.ly/36P1eWG Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.

4 399

Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2