4 399
Подписчики
-124 часа
-87 дней
+130 день
Архив постов
4 399
В базе данных Amazon Redshift наконец то стали доступны материализованный представления (materialized views) для всех: https://aws.amazon.com/ru/blogs/aws/materialize-your-amazon-redshift-views-to-speed-up-query-execution/
4 399
Ребята из AppsFlyer поделились кейсом использования Apache Airflow: https://medium.com/appsflyer/how-appsflyer-uses-apache-airflow-to-run-over-3-5k-daily-jobs-and-more-683106cb24fc
Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/
4 399
В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именно:
- Amazon S3
- Amazon Glue
- Amazon Athena
Прочитать можно по ссылке: http://bit.ly/2Tkcswc
Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake
4 399
Доклад Future of Data Engineering на QCon от инженера из WePay: https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/
4 399
Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fastest Growing Tech Occupations с результатом 50%. Это значит, что спрос на дата инженеров вырос на 50% в сравнении с 2019 годом.
Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф
Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.
4 399
Amazon опубликовали научную статью по работе Firecracker.
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications
4 399
Друзья, ссылка на вебинар: https://www.youtube.com/watch?v=fkKKD93WA4s. Начало через 7 минут.
С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.
4 399
10 февраля в 20:00 МСК OTUS приглашает на открытый вебинар “Data Build Tool для хранилища Amazon Redshift” . Запишитесь https://otus.pw/PZUt/ - пришлем напоминание в день вебинара.
На занятии мы рассмотрим построение моделей и зависимостей. Также изучим полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование.
Вебинар проходит в рамках набора на профессиональный онлайн-курс "Data Engineer" , а проведет его преподаватель курса Артемий Козырь, Senior Data Engineer, более 5-ти лет опыта работы с Хранилищами Данных.
Чтобы попасть на онлайн-курс "Data Engineer" с welcome-скидкой прямо сейчас, пройдите вступительный тест!
4 399
Доклад про ETL на базе event-driven от сотрудника Confluent: https://talks.rmoff.net/Jn6rgo#sriL5Sw
4 399
Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).
Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html
Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
4 399
Нашел интересный пост про уровни зрелости организаций относительно аналитики на имеющихся данных.
Автор на основе своего опыта выделил 4 уровня:
0. Латентный (Latent)
На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений.
1. Анализ (Analysis)
На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных.
2. Обучение (Learning)
К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing.
3. Действие (Acting)
Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение).
Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc
А на каком уровне находитесь вы?
4 399
Всем привет!
На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer
В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.
Из наиболее популярных навыков для дата инженера упоминаются:
- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services
Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.
4 399
В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.
4 399
На Data Engineering Podcast вышел выпуск про SnowflakeDB: https://www.dataengineeringpodcast.com/snowflakedb-cloud-data-warehouse-episode-110/
4 399
Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: http://bit.ly/2OgHC6m
4 399
Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming
4 399
Друзья!
На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.
Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).
В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.
Стоимость курса всего $10. Ссылка на курс: http://bit.ly/36P1eWG
Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
4 399
Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
