4 399
Подписчики
-124 часа
-87 дней
+130 день
Архив постов
4 399
Если вы пользуетесь Apache Airflow для построения batch-процессов и хотите знать тонкости его работы, то рекомендую к прочтению пост: How Apache Airflow Distributes Jobs on Celery workers
4 399
Принципы построения дата пайплайнов из презентации:
- Understand the data consumer
- Understand the data
- Keep data in its raw form
- Do not delete or move your raw data
- Validate your extracted data before saving
- Transform your data over all time
- Separate you E-TL
- Minimize the number of data and compute nodes
- Store all you data of practically feasible to do so
- Make your ETL acyclical
- Validate your data before its given to consumers
- Join your data at the database level
- Monitor your data
4 399
Хороший доклад про принципы построения пайплайнов без привязки к каким-либо инструментам: Data Engineering Principles - Build frameworks not pipelines
4 399
В техническом блоге DataDog вышел крутой материал про построение надёжных дата пайплайнов: Building Highly Reliable Data Pipelines at Datadog
4 399
Собрал свои мысли в одно место и таким образом появилась статья Как статья Data Engineer. Область Data Engineering активно растёт, надеюсь материал будет полезен!
4 399
В подкасте Software Engineering Daily вышел эпизод про Apache Superset с его создателем Maxime Beauchemin: https://softwareengineeringdaily.com/2019/03/22/apache-superset-with-maxime-beauchemin/
4 399
Пост в блоге про новый nano degree: https://blog.udacity.com/2019/03/learn-data-engineering-nanodegree-program.html
4 399
На Udacity вышел Nano degree про Data Engineering: https://www.udacity.com/course/data-engineer-nanodegree--nd027, цена правда заоблачная - $999
4 399
Друзья, есть идея и наработки по записи небольшого курса про построение data pipelines на Luigi и введению в DataEng. Этот инструмент я активно использую, поэтому есть чем поделиться. Вопрос - купили бы Вы такой курс за 650 руб.?
4 399
История развития Apache Flink в блоге Alibaba Tech: https://medium.com/@alitech_2017/a-brief-history-of-flink-tracing-the-big-data-engines-open-source-development-87464fd19e0f
4 399
Неплохое введение в распределённую БД FoundationDB от компании Apple: https://tech.marksblogg.com/minimalist-guide-tutorial-foundationdb.html
4 399
Классный доклад про DB Event Streaming на Qcon: https://www.infoq.com/presentations/wepay-database-streaming
4 399
На сайте baseDS тем временем вышли 2 новые статьи:
- Transparency: Illusions of a Single System (Part 1)
- Transparency: Illusions of a Single System (Part 2)
4 399
Пару дней назад от программы Insight Data Engineering прошел вебинар на тему Transitioning to Data & DevOps Engineering. Его цель - познакомить начинающих Data/DevOps инженеров со сферой и помочь в неё плавно окунуться.
Помимо вебинара вам также может быть полезна их статья Preparing for the Transition to Data Engineering
4 399
Does my Startup Data Team Need a Data Engineer?
Отличный пост, где автор рассуждает о роли Data Engineer в современных data организациях. Основная идея в том, что привычные ETL задачи легко автоматизируются благодаря сервисам типа Stitch, поэтому роль Data Engineer смещается в сторону построения data infrastructure со всеми вытекающими (reliability, data consistency, monitoring и т.д.), активной работе с командой аналитиков (data scientists, data analysts). Автор утверждает, что дата инженер это командный игрок роль которого всячески оказывать поддержку людям, формирующим выводы из данных.
А ещё мне понравилась фраза: data engineers don’t provide direct business value—their value comes in making your data analysts and scientists more productive.
Must read!
4 399
Apache Airflow стал полноценным членом Apache Software Foundation: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44
4 399
В сети появился блог, где, по словам автора, каждую среду будет появляться статья на тему основ распределённых систем в течение года: http://bit.ly/2ArN4fe
4 399
В блоге Lyft появилась статья о том как компания использует Apache Airflow в своей работе: https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
