fa
Feedback
DataEng

DataEng

رفتن به کانال در Telegram

Data Engineering & Distributed Systems Contact @adilkhash

نمایش بیشتر
4 399
مشترکین
-124 ساعت
-87 روز
+130 روز
آرشیو پست ها
DataEng
4 399
Если вы пользуетесь Apache Airflow для построения batch-процессов и хотите знать тонкости его работы, то рекомендую к прочтению пост: How Apache Airflow Distributes Jobs on Celery workers

DataEng
4 399
Принципы построения дата пайплайнов из презентации: - Understand the data consumer - Understand the data - Keep data in its raw form - Do not delete or move your raw data - Validate your extracted data before saving - Transform your data over all time - Separate you E-TL - Minimize the number of data and compute nodes - Store all you data of practically feasible to do so - Make your ETL acyclical - Validate your data before its given to consumers - Join your data at the database level - Monitor your data

DataEng
4 399
Хороший доклад про принципы построения пайплайнов без привязки к каким-либо инструментам: Data Engineering Principles - Build frameworks not pipelines

DataEng
4 399
В техническом блоге DataDog вышел крутой материал про построение надёжных дата пайплайнов: Building Highly Reliable Data Pipelines at Datadog

DataEng
4 399
Собрал свои мысли в одно место и таким образом появилась статья Как статья Data Engineer. Область Data Engineering активно растёт, надеюсь материал будет полезен!

DataEng
4 399
В подкасте Software Engineering Daily вышел эпизод про Apache Superset с его создателем Maxime Beauchemin: https://softwareengineeringdaily.com/2019/03/22/apache-superset-with-maxime-beauchemin/

DataEng
4 399
Пост в блоге про новый nano degree: https://blog.udacity.com/2019/03/learn-data-engineering-nanodegree-program.html

DataEng
4 399
На Udacity вышел Nano degree про Data Engineering: https://www.udacity.com/course/data-engineer-nanodegree--nd027, цена правда заоблачная - $999

DataEng
4 399
Друзья, есть идея и наработки по записи небольшого курса про построение data pipelines на Luigi и введению в DataEng. Этот инструмент я активно использую, поэтому есть чем поделиться. Вопрос - купили бы Вы такой курс за 650 руб.?
Anonymous voting

DataEng
4 399

DataEng
4 399
Неплохое введение в распределённую БД FoundationDB от компании Apple: https://tech.marksblogg.com/minimalist-guide-tutorial-foundationdb.html

DataEng
4 399
Классный доклад про DB Event Streaming на Qcon: https://www.infoq.com/presentations/wepay-database-streaming

DataEng
4 399
Вебинары на тему RabbitMQ vs. Kafka: Part I Part II

DataEng
4 399
На сайте baseDS тем временем вышли 2 новые статьи: - Transparency: Illusions of a Single System (Part 1) - Transparency: Illusions of a Single System (Part 2)

DataEng
4 399
Внутреннее устройство PostgreSQL: http://www.interdb.jp/pg/index.html

DataEng
4 399
Пару дней назад от программы Insight Data Engineering прошел вебинар на тему Transitioning to Data & DevOps Engineering. Его цель - познакомить начинающих Data/DevOps инженеров со сферой и помочь в неё плавно окунуться. Помимо вебинара вам также может быть полезна их статья Preparing for the Transition to Data Engineering

DataEng
4 399
Does my Startup Data Team Need a Data Engineer? Отличный пост, где автор рассуждает о роли Data Engineer в современных data организациях. Основная идея в том, что привычные ETL задачи легко автоматизируются благодаря сервисам типа Stitch, поэтому роль Data Engineer смещается в сторону построения data infrastructure со всеми вытекающими (reliability, data consistency, monitoring и т.д.), активной работе с командой аналитиков (data scientists, data analysts). Автор утверждает, что дата инженер это командный игрок роль которого всячески оказывать поддержку людям, формирующим выводы из данных. А ещё мне понравилась фраза: data engineers don’t provide direct business value—their value comes in making your data analysts and scientists more productive. Must read!

DataEng
4 399
Apache Airflow стал полноценным членом Apache Software Foundation: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44

DataEng
4 399
​​В сети появился блог, где, по словам автора, каждую среду будет появляться статья на тему основ распределённых систем в течение года: http://bit.ly/2ArN4fe

DataEng
4 399
В блоге Lyft появилась статья о том как компания использует Apache Airflow в своей работе: https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff