ch
Feedback
DataEng

DataEng

前往频道在 Telegram

Data Engineering & Distributed Systems Contact @adilkhash

显示更多
4 399
订阅者
-124 小时
-87
+130
帖子存档
DataEng
4 399
17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики: - Data Architecture 101 for Your Business - Presto: Optimizing Performance of SQL-on-Anything - Data Modeling and Processing for a Travel Super App - Revenue Maximization in the Shared Bike Business - Building Data Orchestration for Big Data Analytics in the Cloud Весь плейлист можно посмотреть по ссылке

DataEng
4 399
Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry

DataEng
4 399
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

DataEng
4 399
в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/

DataEng
4 399
трезвая статья про кафку: https://vicki.substack.com/p/you-dont-need-kafka

DataEng
4 399

DataEng
4 399
Интересный доклад про построение дата-инжиниринг культуры: Creating a Data Engineering Culture

DataEng
4 399
Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen). Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine

DataEng
4 399
Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/

DataEng
4 399
Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37

DataEng
4 399
На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow

DataEng
4 399
​​Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers

DataEng
4 399
Если вы у себя используете Airflow, то эта статейка может быть весьма к стати: https://medium.com/flatiron-engineering/upgrading-airflow-with-zero-downtime-8df303760c96

DataEng
4 399
Обзорная презентация с Google IO про сервисы Google Cloud Platform. Будет интересно начинающим: https://www.youtube.com/watch?v=h4NJdvUcq2c

DataEng
4 399
Обзор архитектуры Apache Spark с "высоты птичьего полёта": https://hackernoon.com/high-level-overview-of-apache-spark-c225a0a162e9

DataEng
4 399
Сейчас идёт конференция PyCon US 2019. Один туториал был посвящен построению пайплайнов на Apache Airflow: https://youtu.be/n9_JjmHRtys

DataEng
4 399
Появилось видео моей презентации на Kolesa Conf в Алматы, которая проходила 12 апреля. Тема моей презентации: ETL на Python. Видео

DataEng
4 399
Интересный кейс про построение дата пайплайна через Python и Celery для обновления Amazon Redshift - читать. Советую изучения ради. Если же у вас стоит подобная задача, то рекомендую использовать наиболее подходящие для этого инструменты, например, Luigi или Apache Airflow. Как сделать pipeline на Luigi я писал ещё в 2017 году в блоге. Для любителей celery тоже есть интересная статейка.

DataEng
4 399
Нашел очень интересный доклад от Chief Data Engineer компании Paypal Sid Anand про data инфраструктуру компании. К слову, Paypal ежедневно обрабатывает более 1 миллиарда долларов транзакций в 200 странах. Как всё это работает и не падает смотрите в докладе

DataEng
4 399
В блоге AirBnB вышла полезная статья про идемпотентный фреймворк для построения распределенных систем. В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса. Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb