4 399
Suscriptores
-124 horas
-87 días
+130 días
Archivo de publicaciones
4 399
17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики:
- Data Architecture 101 for Your Business
- Presto: Optimizing Performance of SQL-on-Anything
- Data Modeling and Processing for a Travel Super App
- Revenue Maximization in the Shared Bike Business
- Building Data Orchestration for Big Data Analytics in the Cloud
Весь плейлист можно посмотреть по ссылке
4 399
Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry
4 399
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
4 399
в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/
4 399
Стали появляться видео с прошедшей конференции Data Council (бывшая DataEng Conf)
- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics
4 399
Интересный доклад про построение дата-инжиниринг культуры: Creating a Data Engineering Culture
4 399
Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
4 399
Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/
4 399
Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37
4 399
На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow
4 399
Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers
4 399
Если вы у себя используете Airflow, то эта статейка может быть весьма к стати: https://medium.com/flatiron-engineering/upgrading-airflow-with-zero-downtime-8df303760c96
4 399
Обзорная презентация с Google IO про сервисы Google Cloud Platform. Будет интересно начинающим: https://www.youtube.com/watch?v=h4NJdvUcq2c
4 399
Обзор архитектуры Apache Spark с "высоты птичьего полёта": https://hackernoon.com/high-level-overview-of-apache-spark-c225a0a162e9
4 399
Сейчас идёт конференция PyCon US 2019. Один туториал был посвящен построению пайплайнов на Apache Airflow: https://youtu.be/n9_JjmHRtys
4 399
Интересный кейс про построение дата пайплайна через Python и Celery для обновления Amazon Redshift - читать. Советую изучения ради. Если же у вас стоит подобная задача, то рекомендую использовать наиболее подходящие для этого инструменты, например, Luigi или Apache Airflow.
Как сделать pipeline на Luigi я писал ещё в 2017 году в блоге. Для любителей celery тоже есть интересная статейка.
4 399
Нашел очень интересный доклад от Chief Data Engineer компании Paypal Sid Anand про data инфраструктуру компании. К слову, Paypal ежедневно обрабатывает более 1 миллиарда долларов транзакций в 200 странах. Как всё это работает и не падает смотрите в докладе
4 399
В блоге AirBnB вышла полезная статья про идемпотентный фреймворк для построения распределенных систем.
В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса.
Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
