ru
Feedback
DataEng

DataEng

Открыть в Telegram

Data Engineering & Distributed Systems Contact @adilkhash

Больше
4 399
Подписчики
-124 часа
-87 дней
+130 день
Архив постов
DataEng
4 399
Что необходимо знать разработчику о механизме хранения в базе данных? Узнайте в докладе Алекса Петрова: https://www.youtube.com/watch?v=V667vJzDvt4

DataEng
4 399
Убер в прошлом году запустил в продакшен новую версию своей распределённой платёжной системы. Перед командой стояла цель — создать надёжную отказоустройчивую систему приёма платежей по всему миру для целого спектра продуктов комании: UberRide, UberEats, UberHealth, UberBusiness и тд. Что из этого получилось, смотрите в блоге комании.

DataEng
4 399
Годный твиттер тред про проблемы в распределенных систем: https://twitter.com/janl/status/1072442448893358081?s=20

DataEng
4 399
Нашел на LinkedIn крутой пост про построение своего Data Warehouse на основе Open Source Software: Druid, Airflow и Superset BI: http://bit.ly/2EaCETX

DataEng
4 399
Вышел очередной выпуск Data Engineering Podcast. На этот раз гость программы Patrick Hunt, Tech Lead на проекте Apache Zookeeper. Разговор пойдёт о Zookeeper и его роли в построении распределённых систем: Apache Zookeeper As A Building Block For Distributed Systems

DataEng
4 399
Лучшее введение в построение data pipelines, используя Apache Beam на Python — Hands on Apache Beam, building data pipelines in Python

DataEng
4 399
Воу-Воу! В AWS появилась Kafka как сервис. Новость об этом. Сам сервис можно пощупать здесь.

DataEng
4 399
В блоге у CTO Amazon Werner Vogels вышла хвалебная статья по поводу производительности и устойчивости Amazon Redshift: https://www.allthingsdistributed.com/2018/11/amazon-redshift-performance-optimization.html Создаётся ощущение, что это ответка на статью https://www.concurrencylabs.com/blog/starburst-presto-vs-aws-redshift/

DataEng
4 399
Как Apache Kafka помогает обрабатывать 400 миллиардов сообщений в PayPal: http://bit.ly/2PNG322

DataEng
4 399
Бинго-бонго и джимбо-джамбо! HighLoad++ начали выкладывать доклады с прошедшей одноименной конференции у себя на канале. Доклады выглядят многообещающими, вот самые вкусные тайтлы: - Apache Kafka как основа для велосипедостроения - Базы данных и Kubernetes - Топ ошибок со стороны разработки при работе с PostgreSQL - Анализ производительности запросов в ClickHouse Посмотреть весь плейлист

DataEng
4 399
Распределённые системы требуют наличия некоторых знаний в области математики, но каких именно? Об этом вам расскажет Veronica Lopez в своём замечательно докладе The Math behind Distributed Systems

DataEng
4 399
Wow! Гайд наглядно объясняющий что такое распределённые системы, какие проблемы бывают, а главное, ВНИМАНИЕ, как достичь консенсуса в распределённых системах (paxos, raft): must read

DataEng
4 399
Небольшой отчёт о прошедшей конференции DataEngConf в Нью-Йорке: https://medium.com/memory-leak/recapping-the-dataengconf-eba9d09f06ae. По классике скоро будут опубликованы доклады на канале Hakka Labs.

DataEng
4 399
Нашел статью про проблемы с CDC (Change Data Capture). Change Data Capture - это подход, позволяющий транслировать данные из одного источника в другой, а по пути этими данными манипулировать. То есть выполнение классических ETL задач. Apache Kafka и Kafka Connect самые популярные инструменты для этого. Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation

DataEng
4 399
Github опубликовал "вскрытие" об инциденте, произошедшем несколько дней назад. Напомню, что их систему штормило 24 часа, в это время наблюдались аномалии в виде неконсистетных данных. Более подробно об их распределенной системе https://blog.github.com/2018-10-30-oct21-post-incident-analysis/

DataEng
4 399
К теме про распределённые системы. Автор Julia Evans — https://jvns.ca/
К теме про распределённые системы. Автор Julia Evans — https://jvns.ca/

DataEng
4 399
В сети стали доступны доклады с прошедшего в Сан-Франциско саммита про Apache Kafka (Kafka Summit) Смотреть http://bit.ly/2ERVIZs

DataEng
4 399
​​Ярослав Ткаченко, Senior Data Engineer из Activision, на конференции dotScale 2018 рассказал как выглядит их Data Pipeline для игр серии Call of Dutyhttp://bit.ly/2O5itZf Также Ярослав ведёт свой личный блог — https://sap1ens.com/

DataEng
4 399
Jack Vanlightly открывает серию постов про внутреннее устройство распределенной Pub-Sub (брокер сообщений) системы под названием Apache Pulsar. Apache Pulsar была разработана в стенах компании Yahoo, а позже передана под патронаж Apache Foundation. На данный момент выпущена уже 2-я версия системы. Читать → http://bit.ly/2S51IQX

DataEng
4 399
​​Нашел солидный вводный курс в экосистему Amazon Web Services на русском языке. Сейчас без опыта работы хотя бы с одной из облачных систем (AWS, Google Cloud, MS Azure) сложно разрабатывать масштабируемые приложения. Советую к просмотру, автор проделал титанический труд → http://bit.ly/2yWCJGD