uk
Feedback
DataEng

DataEng

Відкрити в Telegram

Data Engineering & Distributed Systems Contact @adilkhash

Показати більше
4 402
Підписники
-724 години
-87 днів
+630 день
Архів дописів
DataEng
4 401

DataEng
4 401
Двумя постами выше упоминал про Apache Gobblin, а сегодня вышла новость о том, что проект переведён из статуса Incubating в статус Top-Level. А это значит, что теперь проект соответствует всем требования Apache Foundation и становится полноценным Apache Project: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces73 Инструмент интересный, планировал поставить его и поиграться, а там глядишь и пост в блоге появится 😀

DataEng
4 401
Хорошее вводное видео про старт в области data engineering: https://bit.ly/3k07XnC Если вас не смущает индийский акцент, то в остальном очень даже полезная инфа.

DataEng
4 401
Весьма доступное объяснение работы Raft алгоритма: https://www.brianstorti.com/raft/ Ещё у автора есть хорошая статья про Actors: https://www.brianstorti.com/the-actor-model/

DataEng
4 401
Наткнулся на статью про эволюцию дата-инфраструктуры в Paypal. Как итог, открыл для себя ещё один инструмент Apache Gobblin. В Paypal более 300 миллионов пользователей, объём данных неуклонно растёт, куча легаси, сотни петабайт данных на Hadoop и других аналитических инструментах. Я так понял, что и команд там много, каждая пользуется какими-то своими решениями для работы с данными. Чтобы выстроить централизованный процесс они решили перейти на Apache Gobblin и Apache Airflow. Первая балалайка это какой-то распределенный фреймворк, отвечающий за жизненный цикл данных, а Airflow все мы знаем и любим. Из коробки Gobblin не дружит с Airflow (но дружит со всякими Oozie и Azkaban), поэтому Paypal написали свой костыль. Gobblin кажется интересным инструментом, сочетающим в себе все новомодные фразы типа data observability, data quality и т.д (хотя впервые увидел свет в 2015 году). Странно, что ещё не появилось managed решения на его основе.

DataEng
4 401
​​Пока готовлю курс и пишу практические примеры, попутно копаюсь в коде Airflow. В один из таких заходов решил заюзать TelegramOperator, который появился во второй версии в декабре. При первом же запуске понял, что код нерабочий. Автор кода его даже не тестировал 😂 Проблема была в шаблонных полях при передаче сообщений в телеграм. Как итог сделал первый пул-реквест в Airflow, починил баги и покрыл всё это дело тестами. Исправления будут в версии 2.0.2.

DataEng
4 401
Подборка снипетов кода на Python, которые могут ввести в заблуждение и расходиться с привычным для вас поведением: https://github.com/satwikkansal/wtfpython Такие штуки могут пригодиться на собеседованиях. К сожалению, есть ещё люди, которые судят о ваших знаниях языка на основе таких перлов (о которых сами узнали буквально пару дней назад 🤣)

DataEng
4 401
​​Как профессиональные Data Engineer работают с моделями ML? Приглашаем вас перенять экспертный опыт 11 февраля на демо-занятии «ML в Spark». Вместе с Вадимом Заигриным, Software Engineering Team Lead в Teradata, вы за 2 часа разберете особенности ML в Spark, рассмотрите процесс разработки моделей, научитесь переводить обученные модели в production. Демо-урок входит в программу онлайн-курса «Data Engineer». Для регистрации и участия в вебинаре, пройдите вступительный тест https://otus.pw/LouW/

DataEng
4 401
Два бомбических поста про базы данных: 1. Why I love databases 2. How Sharding Works

DataEng
4 401
Интересная большая статья от Alibaba Cloud про концепции озера данных: https://alibaba-cloud.medium.com/data-lake-concepts-characteristics-architecture-and-case-studies-28be1b265624 В том числе автор проводит сравнительный анализ на примере разных облачных провайдеров (AWS, Azure, Alibaba)

DataEng
4 401
В новом выпуске подкаста TalkPython гостем стал ведущий другого подкаста про Data Engineering — Tobias Macey. Подкаст получился обзорным и интересным — The Data Engineering Landscape in 2021

DataEng
4 401
В Стэнфорде сейчас проходит интересный курс Machine Learning Systems Design. К сожалению, видеолекций пока нет, непонятно будут ли они позже выложены, но есть интересные Lecture notes. Вчера обнаружил такую заметку по теме Data engineering. Она скорее для начинающих, но даёт хороший структурированный фундамент для входа в эту область. Рекомендую для ознакомления!

DataEng
4 401

DataEng
4 401
​​Какие инструменты необходимы Data Engineer для работы с данными? Об этом расскажет 2 февраля в 20:00 Артемий Козырь, Senior Data Engineer в Wheely. Эксперт поделится карьерными инсайтами, представит программу онлайн-курса «Data Engineer» и ответит на ваши вопросы. Вы узнаете, чем отличается курс, как организована практика и получите возможность сэкономить на обучении. Чтобы лучше подготовиться к встрече, пройдите вступительный тест, который позволит вам оценить сложность курса. Регистрируйтесь на вебинар и подключайтесь! Ссылка на регистрацию - https://otus.pw/hhdp/

DataEng
4 401
Всем привет! 👋 Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/ ⏲ Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧 Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.

DataEng
4 401
Интересный сборник data engineering материала: https://github.com/abhishek-ch/around-dataengineering

DataEng
4 401
Кейс Dropbox по использованию Apache Superset: https://dropbox.tech/application/why-we-chose-apache-superset-as-our-data-exploration-platform