ru
Feedback
DataEng

DataEng

Открыть в Telegram

Data Engineering & Distributed Systems Contact @adilkhash

Больше
4 401
Подписчики
-124 часа
-87 дней
+130 день
Архив постов
DataEng
4 401
Всем привет! Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144 Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей. Спасибо!

DataEng
4 401
Вышла новая версия Apache Spark 3: https://spark.apache.org/releases/spark-release-3-0-0.html

DataEng
4 401
Если вы сейчас рассматриваете предложения о работе и в частности в сфере data engineering, то на сайте remotelist.ru есть отдельная категория DataOps: https://remotelist.ru/category/dataops-jobs/ Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/ Также есть телеграм канал: @remotelist и бот @RemoteListBot P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊

DataEng
4 401
A Brief History of Dask: https://coiled.io/blog/history-dask.html Dask может быть лучшей альтернативой Apache Spark

DataEng
4 401
Интересный обзор новых БД от автора книги Seven databases in seven weeks. Автор планирует написать 3 поста с небольшими обзорами главных фич. Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы. Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/

DataEng
4 401
как распараллелить ваш python код на лямбды? очень просто — используйте http://pywren.io/

DataEng
4 401
Вполне валидный пост про сравнение Apache Pulsar с Apache Kafka: https://www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/

DataEng
4 401
В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c

DataEng
4 401

DataEng
4 401
Скрещивание OLAP БД ClickHouse и стриминговых инструментов Apache Kafka и ksqlDB: https://medium.com/streamthoughts/how-to-build-a-real-time-analytical-platform-using-kafka-ksqldb-and-clickhouse-bfabd65d05e4

DataEng
4 401
Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл. Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме. Огромное уважение автору за титанический труд!

DataEng
4 401
Состоялся мажорный выпуск новой версии ETL инструмента Luigi - luigi 3.0. Из глобальных изменений там только отказ от поддержки Python2 по понятным причинам. Из новых фишечек добавили лишь более удобную визуализацию статуса работы воркера (при условии, что вы обновляете прогресс). Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi. Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут

DataEng - Статистика и аналитика Telegram-канала @dataeng