4 401
Subscribers
-124 hours
-87 days
+130 days
Posts Archive
4 401
Всем привет!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
4 401
Вышла новая версия Apache Spark 3: https://spark.apache.org/releases/spark-release-3-0-0.html
4 401
Если вы сейчас рассматриваете предложения о работе и в частности в сфере data engineering, то на сайте remotelist.ru есть отдельная категория DataOps: https://remotelist.ru/category/dataops-jobs/
Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/
Также есть телеграм канал: @remotelist и бот @RemoteListBot
P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊
4 401
A Brief History of Dask: https://coiled.io/blog/history-dask.html
Dask может быть лучшей альтернативой Apache Spark
4 401
Интересный обзор новых БД от автора книги Seven databases in seven weeks. Автор планирует написать 3 поста с небольшими обзорами главных фич.
Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы.
Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/
4 401
как распараллелить ваш python код на лямбды? очень просто — используйте http://pywren.io/
4 401
Kafka в недрах Dropbox: https://dropbox.tech/infrastructure/finding-kafkas-throughput-limit-in-dropbox-infrastructure
4 401
Вполне валидный пост про сравнение Apache Pulsar с Apache Kafka: https://www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/
4 401
В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c
4 401
Скрещивание OLAP БД ClickHouse и стриминговых инструментов Apache Kafka и ksqlDB: https://medium.com/streamthoughts/how-to-build-a-real-time-analytical-platform-using-kafka-ksqldb-and-clickhouse-bfabd65d05e4
4 401
А вот ещё набор из мини-курсов от Kaggle:
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
4 401
Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл.
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
4 401
Состоялся мажорный выпуск новой версии ETL инструмента Luigi - luigi 3.0. Из глобальных изменений там только отказ от поддержки Python2 по понятным причинам. Из новых фишечек добавили лишь более удобную визуализацию статуса работы воркера (при условии, что вы обновляете прогресс).
Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.
Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
Available now! Telegram Research 2025 — the year's key insights 
