ch
Feedback
DataEng

DataEng

前往频道在 Telegram

Data Engineering & Distributed Systems Contact @adilkhash

显示更多
4 401
订阅者
-124 小时
-87
+130
帖子存档
DataEng
4 400
Uber зарелизил библиотеку для работы с Amazon Athena на языке Go: https://eng.uber.com/introducing-athenadriver/ Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/ В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py

DataEng
4 400
В подкасте Software Engineering Daily вышел эпизод про исследования в области распределённых систем. Гостем выпуска стал Peter Alvaro: https://softwareengineeringdaily.com/2020/05/28/distributed-systems-research-with-peter-alvaro/

DataEng
4 400

DataEng
4 400
Кратко о том, что будет в Apache Airflow 2.0: https://www.youtube.com/watch?v=FLlO3QTIrUI

DataEng
4 400
​​В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений. Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки. В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных 🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw

DataEng
4 400
Статья про внутреннее устройство pandas, а если быть точнее, то про BlockManager: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html

DataEng
4 400
Дмитрий с канала @rockyourdata запустил бесплатный курс по дата инженерии у себя на ютуб-канале: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg

DataEng
4 400
крутой cheatsheet по оконным функциям SQL 😎

DataEng
4 400
Совсем забыл. Не так давно писал пост про оконные функции SQL. Рассмотрел далеко не все функции, но постарался основную идею передать, надеюсь, что мне это удалось 🍀 Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/

DataEng
4 400
Гайд от AWS про дата пайплайны в индустрии GameTech: https://aws.amazon.com/ru/solutions/implementations/game-analytics-pipeline/

DataEng
4 400
DataCamp дают бесплатный доступ ко всем их материалам на 1 неделю, с 15 по 22 мая — https://bit.ly/2Z670Sb Сам периодически прохожу там курсы, очень доволен.

DataEng
4 400
В прошлом посте я давал ссылку на какой-то стриминговый сервис, который требовал регистрацию перед просмотром. Сегодня обнаружил, что запись митапа выложена на ютубе

DataEng
4 400
Вчера прошел онлайн митап на тему, что нового нас ждёт в предстоящем релизе Apache Airflow 2.0 - Слайды - Запись митапа Когда именно состоится релиз версии 2.0 точно не известно, но разработчики надеются, что он будет в 3-ем квартале 2020 года. Пожелаем ребятам удачи! 🍀 А вы чем пользуетесь для построение пайплайнов? Напишите, пожалуйста, в комментариях к посту.

DataEng
4 400
В блоге Confluent вышла интересная статья про построение Telegram бота на Python и ksqlDB: https://www.confluent.io/blog/building-a-telegram-bot-powered-by-kafka-and-ksqldb/

DataEng
4 400
На хабре вышла полезная статья про построение кластера на Dask: https://habr.com/ru/post/499086/

DataEng
4 400
Очень крутой вебинар от архитекторов AWS на русском языке про устройство базы данных AWS Aurora: https://emea-resources.awscloud.com/rus-ua-cis-webinars-in-russian-2020/webinar-aws-aurora

DataEng
4 400
К вопросу про целесообразность построение проекта на основе микросервисной архитектуры. Почитайте полезный пост от Twitter о том как они у себя удаляют данные в своём распределённом улье: https://blog.twitter.com/engineering/en_us/topics/infrastructure/2020/deleting-data-distributed-throughout-your-microservices-architecture.html Весьма актуально в эпоху GDPR

DataEng
4 400
Кейс Zalando о построении своего Data Lake на AWS: https://aws.amazon.com/de/blogs/storage/how-zalando-built-its-data-lake-on-amazon-s3/