4 401
Suscriptores
-124 horas
-87 días
+130 días
Archivo de publicaciones
4 400
Uber зарелизил библиотеку для работы с Amazon Athena на языке Go: https://eng.uber.com/introducing-athenadriver/
Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/
В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
4 400
В подкасте Software Engineering Daily вышел эпизод про исследования в области распределённых систем. Гостем выпуска стал Peter Alvaro: https://softwareengineeringdaily.com/2020/05/28/distributed-systems-research-with-peter-alvaro/
4 400
Кратко о том, что будет в Apache Airflow 2.0: https://www.youtube.com/watch?v=FLlO3QTIrUI
4 400
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования.
Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений.
Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки.
В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных
🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw
4 400
Статья про внутреннее устройство pandas, а если быть точнее, то про BlockManager: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html
4 400
Дмитрий с канала @rockyourdata запустил бесплатный курс по дата инженерии у себя на ютуб-канале: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg
4 400
Совсем забыл. Не так давно писал пост про оконные функции SQL. Рассмотрел далеко не все функции, но постарался основную идею передать, надеюсь, что мне это удалось 🍀
Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/
4 400
Гайд от AWS про дата пайплайны в индустрии GameTech: https://aws.amazon.com/ru/solutions/implementations/game-analytics-pipeline/
4 400
DataCamp дают бесплатный доступ ко всем их материалам на 1 неделю, с 15 по 22 мая — https://bit.ly/2Z670Sb
Сам периодически прохожу там курсы, очень доволен.
4 400
Вчера прошел онлайн митап на тему, что нового нас ждёт в предстоящем релизе Apache Airflow 2.0
- Слайды
- Запись митапа
Когда именно состоится релиз версии 2.0 точно не известно, но разработчики надеются, что он будет в 3-ем квартале 2020 года. Пожелаем ребятам удачи! 🍀
А вы чем пользуетесь для построение пайплайнов? Напишите, пожалуйста, в комментариях к посту.
4 400
В блоге Confluent вышла интересная статья про построение Telegram бота на Python и ksqlDB: https://www.confluent.io/blog/building-a-telegram-bot-powered-by-kafka-and-ksqldb/
4 400
Появились доклады с прошедших двух митапов по Data Engineering, последний, к слову, проходил онлайн 🦠:
— Николай Марков – Какие дата инженеры бывают и чего от них все хотят?
— Евгений Ермаков – Что под капотом у Яндекс.Такси?
— Егор Матешук – Обзор Lambda- и Kappa-архитектур
— Денис Хуртин – Как устроена платформа управления данными в Яндекс.Маркет?
Приятного просмотра!
4 400
На хабре вышла полезная статья про построение кластера на Dask: https://habr.com/ru/post/499086/
4 400
Очень крутой вебинар от архитекторов AWS на русском языке про устройство базы данных AWS Aurora: https://emea-resources.awscloud.com/rus-ua-cis-webinars-in-russian-2020/webinar-aws-aurora
4 400
К вопросу про целесообразность построение проекта на основе микросервисной архитектуры. Почитайте полезный пост от Twitter о том как они у себя удаляют данные в своём распределённом улье: https://blog.twitter.com/engineering/en_us/topics/infrastructure/2020/deleting-data-distributed-throughout-your-microservices-architecture.html
Весьма актуально в эпоху GDPR
4 400
Кейс Zalando о построении своего Data Lake на AWS: https://aws.amazon.com/de/blogs/storage/how-zalando-built-its-data-lake-on-amazon-s3/
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
