ru
Feedback
DataEng

DataEng

Открыть в Telegram

Data Engineering & Distributed Systems Contact @adilkhash

Больше
4 399
Подписчики
-124 часа
-87 дней
+130 день
Архив постов
DataEng
4 399
В базе данных Amazon Redshift наконец то стали доступны материализованный представления (materialized views) для всех: https://aws.amazon.com/ru/blogs/aws/materialize-your-amazon-redshift-views-to-speed-up-query-execution/

DataEng
4 399
Ребята из AppsFlyer поделились кейсом использования Apache Airflow: https://medium.com/appsflyer/how-appsflyer-uses-apache-airflow-to-run-over-3-5k-daily-jobs-and-more-683106cb24fc Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/

DataEng
4 399
В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именн
В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именно: - Amazon S3 - Amazon Glue - Amazon Athena Прочитать можно по ссылке: http://bit.ly/2Tkcswc Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake

DataEng
4 399
Доклад Future of Data Engineering на QCon от инженера из WePay: https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/

DataEng
4 399
Сам отчёт Dice.com 🔥

DataEng
4 399
Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fa
Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fastest Growing Tech Occupations с результатом 50%. Это значит, что спрос на дата инженеров вырос на 50% в сравнении с 2019 годом. Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.

DataEng
4 399
Amazon опубликовали научную статью по работе Firecracker. Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications

DataEng
4 399
​​Накатал статейку про введение в Apache Airflow: http://bit.ly/37o3tiD

DataEng
4 399
Друзья, ссылка на вебинар: https://www.youtube.com/watch?v=fkKKD93WA4s. Начало через 7 минут. С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.

DataEng
4 399
​​10 февраля в 20:00 МСК OTUS приглашает на открытый вебинар “Data Build Tool для хранилища Amazon Redshift” . Запишитесь https://otus.pw/PZUt/ - пришлем напоминание в день вебинара. На занятии мы рассмотрим построение моделей и зависимостей. Также изучим полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование. Вебинар проходит в рамках набора на профессиональный онлайн-курс "Data Engineer" , а проведет его преподаватель курса Артемий Козырь, Senior Data Engineer, более 5-ти лет опыта работы с Хранилищами Данных. Чтобы попасть на онлайн-курс "Data Engineer" с welcome-скидкой прямо сейчас, пройдите вступительный тест!

DataEng
4 399
Доклад про ETL на базе event-driven от сотрудника Confluent: https://talks.rmoff.net/Jn6rgo#sriL5Sw

DataEng
4 399
Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP). Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/

DataEng
4 399
Нашел интересный пост про уровни зрелости организаций относительно аналитики на имеющихся данных. Автор на основе своего опыта выделил 4 уровня: 0. Латентный (Latent) На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений. 1. Анализ (Analysis) На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных. 2. Обучение (Learning) К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing. 3. Действие (Acting) Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение). Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc А на каком уровне находитесь вы?

DataEng
4 399
Всем привет! На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США. Из наиболее популярных навыков для дата инженера упоминаются: - Apache Spark - Hadoop - Python - SQL - ETL - Amazon Web Services Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.

DataEng
4 399
В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/ Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.

DataEng
4 399
На Data Engineering Podcast вышел выпуск про SnowflakeDB: https://www.dataengineeringpodcast.com/snowflakedb-cloud-data-warehouse-episode-110/

DataEng
4 399
Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: http://bit.ly/2OgHC6m

DataEng
4 399
Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming

DataEng
4 399
Друзья! На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях. Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д). В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом. Стоимость курса всего $10. Ссылка на курс: http://bit.ly/36P1eWG Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.

DataEng
4 399
Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2

DataEng - Статистика и аналитика Telegram-канала @dataeng