4 401
Підписники
-124 години
-87 днів
+130 день
Архів дописів
4 400
Ссылка на трансляцию митапа по data engineering, который начнётся через 1 час: https://youtu.be/3GaiDIHUvro
4 400
Путь Data Platform Engineer в AWS: https://aws.amazon.com/ru/training/learning-paths/machine-learning/data-platform-engineer/
4 400
Монументальный труд про построение бэкэнда на Python от Яндекса: https://habr.com/ru/company/yandex/blog/499534/
4 400
А вот ещё в догонку подкаст про Dask.
Кто не в курсе, Dask это big data framework на Python, аналог Apache Spark. Если вам необходимо обрабатывать большие данные, то не торопитесь изучать Spark, возможно Dask будет лучшим выбором, если вы хорошо знакомы с Python.
4 400
4 мая ребята из сообщества Data Engineering проведут бесплатный митап: «Data Engineer or Die».
Соберутся хорошие эксперты по теме: Егор Матешук (CDO Qvant), Денис Хуртин (DMP Яндекс.Маркет), Михаил Кумачёв, Ксения Томак, Дарья Буланова (команда Data Engineering в Dodo Pizza).
Встреча будет актуальна для тех, кто работает с доставкой данных, backend-developers, ну и конечно для тех, кто в теме Data Engineering (или только начинает в ней вариться).
Ссылка на ивент: https://deordie.timepad.ru/event/1303716/
4 400
Кейс перехода с Apache Kafka на Apache Pulsar: https://streamnative.io/blog/tech/2020-04-21-from-apache-kafka-to-apache-pulsar/
4 400
На бесплатном уроке рассмотрим класс MPP-баз на примере базы Greenplum и построим небольшое хранилища данных на основе этой базы. На занятии:
- обсудим, что такое аналитические базы и для чего они нужны
- рассмотрим, чем DWH отличается от просто большой базы
- узнаем, что такое Greenplum
- построим несколько слоев обработки данных с использованием Greenplum
Пройдите вступительный тест и записывайтесь по ссылке: https://otus.pw/OaP9/
Успейте присоединиться к группе пока действует максимальная скидка!
4 400
Нашел в сети курс от MIT про распределённые системы: MIT 6.824: Distributed Systems, ведёт курс легендарный Роберт Морис: https://www.youtube.com/channel/UC_7WrbZTCODu1o_kfUMq88g/videos
4 400
пост про serverless data streaming с помощью lambda, kinesis и dynamodb: https://www.teamdatascience.com/post/how-to-write-kinesis-data-stream-to-dynamodb
4 400
Присоединяйтесь к Online AWSome Week! 27 апреля – 4 мая, 13.00 – 14.00. Архитекторы AWS расскажут, как сделать первые шаги в облачных технологиях. За 5 бесплатных вебинаров вы разберетесь в основных сервисах AWS и подготовитесь к экзамену на сертификат практика облачных сервисов. Участие бесплатно, нужно просто зарегистрироваться: https://go.aws/3cFwo4D
4 400
Воркшоп по стриминговой аналитике от AWS: https://streaming-analytics.labgui.de/introduction/
коды: https://github.com/aws-samples/streaming-analytics-workshop
4 400
Тут у Segment намечается вебинар по теме построения Data Lake в компании Taxfix, кому интересно велком: https://learn.segment.com/building-a-data-lake-taxfix/
4 400
Амазон запустил новый сервис Amazon AppFlow, облачный ETL по забору данных из SaaS продуктов в хранилища AWS: https://aws.amazon.com/ru/appflow/
4 400
AWS Data Engineering Day: https://aws-dataengineering-day.workshop.aws/
Коды к лабам: https://github.com/aws-samples/data-engineering-for-aws-immersion-day
4 400
4 Data Trends To Watch in 2020: https://medium.com/memory-leak/4-data-trends-to-watch-in-2020-491707902c09
4 400
Если вы вдруг работаете или планируете начать работать с Microsoft Azure, то вот отличный обзор учебных ресурсов для Data Engineer. https://youtu.be/ceOSlyc2J0g
4 400
Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны
Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?
Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.
Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib
Стоимость курса не изменилась, всего $10
Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
4 400
А вот и новость от самих ребят из Prefect о релизе Prefect UI: https://medium.com/the-prefect-blog/open-sourcing-the-prefect-platform-d19a6d6f6dad
4 400
И снова поговорим про ETL
На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:
- Luigi
- Apache Airflow
И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.
Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.
Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
