en
Feedback
DataEng

DataEng

Open in Telegram

Data Engineering & Distributed Systems Contact @adilkhash

Show more
4 399
Subscribers
-124 hours
-87 days
+130 days
Posts Archive
DataEng
4 399
Друзья! В преддверии Нового Года мы проведем праздничный митап DE or DIE #5. Дата и время: 24 декабря 18:00–20:30 Формат: Онл
Друзья! В преддверии Нового Года мы проведем праздничный митап DE or DIE #5. Дата и время: 24 декабря 18:00–20:30 Формат: Онлайн В нашей программе: 1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа. 2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark. Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/ Всех с Наступающим Новым Годом! Ждем вас на митапе!

DataEng
4 399
Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания! Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB. Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход. В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉 Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de

DataEng
4 399
Всем привет! Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление. Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎 Это, так сказать, миссия нашего канала) Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии. Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент. Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов. Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу) И напоследок немного о себе: - финансист по образованию, но свой карьерный путь начал в digital-маркетинге - 1 год работал менеджером по платному трафику, потом стал руководителем отдела - руководить мне не понравилось, и я начал изучать всё, что касается данных - люблю строить современные аналитические платформы в облаке - анализировать умею, но больше кайфую от инжиниринга - отдыхаю, проводя время с близкими людьми) P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.

DataEng
4 399
Тема: S3 Dive deep Когда: Понедельник 7 декабря 17:00-18:00 MSK Где: https://chime.aws/5886310272 Как присоединиться: Download Amazon Chime at https://aws.amazon.com/chime/download For information about creating an Amazon Chime account, see https://aws.amazon.com/chime/getting-started Meeting ID: 5886 31 0272 https://chime.aws/5886310272 Call in using your phone: Russia Toll-Free: +7 800 333-23-25 Meeting ID: 5886 31 0272 One-click Mobile Dial-in (Russia Toll-Free): +7 800 333-23-25,,,5886310272# Russia: +7 499 951-25-91 International: https://chime.aws/dialinnumbers/

DataEng
4 399
Есть идея неформального семинара и общения на тему архитектуры и оптимизации S3. Приглашаются все желающие. :)

DataEng
4 399
В AWS S3 наконец пришла строгая консистентность при чтение объектов после их записи, бесплатно: https://aws.amazon.com/ru/s3/consistency/ Помнится мне как это доставляло неудобства при реализации пайплайнов, когда следующий шаг падал из-за того, что невозможно было прочитать только что трансформированный объект.

DataEng
4 399
Про ksqlDB от инженера из Confluent: https://www.youtube.com/watch?v=KUQuegJ4do8

DataEng
4 399
Дайджест по DataEng: https://dataengineeringweekly.substack.com/

DataEng
4 399
​​Используете в проекте DevOps-практики? Научитесь творить чудеса с подходом «инфраструктура как код», используя Ansible. На практическом онлайн-курсе «IaC Ansible» от OTUS вы погрузитесь в эту систему управления конфигурацией и сможете декларативно описывать инфраструктуру своих проектов. Помимо этого вас ждут и другие важные в DevOps подходе инструменты: Chef, Puppet, SaltStack, Terraform и т.д. Проходите вступительный тест, чтобы занять место по спец.цене https://otus.pw/0lzv/

DataEng
4 399
Интересная статья про опыт Shopify про построение дата пайплайнов, в ней можно проследить эволюцию от in-house решения до перехода на dbt: https://shopify.engineering/build-production-grade-workflow-sql-modelling

DataEng
4 399
Вчерашний вебинар от нашего подписчика @ds_im https://www.youtube.com/watch?v=mqE6Q3WmoCU Было интересно и познавательно :) Спасибо, Денис! 🤝

DataEng
4 399
Ура! На AWS появилась возможность запускать пайплайны на Airflow. Apache Airflow на AWS: https://aws.amazon.com/ru/blogs/aws/introducing-amazon-managed-workflows-for-apache-airflow-mwaa/

DataEng
4 399
На YouTube канале Confluent появился плейлист с видео от легендарного Tim Berglund про введение в Apache Kafka: https://www.youtube.com/watch?v=qu96DFXtbG4&list=PLa7VYi0yPIH0KbnJQcMv5N9iW8HkZHztH

DataEng
4 399
Роман подготовил следующий вебинар для вас: Друзья, новая пушка для вас заряжена! Во вторник (24.11.2020) в 20:00 по мск для вас вебинар в прямом эфире! Вы просили практики или реальных кейсов, да не вопрос:) Тема вебинара: "Как построить систему маркетинговой аналитики на Google Cloud" План вебинара: - Архитектура решения и её ключевые элементы; - На что обратить внимание перед построением решения; - Преимущества Google BigQuery при построении маркетинговой аналитики; - Как построить простой ETL с помощью Cloud Functions + Cloud Pub/Sub + Cloud Scheduler + dbt; - Google Data Studio как средство визуализации данных; - Пути масштабирования системы. Спикер: Денис Соловьев. Денис также является подписчиком нашего канала, который изучает дата инжиниринг и применяет его на практике. Я увидел его комментарий в телеграмм канале Димы Аношина "Инжиниринг Данных" под одним из постов, плюс многие из вас его также видели и поэтому просили побольше реальных практических разборов и я просто не мог пройти мимо, написал Денису и он согласился поделиться своими знаниями, спасибо ему за это. Да и вообще спасибо каждому из вас, радует что люди потихоньку перестают прятаться и готовы делиться знаниями среди вас очень много толковых ребят, лично я думаю что все, так что не прячьтесь со временем всех вычислю 🙂 Рекомендации как всегда: ничего не планируйте на вечер, уделите пару часов для пополнения своих знаний и заварите чаек :slightly_smiling_face: Ну и подписывайтесь на наш ютуб канал, ставьте колокольчик и делитесь видосиками с коллегами и друзьями https://youtu.be/mqE6Q3WmoCU

DataEng
4 399
Интересное начинание, автор Олег Агапов решил написать учебник по data engineering: https://github.com/oleg-agapov/data-engineering-book

DataEng
4 399
Всем привет! 👋 Сегодня собрал всю свою волю в кулак и написал небольшой туториал по библиотеке logging в Python 💪. Материал был подготовлен в рамках моего вебинара для студентов Яндекс.Практикума 📺 Прочитать статью как всегда можно у меня в блоге — Введение в logging на Python 🐍

DataEng
4 399
А вот и Uber поделился своим инструментом Data Catalog — Databook: https://eng.uber.com/metadata-insights-databook/ Инструмент пока не доступен для всех, но в статье есть информация про архитектуру этого приложения, возможно будет полезно узнать кому-то.