uz
Feedback
DataEng

DataEng

Kanalga Telegram’da o‘tish

Data Engineering & Distributed Systems Contact @adilkhash

Ko'proq ko'rsatish
4 402
Obunachilar
-724 soatlar
-87 kunlar
+630 kunlar
Postlar arxiv
DataEng
4 402
Хотел порекомендовать вам канал Олега (@oleg_agapov) — Папка "Избранное" https://t.me/folder_favorites, сам также подписан на него. Олег работает BI-инженером, делится опытом и знаниями. Я как то уже писал про его труд https://github.com/oleg-agapov/data-engineering-book, это бесплатная книга (ещё в процессе написания) про дата инжиниринг.

DataEng
4 402
Учебник по машинному обучению от Школы Анализа Данных, Яндекс: https://ml-handbook.ru/

DataEng
4 402
Вебинар про Data Quality в Airflow: https://www.youtube.com/watch?v=6ib2gH4A0rI

DataEng
4 402
Фейсбук (а ныне Мета) провели интересный саммит на тему Data Observability, так и называется Data Observability Learning Summit 2021. Доклады уже доступны в сети без регистрации и смс: https://www.facebook.com/watch/9445547199/490224945331402 Список отдельных докладов: - Data Quality at Uber - Data and ML observability in the public cloud - Data observability: Through a practitioner's lens - Observability: How to eliminate data downtime and start trusting your data - Defining reliability: SLAs for data platform teams - Multi-dimensional DO for modern data infra: Why today's AI and analytics workloads require E2E DO Тема интересная и актуальная, сегодня посмотрю парочку докладов.

DataEng
4 402
Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день Если вы — опытный си
Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия. Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы. Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://u.tinkoff.ru/onedayoffer-dwh

DataEng
4 402
Нашел новый венчурный фонд, инвестирующий в инженеров-основателей в области данных: аналитика, инфраструктура, AI/DL. Сайт фонда https://www.dcf1.vc/, если у вас есть идея или прототип, то можно попробовать подать заявку на получение инвестиций. Основатель фонда Pete Soderling, он же основатель Data Council. Насколько я понял, сейчас цель фонда это проинвестировать в 1 тысячу инженеров-основателей.

DataEng
4 402
Amazon бесплатно курсы по AWS раздаёт: https://amzn.to/31XqYC8, правда для моей страны нет возможности посмотреть их. Пишет что только Kindle titles могу брать, но возможно для вас ситуация будет другой.

DataEng
4 402

DataEng
4 402
Компания Altinity (та, которая теперь активно развивает ClickHouse) 2 ноября провела конференцию под названием Open Source Analytics Conference, в качестве спикеров были такие звёзды как Maxime Beauchemin, Andy Pavlo, Пётр Зайцев. Доклады уже доступны в сети бесплатно и без смс. Наиболее заметные: — Analytic Trends & Data EngineeringDo We Still Need People To Write Database Systems?Distributed Tracing Using ClickHouse at eBayData Rivers — The New Analytics ArchitectureManaging Transactional and Analytical Workloads with Open Source DatabasesEffective Dashboard Design Using Apache SupersetSucceeding with Apache Druid and Clickstream Data

DataEng
4 402
Откопал свежее видео про Dagster от его автора на очередном митапе: https://www.youtube.com/watch?v=OYNPa_xxeho У меня никак руки не дойдут его пощупать, уж больно привлекательно он выглядит. Есть кто уже пробовал его в деле?

DataEng
4 402
Неплохой гайд по подготовке к интервью по SQL с примерами от «Тамби Масаева»: https://www.youtube.com/watch?v=y6CWIBKEw_g

DataEng
4 402
LAST CALL 🛎 11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчико
LAST CALL 🛎 11 ноября в robot_dreams стартует курс для начинающих BI-аналитиков, data-/product-аналитиков и SQL-разработчиков, которые хотят научиться проектировать Data Warehouse и предлагать бизнес-решения на основе аналитики. ⠀ После курса вы: ▪️ пишете и оптимизируете SQL-запросы; ▪️ проектируете хранилища данных разных типов в зависимости от задач; ▪️ умеете управлять данными и разбираетесь в отличиях ETL- и ELT-подходов; ▪️ визуализируете результаты анализа и собираете данные в понятные дашборды; ▪️ находите аномалии в данных, валидируете гипотезы и делаете прогнозы для бизнеса. ⠀ В результате ― получите полный стек знаний и навыков для развития в BI-аналитике и BI-разработке. Чтобы зарегистрироваться на курс, перейдите по ссылке и заполните форму 🔝 https://bit.ly/2ZwUUUN 🔝

DataEng
4 402
На сайте ain вышла небольшая обзорная статья про дата-инженеров: http://bit.ly/article_for_dataenginners3 В ней есть краткое описание кто такие дата-инженеры, чем они занимаются, а также небольшая подборка полезных ресурсов откуда можно почерпнуть дополнительные знания. В этом списке в том числе есть ссылка и на мой канал 🤗

DataEng
4 402
​​Компания Wunder Fund ищет дата инженера/питониста в свою команду. Мы занимаемся высокочастотной алгоритмической торговлей на биржах по всему миру последние 7 лет. Для того, чтобы у наших квантов была возможность тестировать свои торговые идеи, им необходимы исторические данные торгов. Эти данные мы собираем в несколько этапов. Сначала онлайн, прямо во время торгов, сохраняем данные максимально надежным и простым способом. Данные с разных бирж приходят в разных форматах, они могут быть очень разными. Поэтому после сохранения мы ежедневно преобразовываем данные в наш внутренний единый формат. После этого качество полученных данных проверяется по множеству параметров специальной программой-чекером. Мы постоянно выходим на новые биржи, и у каждой биржи есть свои особенности в данных. А старые биржи систематически делают изменения в своих форматах, и они должны быть отражены в нашем софте. Нам нужен человек, который возьмет на себя работу по поддержке уже существующих пайплайнов обработки и разработке новых. ✦ Пишите за подробностями @georgy или сразу открывайте нашего бота — в нем будут подробности и короткий тест знаю/не знаю, для того, чтобы оценить, насколько мы друг другу подойдем.

DataEng
4 402
Вебинар Бесплатный ML Space на базе инструментов Intel oneAPI для всех желающих. У нас отличные новости, инструменты Intel® o
Вебинар Бесплатный ML Space на базе инструментов Intel oneAPI для всех желающих. У нас отличные новости, инструменты Intel® oneAPI на облачной платформе ML Space стали доступны для физических лиц. Это значит, что любой желающий может бесплатно использовать набор программных инструментов для ускорения машинного обучения, анализа данных, разработки ПО. На вебинаре вы узнаете: — подробности об инструментах Intel® oneAPI; — сценарии применения этих инструментов для построения ML-моделей; — как получить бесплатный доступ к инструментам на платформе ML Space. Вебинар будет полезен всем, кто интересуется data science. Регистрируйтесь по ссылке. Вебинар пройдёт — 14 октября 2021, четверг, 12:00 *SberCloud — облачный провайдер услуг и сервисов для физлиц, бизнеса и государственных организаций.

DataEng
4 402
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notion Шардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки. Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиенты довольны, но ценой усложнения архитектуры (мониторинг, репликация данных, избыточность и т.д.). Не говоря уже про решардинг данных в случае добавления новых узлов в кластер баз. Если вам интересно как в Notion моделируют данные, то читайте https://www.notion.so/blog/data-model-behind-notion. Центральной сущностью является Block за которым следует всё остальное.

DataEng
4 402
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов: - What is a Data Mesh - And How Not To Mesh it Up - Data Quality with Great Expectations and Airflow in a Reverse-ETL World - Shift-left testing : Building reliable Data Pipelines - Data quality: the key to long term happiness - Reliable data engineering made easy - Gone Streaming: dbt+Materialize - Streaming data analytics with Apache Flink Сам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), так что слушайте с небольшой толикой скептицизма к их словам 🤔

DataEng
4 402
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXw Также Макс вскользь упоминает 2 своих статьи: — The Rise of the Data Engineer https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b Смотреть удобно на скорости ×1.25, ×1.5

DataEng
4 402
Программа конференции для дата-инженеров SmartData 2021 готова! Начинаем уже 11 октября 💣 Вас будут ждать 4 дня, 33 доклада
Программа конференции для дата-инженеров SmartData 2021 готова! Начинаем уже 11 октября 💣 Вас будут ждать 4 дня, 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях. Темы конференции: ✔️ Tooling: все об инструментах, которые используют в дата-инжиниринге; ✔️ Spark: штука настолько востребованная, что о ней будет сразу три доклада; ✔️ Processes: как организовать работу и процессы в команде; ✔️ Storage: базы данных, SQL-движки и многое другое; ✔️ Architecture: доклады об архитектуре и опыте работы с ней разных команд; ✔️ Industry usecases: реальный опыт, боль, успехи и провалы коллег. Кроме докладов и воркшопов, вас будут ждать дискуссионные зоны, возможность вернуться к записям докладов, розыгрыши и много других приятных плюшек. Специально для нашего канала организаторы сделали промокод на скидку dataeng2021JRGpc, который дает скидку на Personal Standard билет🔥 Заходите на сайт конференции за подробностями и билета