ch
Feedback
DataEng

DataEng

前往频道在 Telegram

Data Engineering & Distributed Systems Contact @adilkhash

显示更多
4 402
订阅者
-724 小时
-87
+630
帖子存档
DataEng
4 402
#вакансия Аналитик DWH (от Junior до Senior) Москва Accenture В IT-компании Accenture, входящей в список 500 крупнейших компаний и 100 лучших работодателей мира, открыта позиция аналитика DWH. Обязанности: — выявлять требования к данным, сценарии их использования и анализа в корпоративном хранилище данных и отчетности в тесном взаимодействии с бизнес-подразделениями; — проектировать логическую модель данных корпоративного ХД (детальный слой и витрины данных) и ETL-процессы интеграции данных с различными системами-источниками; — анализировать причины расхождений данных в различных витринах корпоративного хранилища данных, участвовать в определении эталонных данных; — проводить тестирование и приемку готового функционала; — реализовывать проверки качества данных, организовывать их исправление. Требования: — опыт работы в проектах по DWH; — уверенные знания SQL; — понимание теории баз данных; — навыки проектирования схем данных для транзакционных и аналитических систем (3NF, Data Vault, «звезда», «снежинка», OLAP), ETL-процессов. Условия: — регулярное повышение дохода и достойный годовой бонус; — уникальная команда из лучших экспертов на рынке; — лучшая страховка для тебя и семьи с 1 рабочего дня; — 33 дня отпуска в году; — обучение, сертификации, международные тренинги за счет компании; — новый iPhone как часть welcome pack. Оплата: 130–250 тысяч рублей (Gross) Контакты: @aliya861 или на почту aliya.kshtykenova@accenture.com

DataEng
4 402
Интересная статья про то как в Великобритании строили COVID-дэшборд на PostgreSQL, Citus и Microsoft Azure. В статье речь идёт про этот дэшборд. Я был очень удивлён, что такой профессиональный подход к проектированию и построению отказоустойчивых систем есть у государственных органов. Более того, к сервису можно подключаться по API, есть даже официальные клиенты под разные языки. Например, вот python-клиент. Статья полна технических деталей по реализации, и даже есть ER-диаграмма моделирования данных в БД. Несомненно крутой кейс и пример открытого государства. Нам о таком остаётся только мечтать 🙏

DataEng
4 402
Интересный движ намечается в январе 2022 года — Data Engineer Zoomcamp Это 9 недельный курс в формате zoom-лекций и практических занятий по дата инжинирингу. Примечательно что он абсолютно бесплатный для всех, нужна лишь предварительная регистрация по ссылке. У этой инициативы уже есть полупустой репозиторий на гитхабе: https://github.com/DataTalksClub/data-engineering-zoomcamp, там же можно ознакомиться подробнее с предстоящими темами для изучения. Старт намечен на 17 января 2022 года

DataEng
4 402
💥 DWHard митап 21 декабря / вторник 17:00 - 20:00 (мск) Три часа - три темы: 👉🏻 Data Mesh Поговорим про применение микросе
💥 DWHard митап 21 декабря / вторник 17:00 - 20:00 (мск) Три часа - три темы: 👉🏻 Data Mesh Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем? 👉🏻 История озера данных, которое зацвело Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды. 👉🏻 Недетальный неслой хранилища Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли. Больше информации по ссылке внизу 📌 Подробности и регистрация Регистрируйся и уже сейчас задай вопросы спикерам митапа!

DataEng
4 402
В догонку про доклады. На канале конференции Hydra стали доступны доклады с прошедшей Hydra 2021 На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить". Загляните в их плейлист, наверняка найдёте что-то интересное для себя.

DataEng
4 402
Вебинар от Astronomer про data lineage в Apache Airflow: https://www.youtube.com/watch?v=2s013GQy1Sw

DataEng
4 402
Приглашаем дата-инженеров на demo-занятие 13 декабря в 20:00 «Написание коннекторов для Spark». Открытый вебинар проведет Вад
Приглашаем дата-инженеров на demo-занятие 13 декабря в 20:00 «Написание коннекторов для Spark». Открытый вебинар проведет Вадим Опольский. Вадим работает в Luxoft DXC Technology на Big Data проекте. Преподаватель разберет с вами подключение к внешним системам из коробки и создание кастомного коннектора для подключения к нестандартным БД. Demo-занятие входит в программу онлайн-курса «Spark Developer» от OTUS и позволяет оценить качество материалов курса. Пройдите вступительное тестирование, чтобы попасть на мероприятие https://otus.pw/5FCC/

DataEng
4 402
Wes McKinney в рамках Database talks от CMU рассказывает про Apache Arrow: https://youtu.be/YhF8YR0OEFk Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/

DataEng
4 402
Какие инструменты должны быть в арсенале дата-инженера? Подключайтесь к Demo Day онлайн-курса «Spark Developer» 8 декабря в 2
Какие инструменты должны быть в арсенале дата-инженера? Подключайтесь к Demo Day онлайн-курса «Spark Developer» 8 декабря в 20:00. Преподаватель Егор Матешук, CDO AdTech-компании Квант, расскажет о своем профессиональном пути, представит программу и формат обучения в OTUS. Вы сможете задать свои вопросы и получите возможность занять место в группе по спец.цене. Регистрируйтесь на вебинар, чтобы принять участие: https://otus.pw/T8Uc/

DataEng
4 402
Раз уж заговорили про SQLite, то вот вам ещё одна батарейка — rqlite. rqlite это распределенная реляционная база данных на основе SQLite. Эдакий etcd или Consul только с реляционной начинкой. Консенсус в распределённой системе реализован через Raft. Также частью системы является т.н. raft log, в котором хранится вся история SQL команд, некий аналог WAL в PostgreSQL. По умолчанию база хранится в памяти, но можно настроить хранение на диске. Каждый раз при запуске rqlited база заново воссоздаётся из raft log. Подробнее про дизайн системы можно почитать в блоге автора: — RQLITE – REPLICATED SQLITE WITH NEW RAFT CONSENSUS AND API REPLICATING SQLITE USING RAFT CONSENSUS Update: автор делал доклад в рамках CMU Database: https://www.youtube.com/watch?v=JLlIAWjvHxM

DataEng
4 402
Нашел интересную балалайку для потоковой репликации базы SQLite в другой файл или сразу на S3: https://github.com/benbjohnson/litestream Документация: https://litestream.io/getting-started/ Проект написан на Go, запускается как отдельный демон без регистрации и смс. Девиз проекта: Stop building slow, complex, fragile software systems. Safely run your application on a single server. 😍

DataEng
4 402
Прикольная визуализация работы pandas: https://pandastutor.com/index.html Удобно при изучении этой крутой библиотеки.

DataEng
4 402
Курс про построение дата-пайплайнов на основе Apache Kafka от Confluent: https://developer.confluent.io/learn-kafka/data-pipelines/intro/

DataEng
4 402
​​Митап для сообщества MongoDB в России 9 декабря в 18:00 очно и онлайн На митапе архитектор MongoDB Inc расскажет о новых возможностях MongoDB 5.0. Также руководители ИТ-команд из apteka.ru, kp.ru, Urent поделятся своим опытом: какую архитектуру проектов на MongoDB выбрали, с чем столкнулись при росте нагрузок. Команда Yandex.Cloud расскажет о Performance Diagnostics кластеров MongoDB и сценариях репликации и миграции данных с помощью Yandex Data Transfer. 📍Место проведения — г. Москва, ул. Льва Толстого, д. 16. Для посещения мероприятия необходимо иметь QR-код. 📡 Будет онлайн-трансляция, и для участия нужна регистрация. 🚀Программа и регистрация »

DataEng
4 402
🔥 Kubernetes отлично подойдет на роль центрального звена платформы для работы с данными. Не слышали о таком подходе? На VK K
🔥 Kubernetes отлично подойдет на роль центрального звена платформы для работы с данными. Не слышали о таком подходе? На VK Kubernetes Conference мы покажем, что K8s - это технология, которая не только способна помирить Dev, Sec и Ops, но и может быть интересна Data Scientist и инженерам данных. ⏰ Когда: 9 декабря, 10:00 MSK 📍 Регистрация: https://cutt.ly/ST99xgZ Из докладов вы узнаете: 🔹 Какие инструменты дата инженера можно запустить в K8s и какие тонкости стоит при этом учитывать. 🔹Сравнение классических и облачных архитектур при работе с данными. 🔹 Инструменты для построения DWH и Data Lake в облаках. В программе — доклады, воркшопы и, конечно же, нетворкинг, во время которого у самых активных зрителей будет возможность поделиться собственным крутым опытом! 👉 Зарегистрироваться: https://cutt.ly/ST99xgZ

DataEng
4 402
Приглашаем Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks и стать частью команды EPAM.
Приглашаем Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks и стать частью команды EPAM. Регистрация уже открыта: epa.ms/devops-hw-tg-17 ⠀ Что дает участие в Hiring Weeks? ⠀ ✅Оффер в течение 48 часов ✅Welcome-бонус в размере оклада, если вы примете оффер в течение 7 дней ✅Можно выбрать удобную дату выхода в EPAM ⠀ В числе клиентов EPAM крупнейшие международные фармацевтические и биофармацевтические компании, розничные сети и телекоммуникационные компании. Кандидатам предстоит решать масштабные задачи и использовать современный технологический стек. Узнать более подробную информацию о проектах и вакансиях вы можете на сайте! ⠀ Что еще мы предлагаем? 📌Прозрачные условия карьерного роста: матрицы компетенций, фидбэк-сессии, ассессмент 📌Бенефиты: доступ к 1700+ курсов и тренингов, бесплатные курсы английского, ДМС со стоматологией с первого дня работы 📌Профессиональные комьюнити 📌Возможность релокации в 35+ стран ⠀ Регистрируйтесь прямо сейчас👉 epa.ms/devops-hw-tg-17

DataEng
4 402
Также решил сделать скидку в 35% на курс Apache Airflow 2.0: практический курс. Промокод BLACKFRIDAY, действует до 28.11
Также решил сделать скидку в 35% на курс Apache Airflow 2.0: практический курс. Промокод BLACKFRIDAY, действует до 28.11

DataEng
4 402
Всем привет! 🫂 Сегодня, в последнюю пятницу ноября, я решил сделать большие скидки на своей учебной платформе: — Введение в Data Engineering: дата-пайплайны, по промокоду BLACKFRIDAY скидка 50%, 345 RUB — Анализ медицинских изображений в Python по промокоду BLACKFRIDAY скидка 50%, 250 RUB Промокод необходимо вводить в момент оформления заказа. Всем приятной учебы и выходных!