дата инженеретта
前往频道在 Telegram
мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea
显示更多3 346
订阅者
+824 小时
-177 天
+730 天
帖子存档
3 347
dbt meetup
Когда: 27 марта в 19:00
Формат: онлайн, бесплатно
О чем: dbt, Great Expectations, DuckDB
Где: https://inzhenerka.tech/dbt_meetup
3 347
Deciphering Data Architectures
Недавно прочитала книжку "Deciphering Data Architectures" - там всего 275 страниц. Не знаю, есть ли на русском, но на английском читается прям супер легко, где-то за недельку
Автор рассказывает про 6 типов архитектур:
🟠DWH
🟠Data Lake
🟠Modern DWH
🟠Data Fabric
🟠Data LakeHouse
🟠Data Mesh
Подробно описывается каждый тип, эволюция от одного к другому, плюс база про моделирование, как проводятся архитектурные дизайн-сессии и т.д.
Но меня больше всего удивило словосочетание "Data Fabric" - я его в нашем дата-пространстве ни разу не слышала. Кто-то его переводит как "фабрика данных", но у меня в голове осталась четкая ассоциация с "лоскутками данных". Т.е. разные доп. сервисы цепляются друг к дружке, как в лоскутном одеялке 😴
Книжка подойдет, если хотите в своей голове структурировать все эти подходы. Если лень читать так много, то есть статейка с кратким содержанием на полчаса:
https://habr.com/ru/articles/822669/
3 347
🔵🗣Вырасти до хардового Middle+ аналитика.
Как? Добавьте к своим скилам навыки в проектировании архитектуры и интеграций веб-сервисов!
Рассмотрите — авторский курс про архитектуру и интеграции
с практикой.
—————
По результатам курса вы:
▫️научитесь выбирать стиль интеграции под вашу задачу;
▫️сможете проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и др. + брокеры сообщений);
▫️поймете, как правильно собирать требования и моделировать в UML;
▫️подготовитесь к собеседованию, решив более 100 тестов;
▫️разработаете свой API на Python;
—————
🟢Вы получите большую базу фундаментальных знаний, доступ к урокам и обновлениям остается навсегда 💡
• Всю программу и отзывы смотрите в боте курса.
• Бонусный модуль про проектирование баз данных — нормализация, транзакции, основы DWH, индексы.
• Результат после прохождения курса: 15 рабочих проектов в портфолио.
• Доступ к чату учеников (общение, обмен опытом, помощь внутри сообщества)
🔹🔹 С чего начать?🔹🔹
С открытых бесплатных уроков по архитектуре и интеграциям в чат-боте курса. Переходите.
👇
@studyit_help_bot
Скидка на курс от канала —
1 000₽ по промокоду DATAGIRLIE до конца марта
3 347
Закулисье фотостудии
Краткая история о моем походе в фотостудию ламоды
NB! Нельзя было фоткать, поэтому вот официальный кадр кусочка студии
📌📌📌📌📌
Сейчас сезон, в день привозят 2-3к товаров, а к вечеру они должны появиться в каталоге на сайте
☁️ Есть отдельные стенды для каждого вида съемок:
🩷предметная (аксессуары, обувь) - просто фоткают предметы
🩷обувь только на женской ноге
🩷одежда и предметы на модели
🩷детские вещи, шарфы, парео - тут под углом 45 градусов, чтобы можно было красиво разложить
🩷постельное белье - есть даже матрас
🩷маркетинговые - по каким-то поводам, выездные, готовятся сильно заранее
👻 Обитатели студии:
⏺️фотографы
⏺️модели
⏺️стилисты
⏺️визажисты
⏺️копирайтеры
⏺️ретушеры
⏺️менеджмент
⏺️продюсеры
⏺️креативная группа
С моделью работают стилист, визажист, фотограф. Стилисты уже знают, на какой модели какие вещи лучше смотрятся
🎉 Через какие этапы это все проходит:
1️⃣Приемка товара
Со складов приезжают много коробок с вещами, заранее считают, сколько их будет, какие категории, сколько нужно моделей и рейлов. Стандартные размеры - 40-42 для одежды, 36-37 для обуви
2️⃣Preparation
Вещи распаковываются, гладятся, раскладываются по категориям
3️⃣Mannequin
Съемка на манекене
4️⃣Copywriting
Копирайтеры готовят карточки товаров
5️⃣Model
Съемка на модели. Если что-то не сочетается, то у них есть своя «Нарния» с базовыми вещами
В конце дня отсматривают все снимки. Могут поревьюить и сами бренды
Вот такая получилась экскурсия)
3 347
Песочница для DE
Один крутой чел создал песочницу с де-инструментами. Из прикольного там есть Zookeeper, MinIO, Iceberg, MariaDB и даже Grafana. Я сама только походила по репе, но вам советую попробовать поднять все это дело, потыкаться и поделиться, что как оно там
Ссылка на репу: https://gitflic.ru/project/ananevsyu/sandbox_db_public
Автор: @ananevsyu 😎
3 347
+8
Теперь я lamodian☺️
Начинаю эту весну с изменений в своей жизни - теперь я буду дата инженерить в Lamoda Tech🙂
👔 В пн был мой первый рабочий день - провели онбординг в процессы, выдали мак на м3, устроили экскурсию по офису. Я познакомилась с корп сервисами, сразу записалась на фотосессию для профиля и на экскурсию в фотостудию 🥰
Узнала, что на этой неделе будут проходить встречи, мастер-классы и квизы на тему моды, будет день модных вкусняшек и день призов от какого-то бренда. Все очень прикольно, но в офис я ехать больше не хочу - я добиралась 1:20 от двери до двери с двумя пересадками на метро + автобус😱
🥠 На кухоньке есть свежие фрукты, овощи, зона завтрака с мюслями, печеньки и чокопайки, кофеечек, холодос с 4 видами молока, можно сделать тосты
🙂Из удивительного - в офисе есть душевая, а временный пропуск я оформила за пару минут
🙂В конце нам раздали велком-пак: шопер, термокружка, карабин для пропуска и значок. Я познакомилась со своим тимлидом, установила нужные проги, а почти все доступы у меня уже были
📺 Еще я сходила на встречу "collaba", где менеджмент рассказывает про бизнес-инсайты, цифры, бренды, процессы поставок через страны
🛍️ Плюс каждый месяц у меня есть два промика на -15%, кому нужно - пишите)
3 347
Хотите научиться автоматизировать процессы обработки данных как в Бигтехе?
Чтобы проанализировать большой массив данных, его нужно обработать. Обычно это происходит в три этапа: извлечение, трансформация и загрузка (или ETL). Но чем больше становится данных, тем труднее управлять этим процессом вручную — автоматизировать его можно с помощью Airflow.
Чтобы научиться работать с Airflow, приходите на бесплатный вебинар, где Антон Шишков, опытный Software Engineer из бигтех-компании, — поделится с вами своими знаниями и лучшими практиками работы с Airflow на примере автоматизации сбора данных.
Что мы будем делать на вебинаре:
🟠 Познакомимся с Airflow: узнаем, как он может упростить работу и повысить эффективность;
🟠 Узнаем об операторах и сенсорах: как использовать для создания гибких и надежных конвейеров данных;
🟠 Напишем базовые и продвинутые DAG'и, чтобы вы могли применить их на практике;
🟠 Разберем, как использовать Docker, FastAPI, Postgres, Clickhouse и Minio для автоматизации ETL-процессов.
🕗Встречаемся 4 марта в 19:30 по мск
Зарегистрироваться на бесплатный вебинар
3 347
Полезности про Spark
1️⃣Я периодически посматриваю доклады с хайлоада. Один из крутых - «Оптимизация Spark-приложений от простого к сложному. С примерами». По ссылочке можно найти презу:
https://highload.ru/moscow/2024/abstracts/13255
2️⃣И тут я поняла, что натыкалась на его же статью про спиллы данных, где подробно на примерах и в картинках это все разбирается:
https://habr.com/ru/amp/publications/743292/
3 347
Про качество данных
В конце прошлого года я зачитывалась книжками. И в одной из них мне понравилось выражение, что данные - это "тихий убийца".
Мы можем даже не понимать, что они некачественные, но в какой-то момент это выстрелит.
😭 Был кейс, когда одна команда сделала финансовую отчетность на основе некорректных данных и направила куда-то выше. В этой отчетности цифры были сильно меньше, чем потратили. И встал вопрос - а куда делись все остальные средства? Так что это может довести до серьезных последствий.
❤️🩹 А вообще качество данных - это очень хрупкая вещь.
Где может пойти не так?
▶️при выгрузке из источника (поставили лишний фильтр)
▶️при передаче между системами (все задублировалось, потеряли куски информации)
▶️при интеграции нескольких источников (не на все данные прописаны правила сопоставления)
▶️при анализе (неправильно посчитали)
А это очень милая и грустная аномалия в контексте целостности данных:
▶️сироты - когда внешние ключи никуда не ведут
Каждый, кто прикасается к данным, способен повлиять на их качество. Обеспечение качества данных — предмет заботы всей организации, а не только команды качества данных или ИТ.
Руководство данными нужно для того, чтобы «делать правильные вещи» (Doing the right things), а управление данными — для того, чтобы «делать вещи правильно» (Doing things right)#data_dmbok #fundamentals_of_de
3 347
А вы знали, что в питоне так можно?
Собрала несколько кейсов, о которых вы могли даже не подозревать:
1️⃣ Имя функции - это переменная, и этому имени мы можем присвоить что угодно:
def func():
print('hi')
func()
# hi
func = -1
func()
# Traceback (most recent call last):
# File "<stdin>", line 1, in <module>
# TypeError: 'int' object is not callable
Естественно, после переопределения все предыдущие возможности перестают действовать
2️⃣ Та же история с модулями:
import math
type(math)
# <class 'module'>
math = -1
type(math)
# <class 'int'>
3️⃣ При импорте модулей существующие переменные перезаписываются:
x = 2
from mymodule import x
print(x)
# 'new_value'
4️⃣ А переменные после цикла остаются существовать:
for i in range(2):
print(i)
print(i) # 2
#python_tips3 347
+2
Посмотрела вчерашний митап, вот еще картиночки архитектур
По сути это классическое двх, data lake и data lakehouse
Но вам не кажется, что кх поверх гринплам - немножко многовато, тем более в lakehouse?
#system_design
3 347
Вебинар VK Cloud «Поднимаем Data Lakehouse на основе Trino в облаке»
11 февраля на бесплатном вебинаре от VK Cloud расскажут:
· Что такое Data Lakehouse.
· Как эта архитектура объединяет преимущества Data Lake и Data Warehouse.
· Как упрощается управление и ускоряется анализ данных из различных источников в одном месте.
· Насколько удешевляется хранение данных.
Где: онлайн, необходимо зарегистрироваться
Когда: 11 февраля в 17:00
Также Алексей Белозерский, руководитель группы BigData Sevices в VK Cloud, покажет как новый облачный сервис Cloud Trino от VK Cloud обеспечивает быструю обработку больших объемов данных, позволяя получать ценные инсайты в реальном времени.
Регистрация
3 347
Вебинар «Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC»
Узнайте, как работать с инструментом near real-time репликации данных Tarantool CDC (Change Data Capture). Разберем проблемы роста нагрузки на core-системы при цифровой трансформации, низкой доступности данных разного формата из нескольких источников, отсутствия поддержки западных вендоров СУБД.
Дата и время: 13 февраля, 15:00.
Основные темы вебинара
·Консистентность данных в ИТ-контуре
·Мигрирация из проприетарных СУБД
·Аналитическая отчетность
·Кэш-витрины Tarantool для RTDM-сервисов
·Двусторонняя репликация Tarantool ↔️ PostgreSQL
·Синхронизация Tarantool с другими базами данных
·Качество данных для ML и AI
Вебинар будет полезен:
·архитекторам систем, работающим над интеграцией и управлением данными,
·DevOps-инженерам, которые настраивают инфраструктуру обмена данными,
·менеджерам ИТ-проектов, заинтересованным в эффективности и надежности инфраструктуры.
Зарегистрироваться
3 347
Решения всех ваших проблем 🙌
Вчера на ретро с командой накидали решения проблем, перетасовали, а потом выбирали подходящие стикеры, как в игре с мемами. И вот что у нас получилось⬆️
Можете в комментах поделиться, что вам советует судьба на этот раз
3 347
Как Docker упрощает жизнь аналитиков и инженеров данных
Когда вы работаете с данными, например, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения. Это как иметь готовую мастерскую со всеми нужными инструментами, где вы можете сразу приступить к работе.
На бесплатом вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью ➡️ повысите эффективность работы и сэкономите время на настройку окружения.
Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠 Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠 Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.
🕗Встречаемся 5 февраля 19:00 по мск
Зарегистрироваться на бесплатный вебинар
3 347
+5
🔶Запись готова🔶
Выложила запись на ютуб
Но у меня ни таймкоды не подтянулись, ни ссылки не работают 😁 Так что придется ручками потыкаться в описании или смотреть все 🥰
Спасибо всем, кто пришел! Меня ваши сердечки и огонечки очень подбадривали❤️
Немного статистики: 400 человек в пике, 600 в тотале!
Ссылка на материалы: https://github.com/Aigul9/spark-webinar
3 347
+5
🔶Запись готова🔶
Выложила запись на ютуб
Но у меня ни таймкоды не подтянулись, ни ссылки не работают 😁 Так что придется ручками потыкаться в описании или смотреть все 🥰
Спасибо всем, кто пришел! Меня ваши сердечки и огонечки очень подбадривали❤️
Немного статистики: 400 человек в пике, 600 в тотале!
Ссылка на материалы: https://github.com/Aigul9/spark-webinar
3 347
Repost from Симулейтив
🧑💻 Вебинар: Собираем витрину данных, как в бигтехе, от описания до результата
Представьте, что вы тренер футбольной команды. И у вас есть витрина данных, которая собирает информацию о каждом игроке, включая количество забитых голов, ассистов, время на поле и количество проведенных матчей. Такая витрина помогает выявить слабые места в команде и сфокусироваться на их улучшении.
О том, как аналитику строить витрину данных, разберём в прямом эфире на примере реальной задачи 28 января в 19:00 по МСК. Спикер вебинара — Айгуль Сибгатуллина, Data Engineer в Сбер, автор телеграм-канала @data_engineerette.
Вебинар пройдёт в нашем любимом режиме «решение тестового задания» — представим, что мы владельцы бизнеса, и на практическом примере покажем, зачем и почему мы это делаем.
Что будет:
🟠 Построение воркфлоу от этапа получения ТЗ до создания полноценной витрины;
🟠 Какие инструменты нужны для дата-инженера;
🟠 Как разобраться с методологией на разных диалектах;
🟠 Как объединить данные из нескольких источников;
🟠 Spark в работе дата-инженера: преобразования и оптимизации;
🟠 Как AI может ускорить процессы.
➡️ Зарегистрироваться
3 347
я популярити
мой первый доклад по де в таком масштабе💺
уже нагенерила идеи, данные и скрипт, сегодня доделываю презу и потом пойду репать спич 😥
даже на почту эта рассылка пришла!
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
