дата инженеретта
رفتن به کانال در Telegram
мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea
نمایش بیشتر3 346
مشترکین
+824 ساعت
-177 روز
+730 روز
آرشیو پست ها
3 347
Топ мировые конфы по DE
После просмотра доклада из Netflix в предыдущем посте я задумалась - а какие вообще есть мировые де конференции в 2025, которые можно посмотреть онлайн? Что там вообще происходит, у нас еще есть точки соприкосновения?
Почитала статейки, комменты на реддите, посмотрела на каналы, подписчиков, темы видосов и вот что откопала:
1️⃣Самым прикольным мне показался Data + AI Summit от Databricks
Здесь ссылка только на 1 плейлист, а их там просто десятки
2️⃣"no bullsh*t data conference", бывший DataEngConf - Data Council, тоже показался интересным
3️⃣Проходит в Лондоне - Big Data LDN
4️⃣по dbt есть Coalesce
Будет круто, если вы следите за какой-нибудь конфой и поделитесь ссылочкой
3 347
WAP
Недавно на работе грумили задачку по реализации WAP-паттерна на Iceberg. А сегодня мой коллега написал статейку на 4 минутки про этот подход. При первом ознакомлении все расставляет по полочкам
https://habr.com/ru/articles/937738/
Для преисполненных - доклад с митапа про инкрементальные загрузки на dbt с использованием паттерна
https://youtu.be/iLxdRPUWS8k?si=pS6jpMj5E-KRtsWe
3 347
На текущий момент, когда одни компании мигрируют с первой технологии на вторую, а другие - со второй на первую, все еще стоит вопрос поиска компетентных дата инженеров. И хотя вакансии закиданы сотнями нерелевантных резюме, настоящие алмазики среди них попадаются редко.
Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных».
За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.
Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.
Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/ekau
🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV.
Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5wa9jER
3 347
ROLLUP vs CUBE vs GROUPING SETS
Суть этих штук - добавить промежуточные тоталы (как в экселе). Как будто мы group by делаем несколько раз с разными полями
🍣 ROLLUP
GROUP BY ROLLUP (country, region, city)
country-region-city - 6 строк
country-region - 4 строки
country - 2 строки
all - 1 строка
————
13 строк
Мы с каждым уровнем отбрасываем более детальный столбец и считаем тотал шире
Первые 6 строк - как в обычной группировке (поэтому не расписываю). К ним еще добавляем тоталы по стране с регионом, стране и глобальный тотал:
Russia Moscow Oblast NULL 12800 Russia Siberia NULL 1600 USA California NULL 4900 USA Texas NULL 2300 Russia NULL NULL 14400 USA NULL NULL 7200 NULL NULL NULL 21600🎲 CUBE
GROUP BY CUBE (country, region, city)
Здесь нужны все комбинации: по 3 элемента, 2, 1, 0
country-region-city - 6 строк
country-region - 4 строк
country-city - 6 строк
region-city - 6 строк
country - 2 строки
region - 4 строки
city - 6 строк
all - 1 строка
————
35 строк
👥 GROUPING SETS
GROUP BY GROUPING SETS ((country, region, city), (country, region), (country), ())
Здесь можно кастомно задавать группы. В этом примере будет то же самое, что и ROLLUP3 347
Летняя школа по аналитике, Data Science и Data Engineering
Центр непрерывного образования ФКН НИУ ВШЭ открывает регистрацию на летнюю школу «IT-сеанс: погружение в мир данных». Вас ждут выступления спикеров из таких компаний, как: Яндекс, Т-Банк, Ozon Tech, МТС Web Services, Альфа-Банк, X5 Tech, Magnit Tech, Авито и Вкусно — и точка.
Приглашаем всех, кто хочет разобраться:
〰️〰️〰️〰️〰️〰️
Зачем переходить в IT:
🟣Как данные меняют бизнес-процессы и какие роли в этом играют аналитики, дата-сайентисты и инженеры данных?
🟣Какие тренды в Al и Big Data формируют будущее технологий и компаний?
Как построить карьеру в аналитике, в Data Science и в Data Engineering:
🟣Какие навыки являются востребованными для каждого из трех карьерных путей и где их прокачать?
🟣Можно ли перейти в сферу данных с непрофильным образованием?
🟣На что смотрят HR и технические интервьюеры?
Как аналитика, Data Science и Data Engineering применяются в разных индустриях:
🟣Какие задачи решают аналитики, дата-сайентисты и инженеры данных в банковской, телеком- и ритейл-отраслях?
🟣Какие инструменты и технологии входят в рабочий стек специалистов в ритейле, банках и digital-сервисах?
Школа подойдет как тем, кто только решил освоить новую профессию, так и начинающим специалистам.
Когда: 21 августа в онлайн-формате, 23 августа — очно.
Где: Центр Культур НИУ ВШЭ, г. Москва, Покровский бульвар, 11.
📁Участие бесплатное для всех желающих, требуется регистрация: по ссылке 📍
3 347
🌼 Задачка
Ох, как давно у нас их не было, сегодня смотрим на ROLLUP. Даже если не знаете, попробуйте прикинуть/придумать, а потом я все расскажу
Есть табличка population - она на картинке. К ней делаем такой запрос:
SELECT
country,
region,
city,
SUM(population) AS total
FROM population
GROUP BY ROLLUP (country, region, city)
Сколько строк выведет запрос?3 347
Как из нас пытались сделать роботов, а теперь мы делаем их сами
Недавно задумалась, что из-за навязанных школой стереотипов об обучении кажется, что учиться — всегда равно стиснуть волю в кулак, чтобы кое-как выполнить задание. Как вспомнишь то время, так и оставишь идеи об учёбе…
Просто надо искать удобные для себя форматы и избавляться от шаблонов в голове. Сейчас мы сами обучаем машины, доступ к информации не ограничен физическими библиотеками. И когда количество знаний кажется неограниченным, по-настоящему важны хорошая база и правильная система.
Допустим, решили вы освоить облачную инфраструктуру, так обратитесь к проверенному источнику с комфортными для вас условиями. Например, в этом случае подойдут практические интенсивы по сервисам Yandex Cloud для инженеров, аналитиков и архитекторов. Если кратко, то это обучение, основанное на практическом применении полученных знаний, а в течение всего курса (4–6 недель) рядом будет наставник.
В ближайшее время стартуют сразу несколько практических интенсивов:
1. 25 августа — 28 сентября 2025 года: ClickHouse для дата‑инженеров. В программе: основы ClickHouse, структура БД, проектирование структуры БД и SQL‑запросы, оптимизация и мониторинг, управление кластером.
2. 8 сентября — 19 октября 2025 года: Kubernetes для разработчиков — основы управления контейнерами и взаимодействие с API Kubernetes, автоматизация деплоя и CI/CD, работа с сетями, безопасность и мониторинг в Kubernetes, оптимизация кластеров и диагностика ошибок.
3. 6 октября — 7 ноября: DataLens Enterprise для администраторов. Среди тем: установка и настройка DataLens, включение функций и мониторинг, авторизация и управление ролями, подключение источников данных.
Той самой злой математички не будет, можно расслабиться и записаться уже сейчас.
3 347
Как диплом магистра помогает строить карьеру в аналитике?
Вы наверняка задавались вопросом: «Нужен ли диплом магистра, чтобы прокачаться в аналитике?» Или, может, уже учишься и сомневаешься — какие предметы реально пригодятся, а какие просто трата времени?
14 августа в 19:00 (МСК) Андрон Алексанян разберёт эту тему без воды и шаблонных ответов.
Что обсудим:
🟠Разберемся — какие плюсы дает диплом магистра, если строишь карьеру в аналитике.
🟠На примере реальных программ посмотрим — какие предметы вам реально помогут, а какие только отнимают время.
🟠Обсудим вакансии, к которым доступ открывается только после окончания магистратуры элитного ВУЗа.
🟠Остановимся на неочевидных «бонусах» и возможностях, которые тебе дает магистратура.
Это не про «нужно/не нужно» — это про то, как извлечь максимум, если вы уже в процессе или только думаете о магистратуре.
Приходите, если хотите принимать осознанные решения о своём образовании и карьере!
🕗 14 августа в 19:00 по МСК
😶Регистрируйтесь сейчас
3 347
Разбираемся в движках клика
Этот день настал, и я наконец-то поняла, что происходит с разными движками в кх 🕺
Возьмем такую конфигурацию кластера: 2 шарда по 2 реплики. И для примера 3 движка: MergeTree, ReplicatedMergeTree, Distributed
Подключаемся к 1му хосту, создаем 6 таблиц на кластере. Чтобы результаты не мешали друг другу, под Distributed создаем отдельные свежие чистые таблички:
1) MergeTree
ENGINE MergeTree()
2) ReplicatedMergeTree
ENGINE ReplicatedMergeTree()
3) Distributed поверх MergeTree
ENGINE = Distributed(local_cluster, default, mt_table, rand())
4) Distributed поверх ReplicatedMergeTree
ENGINE = Distributed(local_cluster, default, rmt_table, rand())
Каждая таблица теперь существует на каждом хосте, потому что мы создали на всем кластере. Инсертим 10к строк данных и сравним
Что получается?
🎈MergeTree
Данные хранятся только на том хосте, на котором мы заинсертили. На остальных 0
🎈ReplicatedMergeTree
Данные хранятся на всех репликах одного шарда. На остальных шардах 0
🎈Distributed
Данные вообще не хранит, они лежат в исходной таблице. В каком-то смысле это как view
Если в основе MergeTree - то данные будут на одной из реплик в шарде. В нашем случае это replica1 для shard1 и replica2 для shard2
Когда мы делаем count(), рандомно выбирается одна реплика из каждого шарда. Т.е. на нашем кластере возможны 4 комбинации:
1 + 3 = 5030 + 0 = 5030 1 + 4 = 5030 + 4970 = 10000 2 + 3 = 0 + 0 = 0 2 + 4 = 0 + 4970 = 4970Это значит, что при каждом новом запросе, например, для хоста 3 мы можем получить либо 5030 строк, либо 0 Если в основе ReplicatedMergeTree - то между репликами будет одинаковое количество строк, но между шардами разное. А при запросе к distributed всегда будет участвовать одинаковое количество строк 🌷Поэтому если нужно получать консистентные данные, обеспечивать отказоустойчивость - используем Distributed на базе ReplicatedMergeTree и селектим из Distributed
3 347
Бесплатный ресурс для англа
Недавно не знала, чем занять очередной вечер, и решила полистать свои чатики с встречками по англу. Там я наткнулась (не реклама) на American Center in Moscow. Я когда-то подписалась на них, но особо не заглядывала, потому что они все организуют онлайн, а мне хотелось прийти вживую
И вот у меня был свободный вечер, у них - просмотр и обсуждение TED Talk на тему прокрастинации, почему бы и да? Мы рассказали про наши дела, посмотрели видос, пообсуждали, прошли тест на прокрастинацию, пообсуждали тест и пошли обсуждать в группах, что мы прокрастинируем и как с этим будем бороться - всего 1,5ч
Оказывается, у них каждый день что-то происходит, и это все бесплатно😋
А видос я нашла в другом чатике, по-моему, очень правдоподобно😁
3 347
3. Управление ожиданиями руководства и команды
Продолжаю рассказывать про курс команды
Второй модуль - тут
Описание программы - тут
Что рассмотрели:
⏺типология по Адизесу (PAEI)
⏺этапы развития компании
⏺корпоративные культуры
⏺психологическая безопасность в команде
⏺командная вовлеченность
⏺матрица прозрачности и доверия
⏺пороки команды
Лектор тоже классный, 5ч просто незаметно пролетают
Майндсет сотрудника: я сделаю сам
Майндсет руководителя: делегирование = инвестирование, потом будет больше времени для стратегических задач, развития команды и т.д.
Идеальный найм = Task Fit + Team Fit + Culture Fit
А на собесе на менеджера важно попросить описать корп культуру, потому что руководитель ее транслирует
🍰 PAEI
По этой модели идеальный руководитель = постоянные результаты (Production) + совершенствование процессов (Administration) + креативный подход (Entrepreneurship) + работа с командой (Integration)
Он умеет во все функции, но 1-2 выражены наиболее ярко. Если у вас не хватает, например, креативности или не хочется следовать всем правилам - в команде должен быть генератор идей или человек, которому нравится выстраивать процессы. Если таких нет - нужно развить
🐸 Маркеры для собственного проявления
Кого наказывают, кого поощряют?
Кого продвигают, кого нет?
На что выделяются бюджеты?
🐸 Психологическая безопасность
Есть 7 вопросов для определения ок/не ок:
1. If you make a mistake on your team, is it held against you? 2. Are you able to bring up problems and tough issues? 3. Do people on the team sometimes reject others for being different? 4. Is it safe to take a risk? 5. Is it difficult to ask other team members for help? 6. Do people on the team deliberately act to undermine your efforts? 7. Are your unique skills and talents valued and utilized?🐻 Командная вовлеченность Чтобы группа людей была реально командой, нужна общая цель, коллаборации внутри команды, ME -> WE, коллеги -> тиммейты, свои ритуалы, артефакты, табу, язык Не надо бояться конфликтов, в них появляется решение проблемы и энергия на это решение. При работе в группе вкинули, что можно даже попробовать самому подрывать команду из проблем на 1-1, чтобы быстрее выводить команду на другую стадию развития. Но это может не сработать. Не сломать то, что уже есть Прикольная цитата
Ошибка - оплаченная возможность для развитияТест на PAEI можно пройти тут
3 347
Проблема мелких файлов на практике
Я игралась с iceberg-таблицами, и у меня странно долго работали запросы. Исходные данные: 2,8 млрд строк и 111гб. Я поресерчила, что запросы сильно тормозят на этапе чтения. Пошла смотреть, как лежат данные, и увидела в каждой партиции по 100 файлов размером 1кб 🥺
hdfs dfs -count /my_table
# 1825 182400
1825 партиций, 182400 файлов - представляете, сколько накладных расходов открыть каждый файлик?
В чем особенность айсберга - вы не можете просто взять и переложить/пересохранить данные. Потому что в мете лежат ссылочки на файлики с данными. У вас просто все поломается 😒 Для компакта есть процедура рерайта:
spark.sql("""CALL system.rewrite_data_files(
table => 'my_db.my_table',
options => map('target-file-size-bytes', '134217728') --128 мб
)""")
Проверено: на драйвере должно быть достаточно памяти, чтобы выполнить эту операцию. Иначе файлики создадутся, но мета не обновится. Это значит, что ничего не поменялось, вы просто теперь храните в 2 раза больше данных, которые придется удалять ручками
После процедуры стало 6283 актуальных файликов - теперь все лежит как надо 👍
На картинке - запрос spark.table().cache().count(), который до компакта проходился по 5730 партициям, а теперь всего 856
Что получилось:
- файлы уменьшились в 30 раз
- таски в 6,7 раз
- время в 1,8 раз3 347
У нас запустили локальный конкурс на лучшие мемы, есть штук 8 прямо очень прикольных, буду периодически их вкидывать
Это мой топ-1😂
3 347
🍒 cherry-pick 🍒
Вы наверняка слышали про такую команду в гите, но никогда не использовали. Она символизирует то, как вы с дерева аккуратненько срываете вишенки одну за одной
В чем суть и зачем она нужна?
Допустим, есть ветка dev. У вас появилась новая задача. Вы создаете feature/DE-111 и пушите свои изменения
Потом вы хотите потестить определенную функциональность на деве, но в фича-ветке уже намешано много всего. А вам нужны всего лишь 1-2 коммита
Что делать?
Сначала из своей ветки достаем хэши коммитов. Потом идем в нужную ветку и вставляем их туда
git checkout feature/DE-111
git log --oneline -10 # последние 10 коммитов
git checkout dev
git cherry-pick commit1-hash commit2-hash
git push
Теперь в деве такая история коммитов:
🟣commit2-hash
🟣commit1-hash
🟣dev-last-commit
🟣...
Но если теперь вы сделаете merge ветки, то каждый коммит задублируется:
🟣merge branch 'feature/DE-111' into dev
🟣commit2-newhash - это изменения commit2 с новым хешом
🟣commit2-hash
🟣commit1-newhash - это изменения commit1 с новым хешом
🟣commit1-hash
🟣dev-last-commit
🟣...3 347
Вебинар для SA
*SA — системный аналитик
На днях возвращалась с корпората с нашим архитектором и спросила, из каких направлений вообще ими становятся. Она ответила, что из совершенно разных, но конкретно ее путь был DevOps 😱 + разработка (Java, Python)
Я поймала себя на мысли, что к архитектору довольно близок системный аналитик, который тоже продумывает взаимодействия между системами, только не на таком низком уровне и может не учитывать особенности безопасности, ролевки, <подставьте сами>
У меня был близкий опыт работы с системным только в рамках одной команды, поэтому я сама не до конца понимаю, что они могут делать в других 😅
Поэтому если вы тоже хотите разобраться в этой штуке, то велком на вебинар. На нем расскажут, зачем системный аналитик вообще нужен, какие инструменты сейчас требуются и чем он на самом деле занимается на примере практического кейса
Когда: 31 июля в 19:00 МСК
Спикер: Иванушкина Екатерина
Старший системный аналитик в Lemana pro, продукт «Поиск и рекомендации»
Для кого этот вебинар:
⏺️ для новичков, которые интересуются IT и хотят войти в профессию без необходимости писать код
⏺️для начинающих системных аналитиков, которым не хватает структуры, практики и понимания, как работать на реальных проектах
⏺️для специалистов из техподдержки, клиентского сервиса или продаж, которые хотят сменить сферу и работать в IT
⏺️для всех, кто хочет разобраться, чем на самом деле занимается системный аналитик и подходит ли вам этот путь
Ссылка на регу тут
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFJo84uv
3 347
3 347
+1
Моя коллекция наклеек
Пока добавляла новую порцию наклеек, решила еще раз посмотреть на собранную коллекцию
И вот оно мне нужно вообще?
3 347
2. Постановка задач, делегирование, фидбек
Продолжаю рассказывать про курс команды
Первый модуль - тут
Описание программы - тут
Что было?
🤩алгоритм постановки задач
🤩точки контроля
🤩уровни делегирования
🤩виды руководства
🤩стили общения
🤩уровни зрелости
🤩модели фидбэков (SBI, IBOFF, SLC)
🤩фидфорвард
🤩и еще много всего полезного
Лектор просто топ, очень харизматичный!🔥 Нашла страничку про него. А ниже крутые цитаты с лекций:
Парадокс менеджмента: люди, которым мы платим зп, должны радоваться каждой задаче Как менеджер вы должны руководить картинками в голове у сотрудника Абсолютная безоценочность - это уже поближе к Будде Грамотный руководитель говорит языком наблюдений и цифр, а не языком ярлыков и обобщений Шоколад должен быть шоколадным для всех Не надо замахиваться, что руководитель знает, как мир устроен. Да, конечно, это так, но не признавайтесь людям. Планетой нужно управлять незаметно для санитаров, чтобы не вызывать подозренийМысли, которые мне показались наиболее интересными: Таск-трекеры нужны для единого понимания. Лучше, чтобы сотрудники сами заводили задачи со своим пониманием ❌ Как ты понял задачу? Расскажи, как ты понял? Ты понял? ✅ Я бы хотел проверить себя, насколько мне получилось объяснить Контроль - это сервис, чтобы сотрудники справились классно. Получать удовольствие от того, что ты организовал сделать что-то других Поддерживать сильные стороны важнее, чем корректировать. Цель фидбека - помочь развить навык или укрепить уверенность. Постоянно должен быть мотивирующий фон работы. Можно своими вопросами выводить человека на самофидбек. При этом с разными людьми нужно быть разным. Важно, чтобы рядом был человек, который видит в тебе того, кто может справиться
3 347
Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки?
Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив.
Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз.
→ Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH.
→ Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.
→ Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL.
→ Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы.
→ Линейный рост затрат вместо экспоненциального при масштабировании.
→ Не нужно содержать отдельные команды под DWH и Data Lake.
→ Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций.
→ Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI.
Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов:
👉Оставляйте заявку
Будем рядом на всех этапах пилота и поможем довести MVP до результата.
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
