дата инженеретта

前往频道在 Telegram

мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea

显示更多

俄罗斯147 900 职业7 899

3 414

订阅者

+324 小时

+87 天

+2630 天

1 564

帖子浏览量

~ 60924 小时

~ 67048 小时

45.81%

参与率

无数据

每日帖子数

Ads index

beta

帖子存档

3 414

пупупу у меня всего 9 с половиной😚

3 414

Отгадайте с первой попытки, за какой это было период и что случилось😁😁 @data_engineerette

3 414

Если хочешь развиваться в бэкенд-разработке — выстроить сильную базу, углубиться в архитектуру или перейти в роль тимлида — в Центральном университете (ЦУ) есть магистратура под каждый сценарий. И на нее можно получить грант до 75%. Места ограничены, дедлайн подачи заявок — 20 августа. «Бэкенд-разработка» — это офлайн-направление (пары по вечерам и в выходные в центре Москвы) с тремя треками на выбор: ⚫️Технический — для студентов старших курсов и разработчиков в начале карьеры. Языки программирования, DevOps-инструменты, базы данных, архитектура ПО и распределенные системы. Программа ежегодно обновляется под реальные запросы компаний, а преподают разработчики, тимлиды и CTO из ведущих IT-компаний. К выпуску — сильное портфолио бэкенд-проектов ⚫️Совместный с MAGNIT TECH — обучение на реальных кейсах и архитектуре распределенных систем федерального масштаба, буткемп с экспертами компании и возможность выйти на оплачиваемую стажировку в техническую команду в течение первого года ⚫️Тимлидский — для опытных разработчиков, которые хотят перейти к роли руководителя команды: выстраивать процессы разработки, принимать архитектурные решения и развивать команду Магистратура в ЦУ — это 2 года обучения, которое можно совмещать с работой, и диплом государственного образца. Карьерная поддержка начинается еще во время учебы: консультации, тренировочные собеседования и помощь с трудоустройством. Студенты уже в процессе обучения выходят на новые позиции или повышаются в грейде в Яндексе, Авито, Т-Банке и других компаниях. 🏆Поступление проходит через грантовый конкурс — это одновременно способ попасть на программу и возможность выиграть финансовую поддержку на все время обучения: грант покрывает до 75% стоимости. В 2026 году доступно 550 грантов на все программы магистратуры. Подробнее о программе и условиях участия в конкурсе — по ссылке

3 414

Сеньорские вопросы 🤵 Чем круче вы становитесь, чем в более highload сторону вы идете, чем быстрее развиваются ллмки, тем вопросики к вам становятся все серьезнее Собрала для вас подборку таких вопросов по технологиям: ✨ Spark Из чего состоит executor memory? Что такое spark.memory.storageFraction? В чем разница между Sort-Merge Join и Broadcast на маленькой таблице? Каким образом уменьшить количество шафла? Зачем нужен data spill? Как работает AQE? Какие проблемы спарка в кубере? 🧊Iceberg Как айсберг работает с параллельным изменением одного файла и нескольких? Почему при записи из старой таблицы в новую в айсберге джоба бежит очень долго? Почему при перекладке в айсберг забивается кэш? Какие проблемы с айсбергом, кроме maintenance? 🌺 Airflow, Python Что такое TYPE_CHECKING? Как добавить шаблонизированное поле, если оператор не поддерживает jinja? Что такое dynamic task mapping? 🖥 ClickHouse Если данные писались в одну ноду клика, то при ее падении какие данные будут лежать на остальных? Какие проблемы с Replacing Merge Tree при вставке 5тб данных? 300 колонок, 8 ключей - в чем проблема такого подхода и как лучше поменять? 🧘Kafka Как интеграция Spark-Kafka умеет обеспечивать exactly once? Как будет читать спарк из кафки, если 10 коров, 5 партиций? Сколько будет простаивать экзекьюторов? Как будет читаться таблица в спарке, если 1ТБ один файл, 20 коров? Сколько будет простаивать экзекьюторов? Как будут читать 10 инстансов приложения из 5 партиций? @data_engineerette

3 414

Всем привет! Возвращаюсь на связь, на прошлой неделе была в отпуске😌 А пока на нашем рынке я такого не видела, но на зарубежном после HR-интервью присылается очень подробное и информативное саммари: о чем говорили, что нужно спросить в следующий раз, ваши плюсы/минусы, соответствие вакансии @data_engineerette

3 414

Системный аналитик помогает бизнесу и разработке говорить на одном языке: разбирает задачи компании, описывает требования, проектирует IT-решения и следит, чтобы система работала на реальные цели бизнеса. Онлайн-магистратура СПбГУ и Нетологии «Системный анализ и интеллектуальные системы управления бизнес-процессами» готовит специалистов на стыке IT и управления. В программе сочетаются академическая база СПбГУ и прикладные инструменты Нетологии. Студенты изучают математическое моделирование, алгоритмы, системный анализ, Python, BI-системы, no-code-инструменты, управление проектами и подходы к внедрению искусственного интеллекта. Такой набор навыков помогает работать со сложными бизнес-процессами: находить узкие места, снижать риски при разработке, формулировать требования к системам и сопровождать внедрение IT-решений. Обучение проходит полностью онлайн. После выпуска вы получаете диплом магистра СПбГУ очного образца по направлению «Прикладная информатика». Подробнее о программе Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5yo9LAn

3 414

Кажется, я уработалась😕 Это моя первая мысль, как только я села в такси

3 414

Раскрываю тайну Наверняка у многих был такой момент, что вы заходите в YARN, находите Hive-запрос, хотите в него провалиться, но Tez UI недоступен? Теперь вы знаете, как он выглядит @data_engineerette

3 414

Пойдемте прокачиваться 🧐 Кажется, многие айтишники в какой-то момент приходят к одной мысли: хочется не только писать код и закрывать задачи, но и делиться опытом, влиять на развитие профессии и видеть результаты своей работы в людях Чтобы это все реализовалось, в Центральном университете придумали фаст-трек для будущих преподавателей направления «Разработка» Всего за одни выходные, 27 и 28 июня, вы пройдете основные этапы найма: 📍техническое интервью с действующим преподавателем 📍пробное 20-минутное занятие Что такое Центральный университет? Это вуз нового типа, открытый при поддержке Т-Банка, Яндекса, Авито и более 60 других партнеров. Здесь преподают более 600 специалистов из ИТ-индустрии и преподавателей ведущих университетов страны, а учатся более 2200 студентов. Что важно: ✨преподавание можно совмещать с основной работой ✨подберут удобное расписание ✨опыт преподавания необязателен, подойдет любой софтовый, например, менторство или выступления на митапах ✨на старте все расскажут и подскажут Кого ждут: 📍мидлов с уверенными знаниями Python, Java или фронтенд-разработки 📍сеньоров в инфраструктуре, инжиниринге данных и архитектуре решений 📍 Встречаемся 27–28 июня, онлайн и в кампусе Центрального университета (м. «Маяковская») Регаемся тут до 24 июня

3 414

Data + AI 🍿 Вчера-сегодня проходит Data + AI Summit от Databricks. Основная суть — как работать с данными в эру AI, реклама собственных разработок, интервью с партнерами и крупными пользователями, кейсы применения сервисов Меня больше всего поразило — как они красиво говорят, у них такая чистая четкая речь и акцент, как на аудировании😍 И больше 30к людей в офлайне!! Есть очень много интересных моментов, которые я пометила себе: 🤩Аннонсировали Lakehouse//RT на собственном движке Reyden, который возвращает результат на огромном объеме данных за мс и не требует перекладки данных в отдельную бд под дэши (красивые графички тут) ✨✨ 🤩Обсуждали Lakebase — это постгря как движок над s3. Чтобы опять-таки хранить данные в одном месте, а не перекладывать из OLTP в OLAP-системы🤪 🤩LTAP (Lake Transactional/Analytical Processing) = Lakebase + Lakehouse. Данные пишутся строками => строки конвертятся в столбцы => чтение по столбцам. Правда, нам не сказали, насколько эта конвертация затратна❓ 🤩На сцене побывал Ryan Blue, один из главных создателей Iceberg. Он сказал, что в Databricks уже поддерживается iceberg v3, где одна из фич — это кросс-поддержка iceberg+delta lake, которые на диске лежат одинаково, и не надо ничего переписывать при смене формата. А к концу q4 или чуть позже уже выйдет iceberg v4 🤩Genie One + Genie Ontology — чат-бот, дополненный глоссарием/знаниями предметной области компании на основе графов + коннектов к гугл драйв/почте/и т.д. А еще он умеет чекать пермишены к данным перед тем, как вернуть ответ. А агентов можно шерить с коллегами✨ 🤩Добавляется отдельный агент Genie ZeroOps, который постоянно следит за кластером. Если в 2 часа ночи упал пайплайн, он пойдет искать причины по линейджу всех зависимостей, внесет изменения в код, потестит в песочнице, подготовит фикс и отправит алерт о готовности. Вам остается только аппрувнуть✨✨ 🤩Omnigent — платформа, где можно миксовать несколько моделек, чтобы они делали разные операции. Это называется "meta-harness" 🤩В Uber за 1 квартал потратили годовой бюджет на AI 🤩Pepsico — один из пользаков, у которых раньше было 600 дата лейков😳 🤩Databricks заколлабились с OpenAI (приходил кофаундер Greg Brockman), чтобы их модельки забустили дата-сервисы @data_engineerette

3 414

Hive vs HMS

HMS - Hive Metastore

Я долгое время вообще не знала про существование HMS. Для меня HMS и Hive шли неразрывно, и я не отличала одно от другого. Я же такая не одна, да?🌸 Но в один момент до меня дошло, что: 🤩Hive - это движок, который через синтаксис SQL (HiveQL) умеет ходить к данным. Мы пишем запросы как будто в обычной бд, но они становятся MapReduce/Tez/Spark задачами и ходят в файлики 🤩HMS - это каталог метаданных: схема таблиц, пути к файлам, типы данных, партиции и т.д. Ему для работы нужна бд. Чаще всего это PostgreSQL, MySQL Для работы Hive обязательно нужен HMS А вот сам HMS может использоваться и отдельно - с тем же Spark, Trino, Impala 🧊В контексте Iceberg мы используем HMS как технический каталог. Например, чтобы понимать, что таблице db.orders соответствует файл 000-asdkd27sn.metadata.json Подробнее про внутрянку hms я рассказывала здесь Про каталоги — тут @data_engineerette

3 414

Кажется, каждую неделю появляется новый пост о том, как ИИ скоро заменит аналитиков Но если внимательнее посмотреть на ситуацию, становится понятно: происходит совсем другое. Компании по-прежнему ищут специалистов по данным. Просто меняются требования. Все меньше ценится умение выполнять одну конкретную задачу и все больше — способность видеть весь процесс работы с данными и понимать, как отдельные инструменты помогают решать бизнес-задачи. Поэтому сегодня вопрос уже не в том, «заменит ли меня ИИ». Гораздо полезнее спросить себя: какие качества будут особенно востребованы, когда ИИ станет привычным рабочим инструментом? 16 июня пройдет бесплатный вебинар «День открытых дверей с Анатолием Карповым», где разберут, как трансформируются профессии в сфере данных, какие компетенции усиливают ценность специалиста и на что уже сейчас не стоит делать основную ставку. Узнайте, как меняется отрасль и что поможет оставаться востребованным специалистом в ближайшие годы: https://clc.to/erid_2W5zFHPhnA5 Реклама. ООО «КАРПОВ КУРСЫ». ИНН 7811764627. erid: 2W5zFHPhnA5

3 414

AI-эра тех собесов 💻 Теперь вместе с sql/python-задачками на тех собесе могут дать создание мини-проекта за 20 минут Разрешается использовать все, что угодно, любые ллм. (Только подумайте над тем, что будет работать, когда вы на созвоне на внутренней платформе.) Есть только одно условие — шерить экран Примеры заданий ➡️Для де: написать ddl таблиц, sql-запросы по сборке витрин, несколько дагов ➡️Для разраба: придумать архитектуру микросервиса и реализовать его ➡️Разобраться в коде и найти баги Сгенерили, а дальше? 🙂 Интервьюеры могут сами пока не до конца понимать, что делать после генерации кода) Они просто сидят и смотрят, как ты будешь разбираться, что происходит, просят внести правки или объяснить кусок кода Пока такое замечено в WB в последние 2 месяца, но могут подтянуться и остальные. Особенно после этого поста😁 @data_engineerette

3 414

ClickOps Мне тут пришло в голову покопаться в сервисах AWS и поделать какие-нибудь лабы. На ютубе довольно много видосов от индусов (и не только) на эту тему, я в итоге решила посмотреть вот этот 4х-часовой туториал с пет-проектом 🎙 Там парень очень понятно рассказывает про теорию и сервисы, показывает, как что делать. К акценту надо привыкнуть, но вроде норм) Говорит он супер быстро, как будто на x1.5 смотришь. Одна из фраз, которая красной линией проходит по видосу:

Сейчас никто не пишет код сам. Если вы хотите что-то реализовать или столкнулись с проблемой — идите к ChatGPT

Еще сайтец у него есть полезный, там очень много инфы собрано 💻 В чем суть проекта? Взять данные из файлов и API, залить в S3, переложить по слоям, добавить dq, настроить алерты, собрать витрину и поставить на расписание. Используя тех стек AWS: S3, Glue, Lambda, Athena, Step Functions, CloudWatch, SNS Вся эта история поместилась в 5 питонячих файлов и 4 джейсонины. Поэтому проект натолкнул меня на несколько логичных мыслей, но над которыми я не задумывалась: 1️⃣Девопсы вообще не нужны — все и так настроено и работает 2️⃣Платформенные решения, фреймворки для витрин тоже не нужны — достаточно написать одну Glue-джобку и запускать ее с разными конфигами 3️⃣Основная работа DE — нажимать на кнопочки и заполнять формочки Создать таблицу? 4 клика Загрузить csv в таблицу? 6 кликов Добавить поле? Перетащить прямоугольничек Партицировать таблицу? Выбрать колонку из списка Выделить инкремент для загрузки? Включить опцию Оно примерно так и есть, или я пока что-то упускаю? @data_engineerette

3 414

Когда никто не понимает, как делать задачу😂

3 414

Clickhouse для программистов, аналитиков и инженеров данных Перестаньте ждать, пока считается аналитика. Научитесь использовать ClickHouse — СУБД, которая превращает минутные аналитические запросы в ответы за доли секунды. С первого дня — доступ к инфраструктуре для практики. 🌐 Чему вы научитесь: 🤩 Архитектура одиночных и кластерных инсталляций ClickHouse: как устроена система изнутри и как масштабировать её под реальные нагрузки 🤩 Хранение данных: движки MergeTree, партиционирование и сжатие — как держать терабайты аналитических данных при минимальных затратах на инфраструктуру. 🤩 Обработка миллиардов строк за секунды: построение эффективных запросов, агрегаций и материализованных представлений. 🤩 ClickHouse в продакшене: использование в приложениях, продуктовой аналитике и типичные грабли, на которые наступают почти все 🤩 Живая практика без отрыва от работы: не более 2-3 часов в неделю, разбор задач с экспертом в групповом чате. 🥸 Кто мы: R&D-центр Devhands. Автор курса — Алексей Белозерский, Chief Data Officer в inSales (СБЕР 2В), ex: VK Tech, М.Видео, Эльдорадо 🗓 Старт курса: 11 июня, 6 недель обучения. Изучить программу и записаться можно здесь. Ждем вас! Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2VtzqxNnFKA

3 414

Случайно замедлили все загрузки Небольшая история о том, как можно ухудшить состояние кластера, не добавив и строчки кода😁 Предыстория У нас в airflow есть много дагов, которые качают данные из бд. Чтобы не положить базу, мы используем пулы, которые ограничивают количество подключений Как-то мы реализовали новый тип загрузки и, как порядочные разрабы, про пулы тоже не забыли. Долгое время данные грузились, все работало — с этой стороны не было проблем. Но однажды к нам пришел аналитик и спросил, почему таски висят в статусе scheduled по несколько часов. И вот тогда мы поняли 😁 Проблема Таска-загрузчик находилась в одной таск-группе вместе с другими легковесными тасочками. И они все наследовали одни и те же значения! Получается, что таске передавалось 100500 слотов, даже если она вообще не ходила в базу😱 И когда загрузчик требовал много слотов, абсолютно все простаивало, потому что больше ничего не помещалось😱😱 Решение Тут все просто: выпилить параметр из тех тасок, где он не нужен Мораль Можем подытожить так: даже если все зеленое и все считается, это не значит, что все хорошо🤨 @data_engineerette

3 414

На пути к гуру алгосов 01.06 стартует новый поток курса от Глеба Михайлова, и я на него иду! Алгосы — это точно мое слабое место, и я прямо в превкушении почувствовать «азарт охотника, а не ужас жертвы»🐆 Я уже зарегалась на платформе, добавилась в чатик и посмотрела орг материалы — какой должен быть подход к обучению, нужно ли быть перфекционистом и как трекать свой прогресс Курс разбит на 10 спринтов вплоть до 11.10. И ожидается, что мы должны уделять время на задачи 5 дней в неделю целое лето 😭 😭 Скоро я эволюционирую до всезнающего леопарда, ну, а пока я — маленькая птичка, которая полетела разведывать остров алгоритмов🐦 @data_engineerette

3 414

Познакомилась с деврелом из OpenMetadata В последнем спринте работала над таской, связанной с OpenMetadata. Она была поначалу настолько непонятой, что пришлось присоединиться к коммьюнити в Slack🤩 Могу сказать, что у них просто офигенная поддержка в чате, на вопросы они отвечают в течение получаса. Как только я присоединилась, на меня сразу вышел чел с ролью «Developer Advocate». Он рассказал, что у них происходит в чатах, какие они организуют вебинары и что можно забукать небольшую встречку Поначалу я скептически отнеслась, вопросов с моей стороны не было, да и вообще потом забыла, но спустя время решила встретиться поболтать🙂 Мы довольно мило побеседовали про наше использование инструмента, про их новые фичи. Он мне рассказал, что в последней версии: 🤩джобы запускаются не в airflow, а стартуют отдельные поды в k8s 🤩поддерживается дата-контракты Дата-контакты в OMD — это как второй этап проверки. Мы однажды напоролись на такое, что данные вставлялись без проблем даже при изменении схемы на источнике. Потому что мы в коде брали из датафрейма только столбцы, которые уже были в таргет-таблице🙂 Дальше мы пошли в сендбокс. Посмотрели, как дата-контракты поддерживают изменения схемы, data quality, штуки для безопасности (все, что на скрине). Контракты можно импортнуть и экспортнуть в формате ODCS (Open Data Contract Standard) Еще мне рассказали, что OpenMetadata стартанула всего лишь 5 лет назад! А 10.06 у них будет бесплатный онлайн-саммит Collate Summit '26: Data & AI in Production, на который можно зарегаться После встречи деврел прислал несколько полезных ссылочек, которые мы обсуждали: 📍OpenMetadata’s Kubernetes Scheduler Preview 📍Data Contracts and OpenMetadata 📍OpenMetadata Standards & Building new Connectors with AI 📍OpenMetadata Standards @data_engineerette

3 414

Airflow для менеджеров В Ariflow 3.1 появилась группа hitl-операторов, которая позволяет что-то вводить пользаку во время работы дага

HITL = Human-in-the-loop

🫠 Что делает пример на картинках? Мы задаем даты, выбираем сервисы из списка, вводим почту и получаем отчет. Операторы по сути помогают менеджерам не дергать DA/DE своими адхоками, а пойти самому накликать и выгрузить то, что нужно 🤓 А как это происходит? В базовых примерах после разворачивания airflow появится даг example_hitl_operator. Там есть несколько операторов из пакета airflow.providers.standard.operators.hitl: 🤩HITLOperator — выбрать одну или несколько опций из списка 🤩HITLEntryOperator — ввести любой текст 🤩HITLBranchOperator — выбрать следующую таску 🤩ApprovalOperator — одобрить или отклонить В коде выглядит это вот так:


wait_for_multiple_options = HITLOperator(
  task_id="wait_for_multiple_options",
  subject="Please choose option to proceed: ",
  options=["option 1", "option 2", "option 3"],
  multiple=True,
  defaults=["option 1"],
)

Когда заходите в UI, после запуска дага появляется доп вкладка Required Actions (1), где и нужно прожать опцию. Это все потом отправляется в xcom:


{
  "params_input": {},
  "responded_at": "datetime.datetime@version=2(tz=(UTC,pendulum.tz.timezone.Timezone,1,True),timestamp=1778505898.269782)",
  "chosen_options": [
    "option 2",
    "option 3"
  ],
  "responded_by_user": {
    "id": "1",
    "name": "airflow"
  }
}

Из xcom потом можно достать в других тасках. Сначала обращаетесь по названию таски, а потом работаете, как с обычным словарем:


{{ ti.xcom_pull(task_ids='wait_for_multiple_options')["chosen_options"] }}

{{ ti.xcom_pull(task_ids='wait_for_input')["params_input"]["information"] }}

Use case очень прикольный. Интересно, а вот на практике этим будут пользоваться? @data_engineerette