дата инженеретта

رفتن به کانال در Telegram

мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea

نمایش بیشتر

روسيا147 705 حرفه7 892

3 414

مشترکین

+324 ساعت

+87 روز

+2630 روز

1 564

نمایش های پست

~ 60924 ساعت

~ 67048 ساعت

45.81%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

3 413

Датаклассы Наконец-то спустя год дошли руки написать про датаклассы 🌷 Меня спросили на собесе в ламоду, и тогда я про них либо краем уха слышала, либо вообще не слышала. Но точно не использовала. Посмотрим, что с ними можно делать Зачем? Датакласс описывает данные, но без кучи лишних методов. Он сам вместо нас добавит __init__, __repr__, __eq__ по дефолту. Набор методов можем сами менять с помощью флагов Как создать? Чтобы датаклассы заработали, нужно их импорнуть и добавить в виде аннотации:


from dataclasses import dataclass

@dataclass
class SparkParams:
  """Dataclass для параметров spark-submit команды."""

  name: str
  deploy_mode: str
  driver_cores: int
  driver_memory: str
  executor_cores: int
  executor_memory: str
  num_executors: int

Готово! Никакие методы добавлять не нужно Как использовать?


spark_params = SparkParams("test_app", "cluster", 2, "4g", 4, "32g", 8)

Другие фишки Запрещаем менять поля:


@dataclass(frozen=True)

Задаем дефолтные значения:


@dataclass
class Team:
  description: str | None = None
  emails: list[str] = field(default_factory=list)  # для list/dict/set

Чуть подробнее можно прочитать в короткой статье @data_engineerette

3 413

Iceberg — это must have? Вы еще не замечали, что становится больше вакансий, где айсберг уже требуют? С одной стороны, если посмотреть на hh, то вакансий с айсбергом всего около 5%. Но, с другой стороны, в последнее время на меня выходят именно с формулировкой обязательности Собрала список компаний, которые хотя бы частично уже живут на Data Lakehouse: 📌Ламода 📌Магнит 📌Альфа 📌М.Видео 📌МТС 📌Сбер 📌X5 📌Лента 📌Золотое яблоко (Delta Lake) А вот Озон по состоянию на прошлый год планировал идти в Data Mesh, чем в Data Lakehouse Что вообще думаете? @data_engineerette

3 413

AI в OpenSource 🤓 У нас была проблема: аналитики переписывают свои скрипты с синтаксиса Trino на Spark, и в DDL они постоянно забывают поменять varchar на string. В итоге скрипты падают, только когда уже все вмержено в мастер (не круто) Линтер при этом не отлавливал такие кейсы, потому что varchar в диалекте спарка тоже существует, но с указанием длины: varchar(10) 🤔 Я покопалась в коде линтера, нашла проблему и завела issue на гитхабе Через 2 недели приходит отбивка, что все сделано. Я смотрю в PR: Copilot внес правки, Greptile все проревьюил🔥🔥 У кого так же в проектах настроено? PR: https://github.com/sqlfluff/sqlfluff/pull/7459 @data_engineerette

3 413

pre-commit Про эту штуку мне рассказал наш девопс. Короче, можно настроить у себя на ноуте, чтобы перед каждый коммитом прогонялись линтеры, форматтеры, другие легковесные чекеры Шаг 1. В корне репки создаем файлик .pre-commit-config.yaml и добавляем нужные модули:


repos:
  - repo: https://github.com/sqlfluff/sqlfluff
    rev: 4.0.4
    hooks:
      - id: sqlfluff-fix
        args: [
          --config, tables/.sqlfluff
        ]

Шаг 2. Устанавливаем pre-commit


brew install pre-commit
pre-commit install

Все хуки лежат в папке .git/hooks/ Шаг 3. Создаем свой файлик и коммитим При первой попытке запустятся форматтеры и исправят все ошибки:


git commit

sqlfluff-fix...............Failed
- hook id: sqlfluff-fix
- files were modified by this hook

== finding fixable violations ==
== [tables/test_table.sql] FAIL
L:   1 | P:   1 | CP01 | Keywords must be upper case. [capitalisation.keywords]
...
== [tables/test_table.sql] FIXED

На второй попытке файлик будет закомичен:


git commit
 1 file changed, 1 insertion(+), 1 deletion(-)
 create mode 100644 tables/test_table.sql

Больше примеров @data_engineerette

3 413

Repost from Newprolab: обучение DE и DS

⚡️ Специальная стоимость на ближайший поток программы Data Engineer Только до 5 марта при оплате всей суммы сразу: 107 100₽ ~~134 400₽~~ или $1300 ~~$1500~~ при оплате иностранной картой в долларах Новый 18-й поток Data Engineer начнется 16 марта. Следующий – только в октябре https://de.newprolab.com --- 🧐 Полезные ссылки: Квиз о пользе программы для разных дата-специалистов → Квиз для тимлида: польза для моей команды → Рекомендации для оплаты программы работодателем →

3 413

Программа сейчас со скидкой до 5 марта

3 413

Влияние ИИ на маркетинг 🔝 Раньше бренды пытались быть в топе выдачи в поисковике, участвовали в аукционах, чтобы выбить себе первые места Когда я работала в маркетинге, наши аналитики очень часто обсуждали органический трафик. Это пользаки, которые перешли на сайт из поиска, а не рекламного баннера. Помню, как они заходили в браузер с разных устройств и с инкогнито, чтобы перепроверить актуальную позицию. Мы парсили запросы по ключевым словам с упоминанем бренда и без, и это все мониторилось на дэшах 💻 Сейчас же многие пользаки читают нейроответы (я в том числе) и уже там находят решение. При этом бренды остаются не в курсе, в позитивном или негативном контексте они там упоминаются По-моему, это открывает большое поле для манипулирования нашим выбором и сознанием) Нужно всего лишь чекнуть, какие источники анализирует нейронка, опубликовать на этих сайтах "какой у нас крутой продукт" и (вуаля!) нейронка говорит, что у вас самый лучший продукт 😁 Уже появились инструменты, которые парсят нейроответы, анализируют мнение топовых нейросеток за вас, включая тон упоминаний, сравнение с конкурентами и т.д. ✏️ Теперь бренды меняют подходы, чтобы нейронка их чаще упоминала в своих ответах. Они покупают пресс-релизы, где будет в позитивном ключе описываться компания, указывают точные реквизиты, чтобы было понятно, о какой компании идет речь, и в целом оптимизируют сайты под нейропоиск ❌ SEO (Search Engine Optimization) ✅ AEO (Answer Engine Optimization) ✅ GEO (Generative Engine Optimization) Это целая наука, меня прямо сильно затянуло в этом покопаться @data_engineerette

3 413

max_by/min_by Узнала про прикольные функции, они заменяют оконку/CTE на одно поле Пример - вывести имя сотрудника с максимальным стажем по каждому департаменту


result = df.groupBy("department").agg(
    F.max_by("name", "years")
)

И все! Не надо никаких row_number = 1 В Spark SQL можно еще и фильтр набросить:


spark.sql("""
  select
    department,
    max_by(name, years) filter (where name is not null)
  from employees
  group by department
""")

А в Trino еще можно собрать массив топ-n в убывающем порядке:


select
  department,
  max_by(name, years) AS top_employee,
  max_by(name, years, 2) AS top_2_employees
from employees 
group by department

Аналог в ClickHouse - argMax @data_engineerette

3 413

Когда работаешь с айсбергом, но есть нюанс

3 413

Худшие фейлы в DE Наткнулась на тред в реддите, где обсуждались фейлы на работе. Мне больше всего зашли 2 истории, они такие смешные и страшные одновременно🤯 1️⃣Стриминг писал в то же самое место, откуда и читал. Это все длилось год, поэтому накопилось сотни триллионов миллиардов версий документов. Проблема обнаружилась, только когда к ним пришел AWS и пожаловался на проблемы в своих системах Неужели за этот год они не заметили, как эти пайплайны работают все медленее и медленнее, почему такая высокая нагрузка и что в таблицах кучи дублей? 2️⃣DE понизил уровень логирования до DEBUG, и это привело к расходам в 100к долларов за неделю Кажется, теперь я знаю способ, как можно уменьшить расходы компании. Ничего не логировать 😁 💰 Мы сейчас тоже переходим в эру FinOps. Будем пугать аналитиков, чтобы писали оптимальные запросы 😁 А у вас было что-то супер серьезное? Ссылка на тред @data_engineerette

3 413

16 марта начнется новый поток программы Data Engineer от Newprolab Будет полезно junior- и middle- дата-инженерам, аналитикам данных, бэкенд-разработчикам, техлидам и менеджерам, работающим с дата-командой 🎯 Пройдите интерактивный квиз и получите персональные рекомендации о пользе программы в зависимости от вашей роли + промокод на скидку! - 10 недель (16 марта - 29 мая) - 30 занятий (в зуме + видеозаписи) - 10 лаб с реальными данными и облачный кластер - чат с участниками и поддержка координаторов 📌 Что дает программа 1) научитесь решать типичные задачи DE 2) структурируете ваши знания и познакомитесь с новыми инструментами 3) поработаете с облачным кластером для решения лаб с реальными данными 4) видеозаписи и другие материалы программы останутся у вас навсегда 📌 Преподаватели – практики из ведущих компаний, рассказывают о сложном простым языком и ответят на все ваши вопросы Подробности программы на сайте ___ По всем вопросам пишите Алексею @snitsa

3 413

Откуда у них доступ к моему Airflow

3 413

Подъехала задачка! На картинке a, b - исходные таблицы, res - итоговая Нужно написать один запрос, который вернет нужный результат в обоих случаях @data_engineerette

3 413

Никогда не ешьте в одиночку и другие правила нетворкинга 🤓 Я увидела эту книгу в рекомендациях, заинтриговало название, но как будто она вообще не про нашу жизнь) Она про конец 20го века, Америку и ведение бизнеса Кратко вот так: 📌составить список будущих контактов 📌познакомиться с ними 📌периодически им всем звонить и приглашать на встречи 📌быть оргом 📌создать личный бренд и сообщество 📌вертеться возле денег и в кругах сильных этого мира В книге есть главное противоречие: автор сначала говорит, почему нужно бескорыстно помогать людям и не стремиться к крупной сделке, а потом - как знакомиться с людьми, которые помогут заключить эту самую крупную сделку 😧 А это уже совсем cringe moment: звонить людям на автоответчик во внерабочее время, чтобы не тратить время на общение, но в то же время напомнить о себе. «Если ты не хочешь разговаривать, зачем звонить?» - моя мама Но я все-таки процитирую и прокомментирую некоторые мысли, которые мне понравились и которые хоть как-то можно привязать к нам Про "силу слабых связей" Сильные связи - это наши близкие друзья, родственники. И они посещают одни и те же места, как и мы, а слабые связи общаются с совершенно другими людьми Про деньги

Если то, что вы делаете, могут сделать многие, то обязательно найдется кто-то, кто готов будет сделать это за меньшую плату

Тут вспоминается конкуренция на позицию джуна де. А ведь если этот кто-то не нашелся, значит, это вы?

Творчество бесполезно, если от него нет практической отдачи. Постоянно думайте о том, каким образом это поможет заработать побольше денег

Мама мне говорила то же самое) Чтобы я занялась репетиторством, потому что хорошо учусь, или преподавала сольфеджио, потому что хорошо получается, или фоткала свадьбы, потому что увлекаюсь фотографией. Но в этом мире существуют же хобби? Про знакомства

Знакомясь с новым человеком, будьте готовы ему что-то рассказать. Все, что вы прочли и узнали в своей жизни, ничего не значит, если люди не считают вас интересным собеседником

Я недавно задумалась, что пора бы уже выучить пару анекдотов на русском и английском, подготовить смешную историю из своей жизни и топ-3 интересных факта о себе. Пока в этом списке (по моему мнению) - я участвовала в постановке оперы «Турандот» в гвардии принцессы. Норм для факта?

Не гоняйтесь за лидерами. Лучше попробуйте найти лидеров завтрашнего дня

По сути это как выйти замуж за айтишника-тимлида или за айтишника-джуна, но с потенциалом Про лайфхаки 1️⃣Клонировать события - если есть люди, с которыми нужно встретиться, но время ограничено, то можно их всех пригласить в одно место, чтобы еще и познакомить их друг с другом. А еще кого-то пригласить пораньше, а с кем-то задержаться. По-моему, это гениально 2️⃣Понравилась идея при знакомствах спрашивать любимый трек и пополнять свой плейлист 3️⃣Говорить людям, что с ними очень приятно общаться @data_engineerette

3 413

IPv4 vs IPv6 👀 Я раньше очень часто смотрела на таблицу с событиями пользователей из яндекс метрики. Там были столбцы ClientIP и ClientIP6: ClientIP - IPv4 с которого было установлено TCP соединение с сервером ClientIP6 - IPv6 с которого было установлено TCP соединение с сервером Причем ClientIP6 никогда не было заполнено. И я все время задумывалась: а что там вообще должно лежать? 👩‍💻 И вот недавно я собиралась поиграть с европейскими ребятками. Они подняли свой собственный сервер, чтобы пинг был меньше. Скинули мне примерно такую ссылочку: http://[2a02:8071:78f1:e662:416d:f389:ff96:442e]:8080/ Я в первый раз увидела, что такое IPv6 на самом деле) Оказалось, что на их стороне роутером не поддерживается IPv4, а на моей стороне провайдером не поддерживается IPv6 🌎Нашла интересную карту, где показано, что в США, Европе показатель доступности около 60%, Саудовская Аравия и Индия под 80%, пока у нас всего 3%. Представляете? https://stats.labs.apnic.net/ipv6/ Google показывает 9%, но складывается примерно такая же картина: https://www.google.com/intl/en/ipv6/statistics.html @data_engineerette

3 413

Рынок ИИ в России быстро растёт: по предварительным оценкам, в 2025 году его объём достиг $2,1 млрд, а спрос на ML-инженеров уже сейчас опережает предложение. Бизнесу нужны специалисты для реальных задач — от рекомендательных систем и аналитики до автоматизации сложных процессов. На курсе "Инженер машинного обучения с нуля" в Нетологии делают упор на практических навыках. Вы научитесь работать со всем циклом ML-разработки: • формулировать и проверять гипотезы с помощью статистики; • создавать и дообучать нейросети, использовать transfer learning; • собирать ETL-пайплайны и готовить данные; • контейнеризировать проекты и настраивать CI/CD для ML-систем. В программе больше 10 проектов для портфолио, задачи от реальных компаний и шанс на стажировку в Globus IT. А эксперты из Яндекса, Сбера и Amazon помогут на протяжении всего обучения. Начните свой путь в профессию, которая уже меняет рынок. Получите скидку 45% по промокоду ML2026 с возможностью оформить рассрочку. Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xADXus

3 413

Repost from БАШНЯ

HARD SKILLS🫥 Сегодня разбираем реальный кейс о том, как один файл и смена инфраструктуры положили Nexus и остановили релизы👩‍💻 Делитесь этим постом с друзьями и пишите свои вопросы в комментарии ✍️ Автор поста: @data_engineerette #hardskills

3 413

Поделилась тут интересной историей🤗

3 413

Замена show partitions Часто бывает, что нужно найти последнюю партицию и начать грузить данные со следующей. Пройдемся от банальных вариантов до особенно интересных 1️⃣ max(date) - самое ресурсозатратное, потому что нужно пробежаться по всей таблице 2️⃣ show partitions - отличный способ, пробегаемся только по метаданным Другие 2 варианта подойдут для айсберга: 3️⃣ raw.my_table.partitions - в айсберге есть много системных мета-таблиц, таблица с партициями выглядит так:

-RECORD 0-------------------------------------------
 partition                     | {2025-03-29 00:00:00}   
 spec_id                       | 0                       
 record_count                  | 7251                    
 file_count                    | 1                       
 total_data_file_size_in_bytes | 91062                   
 position_delete_record_count  | 0                       
 position_delete_file_count    | 0                       
 equality_delete_record_count  | 0                       
 equality_delete_file_count    | 0                       
 last_updated_at               | 2025-11-20 12:25:48.678 
 last_updated_snapshot_id      | 5910543042911865752     
only showing top 1 row

Это как аналог show partitions: идем в табличку и отбираем max(partition) 4️⃣ TBLPROPERTIES - тут обсудим подробнее Пусть таблица партицируется по другим полям или не партицируется вообще. Тогда в момент загрузки можно проставить любое свойство:


ALTER TABLE raw.my_table
SET TBLPROPERTIES ('raw.last-date' = '2025-12-05');

Их может быть несколько, посмотрим на текущий список:


SHOW TBLPROPERTIES raw.my_table

Сюда добавилось наше кастомное свойство:

+-------------------------------+-----------------+
|key                            |value            |
+-------------------------------+-----------------+
|current-snapshot-id            |63675018113182479|
|format                         |iceberg/PARQUET  |
|format-version                 |2                |
|raw.last-date                  |2025-12-05       |
|write.format.default           |PARQUET          |
|write.parquet.compression-codec|zstd             |
+-------------------------------+-----------------+

Убрать свойство можно так:


ALTER TABLE raw.my_table
UNSET TBLPROPERTIES('raw.last-date');

Каждое изменение свойства будет создавать новый файл с метой - а это доп расходы на хранение и куча разных версий одной и той же таблицы. Поэтому сначала проанализируйте, какой метод будет подходить именно для ваших данных и ресурсов @data_engineerette

3 413

Lakehouse для аналитиков и инженеров данных Изучи набирающий популярность подход к построению хранилищ данных Data Lakehouse c разделенным Compute и Storage на основе Iceberg и Trino. 🌐 В программе курса: ▪️Современная архитектура аналитических систем от DWH и Data Lake до Lakehouse с разделением Compute и Storage на базе Apache Iceberg и Trino. ▪️Iceberg: управление файлами, снимками, каталогами, схемами изменений и очисткой. ▪️Практическое использование Iceberg Catalog, работа с кластером Trino (на Kubernetes), подключение данных на S3 и выполнение SQL/Python-запросов. ▪️Работа с Iceberg+Trinо на больших масштабах: сложные запросы к датасету TPC-DS (2.8 млрд строк), интеграция с DBT, Apache Airflow, оценка производительность систем. ▪️Построение пайплайнов, инструменты для корректной поддержки, обновления и масштабирования Lakehouse-инфраструктуры на уровне предприятия. 🥸 Кто мы: R&D-центр Devhands.io, наш канал. Автор курса — Алексей Белозерский, руководитель направления Big Data Services в компании VK Tech. 🗓 Старт курса: 5 февраля, 18:00, 6 недель обучения. Изучить программу и записаться можно здесь. Ждем вас! Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2Vtzqwgrf3y