дата инженеретта
رفتن به کانال در Telegram
мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea
نمایش بیشتر3 346
مشترکین
+824 ساعت
-177 روز
+730 روز
آرشیو پست ها
3 347
Как я чуть не попалась на мошенников
Предыстория
👢В конце августа в Казани проходил «Сенной базар», где локальные бренды выставляют свою продукцию. Мне очень понравился один бренд из Тюмени, одежда ручной работы, и я некоторое время общалась с его владелицей. Потом она не прочитала мой вопрос, я написала еще раз через пару недель - снова не прочитала. Но я уже запланировала покупку, поэтому решила написать в чат тг канала
Краткое продолжение
Мне пишут с аккаунта «<Название бренда> Chat». Акк создан в апреле 2025, сам бренд тоже относительно новый, около 1,5 лет. Общение очень вежливое, со скобочками и сердечками в меру. Ниже просто тезисно:
Что я хотела заказать? Не видели мое сообщение, продублируйте
❓Первый звоночек - можно же найти переписку со мной? ну ок, далеко листать или пишет ассистенка
Какой размер нужен?
❓Второй звоночек - размер для платья, которое шьется под заказ? сомнительно, но окей, вдруг есть какие-то заготовки, замеры все равно нужны
Пришлите данные для доставки. Я в ответ спрашиваю про сроки - до недели
❓ Третий звоночек - сшить под меня и доставить до недели? ну…. по-до-зри-тель-но. пока допустим, учитывая предыдущий вопрос про размер
Соориентировать ли по стоимости? Оплата сразу
❓Четвертый звоночек - я смотрю на цены и понимаю, что они раза в 2-3 дешевле, чем я видела в инсте и на оф сайте. "Реальная себестоимость должна быть еще ниже тогда? Они больше, чем в 4 раза что ли делают надбавки? Или это персональная скидка за личное знакомство и большое количество вещей?"
Тут мне пишет владелица и говорит, что чат со мной случайно оказался в архиве
❓Финальный колокол - я смотрю на список чатов и вижу, как параллельно пишут в два из них
〰️〰️〰️〰️〰️
Выяснилось, что к бренду этот акк никакого отношения не имеет. Я их довела до ссылки на оплату, по СБП, в течение 10 минут. Мне прислали длинную ссылку, я перепроверила на фишинг и вирусы раз 5 на разных сайтах)) Открыла в инкогнито, увидела огромный куар с инструкцией отсканировать с телефона - и заблочила акк
Еще я вспомнила, что тестила функцию с чатом канала один раз, и там была плашка DIRECT рядом с названием, но это было еще в начале лета. К слову, в профиле мошеннического акка не было никаких ссылочек. Я вот теперь сомневаюсь, а можно ли вообще писать от имени чата, а не канала?
В общем, я не слышала про такую схему и уже готова была подтверждать после выяснения моих вопросов, если бы владелица не написала в тот самый момент
Я что-то упустила?
Берегите себя 🧡
3 347
+8
Data Internals
Я сходила на конфу "Data Internals", где потусовалась еще с парочкой де админов🕺 Как здорово, когда есть люди, которые могут выбить тебе проходку🙂 Мы послушали про дата каталоги, self-service инструменты, про clickhouse, lakehouse, сходили на два круглых стола и покушали)
Активности вне докладов были прикольными: кроссворд и ребусы на английском(!), головоломки из металла, соревнование на реакцию, разбрасывание типов файлов по ведрам (в прямом смысле!) и даже гадание на таро🙂
С таро был прикольный момент. Я задала вопрос на тему перспектив развития в компании. Мне выпала карта "The Data Priestess" - главная по данным, порекомендовали идти в лиды)) Предположительно в течение года. Не знаю как насчет года, но в плане обучения я двигаюсь в правильном направлении)
Через несколько часов я решила снова туда подойти и задать вопрос по поводу развития личной жизни. Мне снова говорят сдвинуть карты и вытащить одну. Я четко понимаю, что мне хочется вытащить вторую сверху. Я ее выстаскиваю - и там снова жрица!😂 В общем, надо все брать в свои руки, тогда будет четенько)
По итогу активностей я обменяла баллы на термокружку, бутылочки, походную розетку, парковочную визитку (хотя у меня нет тачки😁) и светильник-облачко)
Народу было немного, около 400 человек. Конфа как таковая не очень интересная: были как лайтовые доклады, так и очень низкоуровневые, круглые столы тоже нас не всколыхнули( Только задала парочку вопросов на докладе про self-service оркестрацию в лемана тех - единственное, что более-менее заинтересовало, потому что у нас нечто очень похожее (картинку архитектуры решения докину в комменты)
3 347
Рекомендасьон🥰
Сегодня я хочу поделиться с вами каналом Аналитесса-разработчица. Его ведет Аня - она дата аналитик в Авито, за плечами которой несколько крутых компаний. Аню я впервые увидела в общих чатах, она всегда оставляет очень мудрые и жизненные комменты, которые набирают кучу реакций🌷
Аня часто ходит на конфы и даже написала свой гайд. Правда, очень странно получилось, что на E-CODE мы были в одно время и в одном месте, но так и не пересеклись😁
В канале много карьерных советов как по поиску работы:
🍓 где еще искать работу, кроме хх
🍓 когда лучше искать работу
🍓 что спросить на финальном собеседовании
Так и после выхода на позицию:
🌳 как проявить себя на новом месте
🌳 что делать, если твой лид овертаймит
🌳 и почему мы работаем не на том месте
В комментах частенько ведутся жаркие дискуссии, например, следят ли за нами по трекерам времени и почему джуны все равно будут нужны
У меня в подписках более 200 каналов, и они почти все замьючены. Но канал Ани - один из немногих, посты в котором я читаю сразу и смотрю все эстетичные сторис. А пост с подбором дат для отпуска вообще забрала себе в избранное
📍Подписываемся на @analytess, чтобы быть в курсе жизни в бигтехах, ситуации на рынке и рассуждать на тему современных трендов
3 347
Я еду на смартдату!!!
На днях приснилось, что смартдата будет во Франции, в Париже🇫🇷 И я во сне думаю: "Она же уже через две недели, а у меня нет визы. Дадут мне так быстро и вообще дадут ли?? 😱😱 Надо поставить напоминание на завтра, чтобы не забыть прямо с утра разобраться с этим"
И через мгновение я уже вижу себя в Париже. Вспоминаю, что надо быть аккуратным со своими вещами. Я вешаю сумку через плечо, крепко держу телефон в руках, солнечный день, навстречу много людей. Я иду к трамвайной остановке…
🧳Вообще путешествия мне часто снятся. Я даже начала в какой-то момент все детали записывать в заметках)
Так я путешествовала уже 32 раза, из самого прикольного:
⏺пешком перешла границу Москва - Испания
⏺пожала руку Байдену
⏺бежала с партизанами из польской деревни
⏺посетила вымышленную страну на территории Буркина-Фасо и Ганы
⏺из-за надвигающейся катастрофы в Африке переплыла на другой остров
⏺искала в Париже сестру подруги, которую в детстве отдали в другую семью (у нее нет сестры)
🕰 А по смартдате уже выбрала и добавила себе в календарь по одному докладу. Закину в комменты те, которые мне больше других приглянулись, довыбираю уже на месте
3 347
+5
Хокку про DE
Когда я заводила канал, нужно было придумать к нему описание. И я почти сразу подумала про хокку - короткое и лаконичное
А сейчас мне захотелось погенерить хокку на тему де, и вот что получилось) По-моему, очень поэтично 📒
3 347
Про облака
Как-то общалась с одной компанией про облака, про индустрию и вообще за жизнь. И тут я поняла, что вообще ничего не знаю/не помню про зарубежные сервисы 😅
Диалог начался с классического вопроса. Если я во время ответа вкидывала какой-то новый термин - мы сворачивали с пути и начинали копать в эту сторону
Какие сервисы знаете в AWS, Azure, Google Cloud с точки зрения данных? В чем особенность Amazon Redshift? Опенсорсная ли Cassandra? Hadoop умер? Почему есть Hadoop в облаке? On-prem vs Cloud? Какая разница работать с КХ на железе или в облаке? Что стоит учесть при переезде в облако? Почему облака дороже, если нужны средства на хранение, кондиционирование, обслуживание своих серверов? В чем успех Databricks? Нужно ли идти в Lakehouse? Уйдут ли все компании в Lakehouse? В каких случаях лучше иметь DWH, Data Lake, Lakehouse? Что будете выбирать, стартуя свой бизнес сейчас? Почему на Data Lake не стоить строить нормализованную архитектуру? Бизнес-пример с использованием Anchor?Вопрос с Databricks меня конкретно поставил в ступор)) Но тут на некоторые вопросы нет правильных и неправильных ответов. Важно - что ты думаешь
3 347
CTO Meetup
Сходила я тут на сходку крутых людей. На видео слева направо:
🟣CTO, VK Tech
🟣Lead Architect, МТС TechGov
🟣CTO рисков, Альфа
🟣CTO, Авито SafeCom
🟣Head of developer experience, Х5 Tech
Транслировалось все на 4 камеры, около 80 мест в зале
Из терминов, которые я запомнила:
🔴Shift Left - подход, когда продукт тестируется как можно раньше, чтобы сэкономить денюжки потом
🔴Кто-то, наоборот, предпочитает Shift Right - если у клиента вопрос/что-то сломалось, он может сам починить по плейбукам без обращения в L1 (первая линия поддержки)
🔴3 Амиго - принцип, когда встречаются 3 человека (можно чуть больше) с разным контекстом (бизнес, разраб, тестировщик) и договориваются о проблеме, целях, шагах до начала разработки
🔴BRD (Business Requirement Document) - документ бизнес-требований, формальное описание проекта (зачем нужен продукт, решаемые проблемы, доход/потенциальные потери)
Еще запомнила забавную историю, как у клиента был настроен воркфлоу по цвету писем в почте. И когда цвета поломались, весь процесс встал
Время пролетело незаметно, но, честно говоря, я мало что поняла😅 Успокаиваю себя тем, что не понимать лучше, чем не интересоваться
Из прикольного по офису: сверху двери уборной есть красные/зеленые огонечки, бумага в 4 слоя👍 На кухне хлопья, шарики, апельсины, яблоки, сухомятки и безлимитная кола/фанта/спрайт от Evervess и липтон
Уезжая, 5 минут ходила туда-сюда по переходу, не могла найти вход в метро😆 Оказалось, что там есть выход, но нет входа
3 347
А вы часто обращаете внимание, какие вопросы задает собеседующий?
Недавно слушала пару собесов и отметила занятные вопросы:
🤩Было ли такое, что пришли с бизнесовой постановкой, а дальше ты сам нашел, где взять источники и что с чем сложить?
🤩Приходилось ли работать с BI?
Такого рода вопросы мне сразу говорят, что в компании что-то не так с процессами, ролями, нет системного аналитика, нет BI-аналитика. Даже если вам такое не нравится и вы это скажете, не факт, что таких задач не будет
🚩
🌿🌿🌿🌿
🤩В чем эффективность работы инженера данных?
🤩Каков результат, метрика, артефакты, цель?
Вот это интересные, но очень экзистенциальные вопросы. Цели того же дата аналитика явнее, чем дата инженера. А вы как думаете, в чем ваша эффективность?
🌿🌿🌿🌿
🤩Что мне нужно о вас знать, помимо резюме?
Другими словами, продайте мне себя. Тоже такой странноватый вопрос. Все касаемо работы и так написано в резюме. Рассказывать, что у меня две кошки, а по пт я хожу в бар пить пиво?
🌿🌿🌿🌿
🤩Чем отличается Linux от Postgres?
Я слышала, как в одной команде сопровождения задавали этот вопрос. Он прям на базовый момент, но многие кринжуют с него😁
3 347
Две конфы
Прошедшие 3 дня для меня выдались супер насыщенными🔥 Все началось с вечера пт и big tech night. Сначала я не хотела туда идти, потому что нужно было оставить силы на полноценные сб и вс. Но за неделю решила все-таки зарегаться
🌙 Глава I. Big Tech Night
К моменту моей реги уже не осталось мест в Т-Банк, про Сбер с Ламодой я и так знаю, поэтому взяла X5 и Яндекс. X5 самый для меня непонятный, я ничего не знаю про их офис, что там, как. А Яндекс просто был самый длительный - мероприятия до полуночи и даже позже
(фотки 1-2) В X5 я сходила на экскурсию по офису (это переделанная овощебаза), послушала пару лекций, подегустировала колу и снеки в зоне Чижика, проиграла в правду или ложь🙂
(фотки 3-4) Потом доехала на трансфере в Яндекс. Там было больше народу и движа. Я послушала одну лекцию, сходила на поэтический AI-слэм и пожюрила, поела блинчики. На слэме мне понравился один млщик, он сделал и прикольные стихи (скину в комменты), и очень артистично их рассказывал, я в восторге 😍 Все завершилось тусовкой сайлент-диско в наушниках и выступлением Найка Борзова
Домой вернулась в час ночи, а в 12 уже было открытие E-CODE...
🍉 Глава II. E-CODE
Здесь я была в прошлом году, и там было настолько круто, что я очень хотела пойти в этом тоже. Поэтому я зарегалась аж в начале июля))
Из докладов мне понравился только трек "Менеджмент". Возможно, всем остальным тоже, потому что люди даже в зал не помещались😄 Из вау штук я попробовала сыграть в гольф 🙂
Будем ли мы сравнивать с прошлым годом? Конечно, будем
🍔 По части организации это было хуже. В районе обеда собрали весь фуршет, на улице еще не приехали гиросы/хот-доги/вок, и очередь с двух сторон выстроилась за единственной кесадильей. Кто-то ходил в кафешки рядом. Еда снова появилась только к 19-20 - не круто 😒 Фуршетная быстро улетучилась, батат фри я видела только на тарелках
Из мерча прям супер прикольного я не отметила, поэтому не сильно гналась за баллами. И нельзя было выкупать несколько штук одного предмета
🎤 Вечером выступали Научно-технический рэп и Нейромонах Феофан в первый день, ILWT и Заточка во второй. Поэтому во второй мы 100% отправились в зону караоке))
В прошлом году еще параллельно была мафия с проф ведущим, в этом тоже не было( И не было кого-то вроде Пушного( Огромный ажиотаж был только у Владимира Сурдина (астрофизик из МГУ), но он в прошлом году и так был
💬 По части не воркинга встретила 6 знакомых и обзавелась 8 новыми контактами. Пообщалась несколько минут с руководителем платформы данных, спросила, что у них там по лейкхаусу. Вот как-то так)
3 347
4. Встречи 1:1
Продолжаю рассказывать про курс команды
Третий модуль - тут
Описание программы - тут
Что рассмотрели:
⏺что обсуждать, как, как часто, зачем
⏺виды 1:1
⏺активное слушание
⏺работа с сопротивлением (что будет, если ничего не поменять/что будет, если мы это изменим)
⏺коммуникация непростых новостей, нытинг
Какие виды есть:
⏺синхронизация
⏺мотивационный
⏺развивающий
⏺корректирующий
База про 1:1:
⏺что у нас уже есть/чего не хватает
⏺что мы с этим делаем/как поддержать
⏺обмен ОС
⏺опционально: поболтать про жизнь
Обязательно прийти к договоренностям и лучше фиксировать вопросы к встрече/выводы письменно
1:1 - это встреча не про задачи, которые делает человек, а про человека, который делает задачиВажные вопросы:
Что я тебя не спросил, а стоило? Если бы ты вел 1:1, какие вопросы ты бы хотел, чтобы были?Из чатика с участниками забрала такие комменты)
Разные схемы - как палитра у художника Голоса в моей голове сказали, что кое-кто допустил ошибку в отчете Тревожные пирожки пропускают полностью положительные стороны и фокусируются на негативе
3 347
Soft Delete Techniques
Или как понять, что ваши данные кому-то нужны
Есть два героя: Миша (продуктовый аналитик) и Артем (дата инженер). С ними случилась такая история:
🙂 привет, Миша! ты три года назад создавал таблицу user_orders_check_agg_m, она занимает 100тб, последний раз использовалась в прошлом году. она еще нужна, можно удалить?
🦔 привет! можно, мы ее готовили для экспериментов, но их отменили
Кластер задышал, ведь с репликацией это целых 300тб свободного места
Через неделю Миша приходит:
🦔 Артем, помнишь, мы обсуждали табличку user_orders_check_agg_m? у нас снова запускается эксперимент, нам срочно нужно ее восстановить!!!
😳 ......
Артем находит цепочку зависимостей:
user_orders_check_agg_m ->
user_orders_check_agg ->
user_orders_check ->
user_orders_abc, user_orders_def ->
user_orders
Причем все промежуточные таблицы уже удалены
Артем поднимает старые скрипты, адаптирует их под новую версию спарка, переписывает под новую схему данных, пересоздает таблички, тестирует, ставит на расчет. Через месяц все готово
Но команда не успела зарелизить запланированные фичи. Все клиенты ушли к конкурентам
Какие есть варианты, чтобы помочь Артему и команде меньше нервничать в следующий раз?
1️⃣Переименовать табличку - сразу найдем среди сотен процессов те, которым она нужна
ALTER TABLE exp.user_orders_check_agg_m RENAME TO exp.user_orders_check_agg_m_trash;
2️⃣Переместить в .Trash - когда мы удаляем руками из hdfs, они перемещаются в папку .Trash. Там они хранятся столько, сколько задано в fs.trash.interval при настройке кластера. Поэтому будет какое-то время прийти за ними
hdfs dfs -rm -r user_orders_check_agg_m_data
INFO fs.TrashPolicyDefault: Moved: 'hdfs://data/user_orders_check_agg_m_data' to trash at: hdfs://data/.Trash/Current/user/admin/user_orders_check_agg_m_data
3️⃣Переместить в другую папку для мусора и периодически подчищать ее
hdfs dfs -mv user_orders_check_agg_m_data some_trash_folder
Есть еще другие варианты? Или это проблема Миши, что он разрешил дропнуть таблицу? 😁3 347
Data Driven: Где данные оживают и приносят результат!
Коллеги из Яндекса готовят крутое событие для мира данных — конференцию Data Driven 🚀, которая пройдет 20 сентября.
Это будет не просто лекторий, а настоящая мастерская для опытных аналитиков, где они узнают, как с помощью data-подхода можно находить точки роста и влиять на бизнес-метрики в реальной жизни. Спикерами выступят практикующие аналитики из команд Яндекса.
Чтобы каждый нашел своё, программу разделили на два трека:
-Для продуктовых аналитиков, data-аналитиков и data scientists.
-Для data-инженеров, системных и BI-аналитиков.
А ещё гостей ждёт много активностей для вдохновения и полезного общения:
-Нетворкинг с коллегами и дискуссии на острые темы.
-Общение с экспертами Поиска и Рекламных технологий.
-Карьерные консультации — поможем прокачать не только проекты, но и рост!
Для разрядки — интеллектуальный квиз и увлекательный квест на основе реальных кейсов. Самых находчивых ждут призы: радиоуправляемый робот, станции с Алисой и другие подарки 🎁.
Закончится день расслабленным афтепати с фуршетом и музыкой — идеальная возможность обсудить услышанное в неформальной обстановке.
Конференция пройдёт в Москве, а для тех, кто не сможет приехать, будет онлайн-трансляция.
Регистрируйтесь, будет интересно!
3 347
29 сентября начнется новый поток программы Data Engineer от New Professions Lab
Программа будет полезна junior- и middle- дата-инженерам, аналитикам данных, бэкенд-разработчикам, техлидам и менеджерам, работающим с дата-командой
- теперь 10 недель (29 сент - 5 дек)
- 30 занятий с преподавателями в зуме
- 10 лаб с реальными данными и облачный кластер
- чат с участниками и поддержка координаторов
📌 Что дает программа:
1) научитесь решать типичные задачи DE и реально станете дата-инженером на время программы
2) структурируете ваши знания и познакомитесь с новыми инструментами
3) поработаете с облачным кластером для решения лаб с реальными данными
4) видеозаписи и другие материалы программы останутся у вас навсегда
📌 Преподаватели – практики из ведущих компаний, рассказывают о сложном простым языком и ответят на все ваши вопросы
🎯 Пройдите интерактивный квиз и получите персональные рекомендации о пользе программы в зависимости от вашей роли + ваш персональный промокод на скидочку 17% 🙂
3 347
VK Tech снова собирает ИТ-сообщество! 🚀
У ребят всегда мощные события для айтишников — и в этот раз они отмечают День программиста особым образом.
11 сентября в офисе VK Tech за одним столом встретятся технические директора Х5, МТС, Альфа-Банка, Авито и самого VK Tech.
Будут говорить о том, что волнует каждую команду разработки:
- как ускорить релизы и не потерять в качестве;
- какие метрики реально работают;
- как внедрять shift-left и управлять архитектурой.
Это шанс услышать подходы мастодонтов рынка, задать свои вопросы и, главное, пообщаться с людьми, которые двигают индустрию вперед.
📅 11 сентября, с 10:30 до 12:00
📍 Москва, Ленинградский проспект, 70, БЦ «Алкон», офис VK Tech
Регистрируйтесь по ссылке — такие обсуждения случаются не каждый день 😉
3 347
+1
Урок русского языка без литературы
У нас на этой неделе проходят уроки в рамках программы "Back To School". Вчера был урок русского языка про письменную коммуникацию, который вел Максим Ильяхов из "Пиши, сокращай" 🙂
Он очень прикольный, по манере общения тоже все четко, ясно, без лишней воды, параллельно все конспектировал. В конце прислали методичку по деловой коммуникации, по мотивам которой был урок
Только по ходу урока осознала, что не сделала домашку. Надо было воспользоваться шансом и подготовить интересные вопросики для такого препода 😪
Цель урока - писать так, чтобы быстро изучить и быстро принять решение
В письме желательно заложить такой объем тем, который можно охватить за 90 секунд на светофоре или за один укус пирожкаЕсли нужно обсудить несколько тем, лучше сделать несколько писем. Иначе: ⏺️нам не ответят, потому что длинное письмо отложат на потом ⏺️нам не ответят, потому что сразу на все 5 тем сложно ответить ⏺️нам ответят на одну тему, а про остальные забудут Обязательно структурировать текст, чтобы какие-то блоки можно было пропустить
Нельзя из письма отправлять читателя на поиски того, что вам от него нужно. Представьте, что вы принесли документы директору на подпись. Вы не будете просить его самостоятельно сходить за документами в бухгалтериюОсновные мысли:
— Одно письмо — одна область — Делить на разделы — Простые подзаголовки — Начала разделов дружат с заголовками, не прятать ключевые слова внутри абзаца — Просьбы всегда на отдельной строке, в отдельном абзаце — Перечни связаны с заголовками — Абстракция + пример + антипример (образы, как кино) — Человек + делает + так — «Объясни как пятилетке» — Сокращай через ChatGPT / Ollama — В задачу добавить доп. материалы — Чтобы напомнить: «Это еще актуально»
3 347
Serializability vs Linearizability
Этим понедельничным деньком настало время разобраться между двумя очень похожими терминами🤓
💋Есть 2 счета с денюжками: A=30 и В=70, Тотал=100. Они не могут в тотале уйти в минус. Две параллельные транзакции пытаются снять по 100
Что происходит в несериализуемой, сериализуемой и линеаризуемой системах?
1️⃣Несериализуемая
1: снимает 100 с А
2: снимает 100 с В
Баланс: А=-70, В=-30, Тотал=-100
Возникла аномалия, мы нарушили правило банка
2️⃣Сериализуемая
1: снимает 100 с А и пытается закоммитить
2: снимает 100 с В и пытается закоммитить
БД сравнивает результат, как если бы они выполнялись последовательно. Если закоммитить сначала первую транзакцию, то состояние будет А=-70, В=70, Тотал=0. Вторая не может снять, потому что в тотале 0, она откатывается. Можем вместо первой закоммитить вторую, таймлайн не важен
3️⃣Линеаризуемая
1: снимает 100 с А, текущее состояние А=-70, В=70, Тотал=0
2: уже видит, что в тотале 0, и даже не пытается
А вот здесь уже важно, какая транзакция началась раньше
〰️〰️〰️
Надеюсь, вам стало чуточку понятнее)
3 347
Однажды в резюме видела такие строчки в описании. Долгое время думала 🤦♂️ По сути то же самое, как добавить “подписан на дата инженеретту”
С другой стороны, человек осведомлен, что творится в индустрии, расширяет горизонты своих познаний
Хотя эти митапы каждую неделю проводятся…
Что думаете?
🤔 - кринж
❤️ - не кринж
3 347
Ребята, да вы издеваетесь?
Мы понимаем, что в 2025 хочется просто расслабиться и наслаждаться жизнью.
Без ночных VACUUM в Greenplum. Без перекладки миллиардов строк из Data Lake в DWH, а потом обратно. Без завалов паркетов, превращающих S3 в болото.
Поэтому мы хотим помочь — но вам даже лень открыть ссылку и зарегистрироваться на вебинар!
А если серьезно, то 3 сентября в 17:00 мы проводим бесплатный вебинар — «Больше, чем просто данные в S3: Iceberg как основа архитектуры Next-Gen КХД».
На котором расскажем, как Apache Iceberg превращает Data Lake в полноценный Data Lakehouse — с ACID-транзакциями, эволюцией схем, time-travel, snapshot isolation (через Spark/Trino).
Вас ждет
теоретическая часть, воркшоп и ответы на вопросы в прямом эфире.
В программе:
➜ Краткая сводка про Iceberg — современный формат таблиц и метахранилища.
➜ Как работает Iceberg.
➜ Как строить ETL-пайплайны с использованием Iceberg.
➜ Тренды развития каталогов данных — для чего нужны branching и version control.
➜ Воркшоп «Как проводить DWH-операции с помощью Iceberg в Data Lakehouse: SQL, витрины и BI».
Спикер: Алексей Белозерский, руководитель команды Big Data Services VK Cloud, компания VK Tech
➜ Регистрация на вебинар
Кстати, также рекомендуем подписаться на телеграм-каналы:
Данные на стероидах — канал для стероидной прокачки работы с данными: полезные статьи, эфиры с экспертами из крупных компаний, мемы, новости из мира данных.
Архитектор данных — уютный канал Алексея про работу с данными.
Data Lakehouse — архитектура, которая объединяет сильные стороны DWH и Data Lake. Уменьшает стоимость хранения данных до 10 раз по сравнению с DWH за счет объектного хранилища (S3-совместимого). Уменьшает ТСО за счет разделения compute и storage. Уменьшает ТТМ за счет более «простых» ETL. Обеспечивает транзакционность (ACID) над данными в S3 для DWH-операций.
3 347
Метод «затраты-эффект»
Ко мне поступил запрос - как понять, что задача бесполезная? Расскажу, как мы это делали
📊 У нас проводились общие ретро на несколько команд, куда выносились текущие проблемы. На них команды рандомно перераспределялись, и мы генерили идеи по их решению. Напротив каждой идеи мы ставили сложность ее реализации и импакт от нее по шкале от 1 до 10
Например, есть такой пул идей:
1️⃣Поднять собственный кластер
Нужны ресурсы, настройка, проект, но позволит самим управлять своим кодом и релизить в любое время
Complexity - 10, Impact - 10
2️⃣Навесить SLA на поставщиков данных
Нужно утвердить сроки, условия, подключить юр отдел, но данные будут качественнее
Complexity - 6, Impact - 9
3️⃣Ускорить время раскатки проекта
Есть идеи для решения, нужно потестить, при этом разработчики не будут ждать час, смотря на медленно появляющиеся логи
Complexity - 1, Impact - 7
4️⃣Автоматически генерировать зависимости между тасками в даге
Непонятно, как подступиться, забираем у пользаков возможность самим управлять, еще и может все поломаться
Complexity - 10, Impact - 1
5️⃣Добавить алерт на null поля в данных
Всего 1 sql-скрипт, а мы узнаем состояние данных сразу, а не через день, когда витрина некорректно рассчиталась и нужно все пересчитать
Complexity - 1, Impact - 10
6️⃣Сделать одинаковый нейминг временных таблиц
Техническая доработка, на бизнес не влияет
Complexity - 1, Impact - 1
Теперь - как приоритизировать? Думаю, многим это известно или понятно на подсознательном уровне:
⬇️C ⬆️I - легко делать, крутой результат, берем в первую очередь
⬆️C ⬆️I - задача сложная, но оправдывает инвестиции, берем после первых
⬇️C ⬇️I - несложная, но и эффекта нет, берем по остаточному принципу, когда больше нечем заняться
⬆️C ⬇️I - теряем много времени ради ничего, не берем
В нашем примере можно взять в таком порядке:
5 3 2 1 6 (4 выкидываем)
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
