cookie

Ми використовуємо файли cookie для покращення вашого досвіду перегляду. Натиснувши «Прийняти все», ви погоджуєтеся на використання файлів cookie.

avatar

Инжиниринг Данных

Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).

Більше
Рекламні дописи
19 261
Підписники
-924 години
+287 днів
+15130 днів

Триває завантаження даних...

Приріст підписників

Триває завантаження даних...

Для нашего проекта по мониторингу пеликанов мы добавили сайт https://www.scifly.ai/ Ведь сейчас модно AI, вот и у нас есть свой AI проект - SciFi SkyFly. Еще недавно опубликовали, статья на хабре совместно с Вконтакте - Миграция пеликанов в облака: как реализовать сложный орнитологический проект на базе облачной платформы. Часть 1
Показати все...
Миграция пеликанов в облака: как реализовать сложный орнитологический проект на базе облачной платформы. Часть 1

ML-технологии помогают значительно сократить ручной труд, повысить точность и скорость расчетов. Но, чтобы использование ML было результативным, важно правильно выстроить весь пайплайн работы с...

❤‍🔥 27
02:27
Відео недоступнеДивитись в Telegram
Презентация sqlwagon новой книги Azure Data Factory Cookbook 2nd edition. (На английском, это вообще то будет для Linkedin)
Показати все...
❤‍🔥 37🦄 9🍾 3🙉 1
Фото недоступнеДивитись в Telegram
Ладно, сегодня пятница, значит с сыном и его друзьями рубимся в Fortnite (сегодня новый сезон как раз Mad Max + Fallout)+ местный сидр. Стресс запить после Airbyte, так сказать.
Показати все...
❤‍🔥 69🫡 2 1
Давненько у меня не было 🔥 Если раньше софт был неповоротливый и большой типа Enterprise BI - SAP Business Objects, который при обновлении может сломаться, если например интернет отвалится во время установки. У меня было такой случай https://t.me/rockyourdata/4385 и там же я описал про Looker, который я тоже сломал. Вчера я решил попробовать что-то новое. У нас есть GCP Kubernetes engine, и с помощью helm charts там задеплоено вообще все. В моем случае у нас был очень интересный кейс использования Airbyte backend базы данных. Исторически эта база данных использовалась как часть хранилища данных. Удобно же, Airbyte читает данные из Amplitude и пишет сама в себя, и потом с помощью Trino мы можешь кверить данные. Но не тут-то было, одна из таблиц этой внутренней базы данных содержит все пароли в открытом доступе и доступна через BI слой (metabase). Если вы не знаете, что такое Airbyte - то это набор конвекторов, например извлечь данные из SalesForce и загрузить в хранилище данных. Платный аналог Fivetran, бесплатный Metabase. Такие экстракторы необходимы, если вы работаете с dbt. В общем очевидно, что надо фиксить пароли, и решение было добавить Google Cloud Secrets, чтобы туда сохранялись все пароли, согласно документации. У нас есть staging среда, которая уже давно сломана. Сам я пока не очень с helm charts, вроде бы идея простая, это просто YAML файлы, которые описывают Kubernetes, но выполняются они через Ansible. Ох уж эти DevOps штуки и Open Source, каждый раз, как в первый класс. В общем по классике, часов в 11 вечера, перед сном, я решил попробовать первый раз что-нибудь сделать с Airbyte Staging, но случайно выполнил команды, которая просто деплоит helm charts для Production. Это чудо, начало скачивать обновления, новую версию Airbyte, новую версию helm charts, и все это деплоить, а там наверно 6 разных контейнеров с Airbyte сервисам. Ну и конечно все упало. Очевидно, что это проблема, потому что мы же используем Airbyte db как хранилище данных для важной отчетности, и реплицируем данные, которые тоже важны для отчетности. В итоге до 2х ночи с помощью ChatGPT4o я изучал Airbyte, Helm Charts, GCP Kubernetes Engine. И действительно, выучил много, больше, чем за последние 4 месяца. Проблем было много: - Часть проблем решил, откатив helm chart Revision к последней успешной - Потом оказалось, что Airbyte используют параметры в ConfigMap и Secrets, которые не хранятся в helm-charts, и были прописаны вручную и при обновлении заменены. Изначальные параметры и их значения пропали, и вообще он почему-то хотел S3 параметры, а не GCP. Методом научного тыка, с помощью CLI “kubectl” я смог с 40го раза подобрать нужную конфигурацию параметров и все Pods запустились - Даже смог залогиниться, но внутри ничего не работало. Оказалось, что это чудо при обновлении еще стал писать в backend базу данных (GCP CloudSQL) и последний штрих был откатить базу, но это уже kudos моему коллеге на Филиппинах, у него как раз был день. Узнал я про это утром, хотя когда шел спать, уже ментально был готов закончить работу в этой компании🙃 А утром оказалось, что все работает. Значит еще не время. В общем, такой вот вечер из жизни дата инженера. Я думаю многим вообще не понятно, про что я пишу. Если честно, мне самому не очень понятно. В этом и заключается работа инженера, чтобы разобраться, сломать, починить. Желательно знать еще best practices. Тем не менее получен ценный опыт, еще одна история про продакш. Можно наверно, сказать - “если я ломаю продакшн, значит я живу работаю”. Теперь очевидные вещи: - всегда делайте back up - не делайте update критических вещей вечером - оцените риски, вы готовы потерять работу? (Это конечно крайне сложно, обычно это норм - ломать, чинить, учится. Но если вас хотят скинуть или посадить на PIP, то самое то) - лучше делать такие вещи вместе с коллегой, у кого есть опыт в этом - неплохо бы попрактиковаться на “кошках”, у меня так и лежат в закладках курсы по Kubernetes + ansible + helm charts, я даже в самолет себе загрузил на прошлой неделе, но смотрел сериал Fallout в итоге😝
Показати все...
❤‍🔥 21🙈 18🌚 1👾 1
И если ответить на вопрос почему так случилось? - “Everything fails, all the time” is a famous quote from Amazon’s Chief Technology Officer Werner Vogels. - Murphy's law is an adage or epigram that is typically stated as: "Anything that can go wrong will go wrong." Вообще это было ожидаемо. Когда мы приходим на проект, где много open-source, прошлой команды нет, документации нет, то вы обязательно окажетесь в такой ситуации. Получается Airbyte это бесплатная альтернатива платного Fivetran, но оказалось: - нет документации как это было запущено - мы до сих пор на старой версии, которой уже год, и не можем обновить - изначально кто внедрял Airbyte не имел опыта инжинирига данных, а был DevOps, поэтому данные писались в backend Airbyte - все пароли в открытом доступе для всей компании (fintech) уже довольно давно Часто платные решения оказываются более эффективными, дешевыми и безопасными по сравнения с Open Source. Поэтому, всегда настаивайте на: - хорошей документации всего и вся - playbooks - как обновлять и поддерживать - обновляйтесь чаще, легче обновиться, когда нет breaking changes - design и decisions документы - дайте время команде на обучение инструменту (курсы, тренинги) Ну и конечно ходите по собеседованиям, а то так что-нибудь обновите и будет потом пол года без работы🤣
Показати все...
💯 21🙈 8 7👾 1
Фото недоступнеДивитись в Telegram
Замечательная картинка от LakeFS - State of DE 2024. Очень много инструментов. Каждый год инструментов становится все больше, а сути все меньше. Хотя по-прежнему пишут SQL-запросы, делают slice and dice, drill down, анализируют dimensions и measures. Я сам не знаком со многими инструментами и надеюсь, что мне не придется разбираться в их документации и tutorial'ах. Для опытных людей проблем нет, а для тех, кто хочет начать успешную карьеру в data и «купить SQL-вагон» (если вы понимаете, о чем я😉), возможно, будет много сложностей. С одной стороны, вы хотите самостоятельно учиться, но с другой стороны баррикад – огромные маркетинговые бюджеты, которые обещают вам либо профессию, либо инструмент, который сам все сделает. Поэтому лучше экономить время и стараться общаться с более опытными коллегами, посещать различные мероприятия и спрашивать, кто чем занимается, как к этому пришли и какие планы дальше. Что еще полезно?
Показати все...
❤‍🔥 37🗿 5🙈 2
Что такое PIP? Иногда это называют PAP. Многие боятся этой аббревиатуры, ведь если вы с ней столкнулись, значит, от вас начинают избавляться и "нежно" увольнять. PIP (Performance Improvement Plan) или PAP (Performance Action Plan) — это план улучшения производительности. Обычно он длится 4-6 недель, в течение которых вам говорят, что вы плохо выполняете свою работу, и вас начинают ежедневно микроменеджить. На этот срок ваш менеджер пишет план, описывает ваши "зоны роста" и проекты, которые вы должны завершить. В Amazon, в 90% случаев, человек с PIP будет уволен, но некоторые проходят его успешно. В любом случае, это достаточно стрессовое мероприятие. Часто это случается не из-за плохой работы, а из-за плохого взаимопонимания с менеджером. Так было и у меня. Я прикрепил свой реальный PAP (в комментарий), который длился 6 недель. Это было стрессово, но я все равно прошел его. Кстати, его написал менеджер, который до этого много лет работал в Facebook и Lyft. Так что это хороший шаблон, если вы решите кого-нибудь уволить. Несмотря на то, что я его прошел, я не согласен с ним и считаю его несправедливым. Думаю, так все считают, когда попадают на PIP. Тем не менее, я стал жаловаться HR, что это было незаслуженно, на что получил ответ от HR: "мы тут власть, что хотим, то и делаем". Я попросил меня уволить и дать мне 2 зарплаты, на что HR сказал: "мы тебя не можем уволить, поезд ушел, ты прошел PAP, и теперь работай или сам уходи…". В итоге я сам и ушел. Самое интересное, что у меня был конфликт с директором DE, и поэтому я получил PIP. Я позволял себе слишком много называть вещи своими именами и критиковать решения директора DE и VP data. То есть я был токсичным, но с другой стороны я говорил правду. В западных компаниях правду не любят, нужно всегда быть "nice" и "kind" к окружающим. Думаю, тут много людей из западных компаний, которые могут рассказать смешные истории про это или про свой опыт с PIP/PAP. Так вот, когда я ушел, через месяц директора понизили до Principal DE, а через 2 месяца он уволился. И все было очень красиво сделано тем же менеджером из FB/Lyft. Шах и мат, можно сказать. Получается, я был прав всегда, и действительно мой PAP был незаслуженным, но в корпорациях очень четкая вертикаль власти, и не стоит пытаться перечить начальству, если не хотите быть токсичным. PS: Прямо вчера уволили одного человека в текущей компании. Хотя недавно он говорил мне, что руководство не понимает, что делает, и жаловался на все. Я даже не удивился, это был вопрос времени.
Показати все...
🗿 34❤‍🔥 20💯 13 5🤷‍♂ 2
Фото недоступнеДивитись в Telegram
Уже пару месяцев как закончил книгу "Freakonomics" (в русском переводе "Фрикономика"), написанная Стивеном Левиттом и Стивеном Дабнером, которая исследует экономические принципы в нестандартных ситуациях и предлагает неожиданные объяснения повседневных явлений. Основные идеи книги включают анализ экономических и социальных проблем с применением нетрадиционных подходов и методов. Основные идеи книги: Экономика всего вокруг: Левитт и Дабнер показывают, что экономические принципы можно применить к любым аспектам жизни, от преступности до образования. Влияние стимулов (incentives): Главная идея книги — поведение людей сильно зависит от стимулов, которые они получают. Неожиданные связи: Выявляют неожиданные связи между, казалось бы, несвязанными явлениями, такими как снижение уровня преступности и легализация абортов. Использование данных: Важность анализа данных и использования статистики для получения достоверных выводов. Для меня книга особенно запомнилась примерами стимулов (incentives). Экономические стимулы: Это финансовые или материальные выгоды, которые мотивируют людей к определенным действиям. Социальные стимулы: Это общественные и культурные факторы, которые влияют на поведение. Моральные стимулы: Это внутренние убеждения и ценности, которые мотивируют людей к действиям, основанным на их этических принципах. Стимулы очень хорошо ложатся на нашу работу. Почему новые инженеры работают лучше, чем старые?(кто уже 1-2 года в команде, вот сегодня например уволили такого человека, хотя я сам был таким человеком в прошлом году и скоро расшарю свой PIP документ). Почему одни инженеры работают хорошо, а другие плохо? (Ведь часто дело не в зарплате) Почему одни активно учатся и развиваются, а другие нет? Почему одни пишут хорошие комментарии, а другие пишут плохие? У меня теперь на любой вопрос 1й ответ это incentive. Вообще вся движуха рабочая это про incentives. Либо они есть, либо нет. Мне кажется менеджеры особенно тщательно стараются придумать “стимулы” для своих команд🚣
Показати все...
❤‍🔥 27💘 1
Фото недоступнеДивитись в Telegram
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней. Ближайшие Fast Track мероприятия: • 3–7 июня — для технических менеджеров и Crowd Solutions Architect, офер за 5 дней в команду Crowd. • 8–9 июня — для дата-инженеров, офер за 2 дня в DWH команды Маркета. Зарегистрироваться
Показати все...
🗿 21🙈 10❤‍🔥 1🐳 1🌚 1👾 1
Фото недоступнеДивитись в Telegram
Интересный коллаб Snowflake + Fabric.
Показати все...
🌭 2