дата инженеретта

Ir al canal en Telegram

мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea

Rusia153 671 Carrera profesional8 046

3 349

Suscriptores

+224 horas

+177 días

+330 días

1 709

Visitas de la publicación

~ 60324 horas

~ 67648 horas

51.03%

Tasa de compromiso

Sin datos

Mensajes por día

Ads index

beta

Archivo de publicaciones

3 349

Время задачек!🎉 Задача 1. Эта задача на аналитика, она легкая, но мне понравилась. Даны таблицы clients и documents. В таблице с документами есть версионность, где '9999-12-31' означает, что версия действующая. Нужно вывести id клиентов, у которых отсутствует актуальная версия. Потестить можно тут. Пишите свои решения в комментах!

create table clients (
  client_id int,
  client_fio varchar(255)
);

insert into clients values
(1, 'Иванов И.И.'),
(2, 'Петров П.П.'),
(3, 'Сидоров С.С.');

create table documents (
  client_id int,
  valid_from date,
  valid_to date,
  document_no varchar(9),
  income int
);

insert into documents values
(1, '2020-01-01', '2020-12-31', '111111-11', 100000),
(1, '2021-01-01', '2022-06-01', '111111-11', 120000),
(1, '2022-06-01', '9999-12-31', '333333-33', 120000),
(2, '2001-01-01', '2023-01-01', '555555-55', 50000);

3 349

Работа дата инженером – одна из путевок в жизнь 🔍Когда я искала в первый раз, было супер сложно. Но как только я поставила в hh «Дата инженер | Data Engineer», сразу стали прилетать приглашения. Кстати, полезно переводить название позиции, т.к. hr могут искать на разных языках. Я думала, вот поставлю новую должность, тыкну «не ищу работу», и все посмотрят: «Ага, только устроилась, писать не будем». Но резюме всплыло наверх, и меня начали хантить уже через 3 дня после трудоустройства😁 Естественно, я всем отказывала, какой смысл собеситься на первой неделе работы?🙂 Но все это говорит о востребованности профессии❕ 📝Вот небольшой список компаний, которые набирают дата инженеров: - Билайн - X5 Group - Центр финансовых технологий - Лига цифровой экономики - ITFB Group - Иннотех - Mediascope На некоторые собесы я ходила, и из интересного спрашивали про having, lag/lead, внешние ключи, внешние таблицы, оптимизацию и план запросов, CDC (Change Data Capture), SSIS пакеты. 🍓А сегодня прилетела вакансия из Wildberries вот с такими требованиями: Задачи: • Поддержка CI/CD-пайплайнов • Настройка/поддержка кластера Clickhouse • Организация ETL-процессов: маршрутизация потоков данных, обеспечение их качества и доступности • Оптимизация сложных аналитических запросов в Clickhouse • Бизнес-логика на Golang или Python Стек: • Python/Go (на уровне конкретных практических задач) • СУБД Clickhouse, Postgres • Источники данных: Kafka, NATS, OLAP-кубы, API • k8s Кому дать контакты?😉

3 349

👩‍💻Если вы думаете, что никому не нужен ваш личный гит-репозиторий, то на него точно смотрят. Конечно, никто не будет копаться в каждом проекте, но уже за пару минут можно узнать, какие инструменты вы используете и как давно этим занимаетесь. А в пет-проектах можно потрогать новые тулзы, чтобы потом добавить эти скиллы в резюме и рассказывать про них на собесах😎 🎆В какой-то момент я сильно увлеклась онлайн-игрой «Ханаби», и мне захотелось собирать статистику по пользователям и анализировать разные показатели. 🤓Что я делала? 1. Начала с парсинга html-страниц с историей игр 2. Потом узнала, что есть апишка, и начала складывать данные в json-ы 3. Позже настроила загрузку сразу в бд 4. Потом захотелось искать игры по определенным критериям и даже создать свой язык запросов😁 Но меня вовремя отговорили и предложили поменять структуру бд, чтобы она чуть менее оптимально использовала ресурсы в пользу более удобного поиска. 🤔Зачем? Чтобы делиться инсайтами с другими игроками. В сообществе были программисты и математики, которые предлагали разные алгоритмы расчета, от реализации которых я кайфовала. Я настолько заинтересовалась в предметной области, что изучила новые штуки: SQLAlchemy (ORM для питона), Neo4j (графовая бд), как читать данные из api гитхаба или как деплоить сайты в GitHub Pages. Сверху можно докрутить еще Airflow, BI для полноты картины. Проект доступен тут. 🔗Так что попробуйте найти крутой датасет и поэкспериментировать. Список бесплатных ресурсов: Kaggle UK EU Azure Bigquery Тематические Песни Разное Поиск по датасетам

3 349

Сейчас я работаю мидл дата инженером в Сбере в команде очень крутых коллег, всем респект!🔥 🧑‍🎓Первые пару недель было реально тяжело влиться в процессы, т.к. казалось, что от меня ожидают гораздо большего, чем я могу дать. Каждый день я была в состоянии «ничего не понятно😩». Поэтому я после и до работы смотрела нужные видосики с karpov courses и подтягивала теоретическую базу. Видосами со мной поделился один хороший человек, поэтому старайтесь наращивать базу полезных контактов) 📺Что мы делаем? У нас есть несколько уровней организации: команда -> кластер -> трайб. И вот наш трайб - про маркетинг. Мои коллеги придумывают рекламу, а мы потом смотрим, как она работает. 💠Что я делаю? Кручу таблички, большие таблички на связке Hadoop+Spark в Jupyter Notebook👩‍💻 Делаю витринки с данными, которые потом мои коллеги-аналитики используют для бизнес-инсайтов✨ Строю пайплайны обработки на dbt+Airflow🐍 По ходу дела пришлось разобраться в Scala, Clickhouse и Superset, чтобы оптимизировать код, удобно складывать результаты расчетов и строить красивые чартики📊 А недавно я ходила на сходку питонистов, где со мной поделились полезной инфой по митапам (офлайн и онлайн): https://t.me/ict2go https://t.me/ITMeeting https://t.me/meetupochnaya

3 349

🎚Вакансию я нашла в Москве, а жила в Казани. Параллельно был оффер на другую позицию (примерно такую, где можно было работать удаленно). Тут я встала перед выбором: жить спокойной жизнью, как и раньше, или воспользоваться крутыми перспективами развития. 👨‍💻Я начала ресерчить: нашла сотрудников обеих компаний (опять-таки в линкедине), посмотрела на их обязанности, пообщалась. Даже встретились люди, которые раньше работали там, где я была тогда☯️ Поспрашивала в тг чатиках, у друзей и знакомых отзывы о компаниях, должностях и о целесообразности переезда. Сила в нетворкинге😎 👋В итоге я решила отказаться от перспектив и приняла второй оффер. Потом оказалось, что на эту позицию уже взяли предыдущего кандидата (хотя прошел всего лишь день), и я вернулась такая "ой, а я случайно, а мы можем представить, что ничего не было?"☺️ Вывод: лучше раньше времени не отказываться)) Потому что все до последнего момента может поменяться. 🤔Но я снова долго думала и не решалась переезжать. В итоге дотянула до того, что я отработала две недели, тем же вечером села в поезд, а с утра пошла устраиваться на новую работу😁 Кстати, зарплатные вилки можно смотреть тут: https://getmatch.ru/salaries - российский рынок ИТ-направлений https://www.reddit.com/r/dataengineering/comments/188grde/quarterly_salary_discussion_dec_2023/ - а тут дискуссии на мировом рынке

3 349

🧑‍💻Пока я проходила бесплатные курсы из предыдущего поста, я добавила новые инструменты себе в резюме, сделала его красивым тут и параллельно продолжала искать работу. Нашла ее на линкедине, где моя будущая коллега выложила вакансию. Весь процесс занял три недели. Что нужно было знать? - разбираться в концепциях хранилищ данных - знать питон или скалу - уметь написать витринку на спарке - разбираться в спарк конфигах В доке есть огромная табличка. Естественно, не все параметры нужны для ежедневной настройки, так что, если вам интересно, я подготовлю список самых часто используемых. ✨В общем, это был мой первый собес на ДЕ, и я его прошла!✨ 🧑‍🎓Помимо знаний с курсов, мне помогла моя магистерская и весь треш, через который я прошла при ее подготовке год назад. Я успела потрогать dbt, Airflow, Metabase (BI тулза), разобраться в форматах хранения биг даты (parquet, avro и т. д.), поразворачивать хадуп локально и в докере и покопаться с его настройкой. 💬Плюс мне начали попадаться всякие крутые датаинженерные чатики. Рекомендую вот эти, в них можно почерпнуть глубокую мудрость: https://t.me/rockyourdata https://t.me/dataengineering_chat_ru https://t.me/datalearn_community https://t.me/hadoopusers

3 349

🪄Я не помню как, но в январе я наткнулась на чат Data Learn и их ютуб-канал . В программе 7 модулей (см. плейлисты): Overview, Databases, BI, ETL/ELT, Cloud, OLAP, Spark. Скажу честно, что меня хватило только на первые два, которые можно и так частично скипнуть( По желанию можно скидывать домашку, которую более прошаренные ребятки проверят. Очень ждала модуля по Spark, который к тому моменту еще не был записан, а теперь он есть! 💎И вот в том чатике кто-то упомянул zoomcamp. Конечно, мне надо было все про это разузнать)) И я запрыгнула в уже едущий поезд. 📌Кстати, у них в январе стартует новый поток🥳✏️ Что там было? • всего шесть недель • каждую неделю: • пул видосов по теме (штук 10-15) • онлайн Q&A сессия (в записи тоже) • домашка, которую проверяют и оценивают • чатик, где можно попросить помощи • в конце нужно все применить и сделать проект Что по инструментам? Postgres, Spark, Prefect, Kafka, Docker, dbt, BigQuery, Terraform, Google Cloud (который я +- заменила на Yandex Cloud) - просто то, что нужно🔥 В предыдущих потоках вместо Prefect использовался Airflow, поэтому можно дополнительно поизучать по видосам. В целом, программа заняла 1,5-2 месяца. К сожалению, во время зумкампа я нашла работу и не успела завершить проект🤭 Но об этом далее)

3 349

Через пару месяцев (в декабре прошлого года) я начала искать работу. Так как уходить так быстро я не собиралась, то не могла осознать, чего же я хочу сейчас. В тот момент многие мои знакомые уехали за рубеж, и мне тоже захотелось попытать счастья🌝 Мне вкинули идею с линкедином, я создала страничку и начала откликаться на вакансии (добавиться можно тут). Про свои поиски я рассказывала друзьям, и один из них предложил по рефералке закинуть меня в международную компанию и скинул список оф. вакансий на дата инженера (спасибо!). Я никогда не задумывалась о поиске на такую роль. И начала разбираться, чем отличается куча столь похожих профессий: Data Analyst, Analytics Engineer, Data Engineer, Data Scientist, ML Engineer. Позиции были технически скилловые и очень крутые, и в этот момент я задумалась: а может, я всегда хотела быть дата инженером? Тогда я начала искать конкретно датаинженерные вакансии. Моей целью было получить хотя бы опыт собеседований на английском. Но я отправила около 100 откликов за пару месяцев и не получила ни одного приглашения☹️ Зато промониторила рынок. И создала файлик "Things I Should Know" из тех требований, которые встречала чаще всего: ❄️ Snowflake ❄️ AWS ❄️ Azure ❄️ Spark ❄️ Hive ❄️ Hadoop ❄️ ETL/ELT ❄️ Kafka ❄️ Redshift ❄️ Kubernetes ❄️ Databricks А потом я наткнулась на два очень полезных ресурса, которые круто изменили мою жизнь!⏩

3 349

Спустя 5 дней я уже сидела в новеньком офисе в роли SQL-аналитика в Совкомбанке. Собес проходил в два этапа - решить тест на дому за полчаса и пообщаться с руководителями. В тесте было 2 задания: написать запросы и технически объяснить, что выдаст уже написанный один большой запрос. Задания были основаны на использовании case when, between, in, like, having, подзапросов, оконок, встроенных функций типо current_timestamp, datediff, на понимании видов джойнов и кругов Эйлера. Тут есть очень удобная штука для визуализации этих кругов SQL Visualizer, но сейчас доступна только под впн( Я попала в отдел фрода, и у меня был доступ ко всем транзакциям физических лиц😎 Еженедельно собиралась статистика по тому, сколько у кого украли и скольких беззащитных бабулек мы смогли вразумить. Цель - проанализировать поведение мошенников и обычных людей и сделать так, чтобы мы со 100% точностью ловили первых и не беспокоили вторых. Но реальность неидеальна😔 Цепочка транзакций могла сильно разрастаться: • Петя берет у нас кредит, выводит • Вася берет кредит в другом банке • Вася переводит деньги из другого банка к нам на свой счет • Вася переводит эти деньги Пете • Петя снимает деньги в кассе (если что, это все отлавливается, так что не пытайтесь!) Почти с самого начала я подметила токсичненькую атмосферу, и мне захотелось поменять отдел или компанию. Тут начался необычный этап поиска, о котором я расскажу в следующий раз. 🐝Всего я проработала 5 месяцев, и, хотя после испыталки все вдруг наладилось и меня даже не хотели отпускать, осадочек засел очень глубоко. Видимо, как есть стресс-интервью, так есть и стресс-испыталка. Все равно я многому научилась: писать 200-строчные запросы, триггеры и процедуры, разбираться в логике проведения банковских транзакций. Еще узнала важную истину: многие магазины блефуют, когда предлагают оплатить через сбп. За него не списывается комиссия за пользование pos-терминалом (куда мы прикладываем карточку) и не начисляется кешбэк, потому что под капотом это обычный перевод🐦

3 349

Мой путь в сфере данных начался в 2019 году, когда я пошла на день открытых дверей в PwC - аудиторскую компанию из "большой четверки". Там я узнала про летние академии, зарегалась и прошла отбор. По результатам участия в этом двухнедельном мероприятии должны были выбрать особо активных студентов, чтобы потом пригласить на собес. Я не знаю, каким образом я туда попала, потому что вот эта аудиторская тематика, анализ деятельности компаний, проведение инвентаризаций - все было мимо меня)) Ну ладно, на собесе (вдруг!) спрашивали про sql и просили писать запросы. Я не готовилась, с базами данных перестала контактировать года 2 как до этого, предмет был, но я все равно не до конца его понимала и даже забыла, как правильно написать order by😂 Но меня взяли🥳 и спустя 4 месяца я пришла на предрабочие тренинги. Такие правила игры🤷‍♀️ больше рабочих рук требовалось в бизи сизон с января по март в пик отчетностей. Когда меня спросили: "В какую команду ты устраиваешься?", я вообще понятия не имела) Предположили, что буду сидеть на звонках, но фух, пронесло)) В общем, меня взяли в команду JET (Journal Entries Testing) - это когда аудиторы присылают транзакции компании, оборотно-сальдовую ведомость, свои критерии тестирования и требуют сделать, чтобы все разницы сошлись по нулям. Другой большой стрим - переоценка нереализованных курсовых разниц. Там своя тема с валютными балансами, и все пересчеты тоже должны были сходиться. В этой команде я проработала почти 3 года, где через мои руки и голос прошли 14 коллег, которых я коучила и ревьюила, паралелльно сдавая экзы в маге👩‍💻 За это время я получила hands-on experience в sql (были те еще извращения) и научилась сохранять все рабочие файлики (потому что когда-нибудь оно всплывет). И, конечно, много всего другого. По итогу получилось так, что я окончила магу и решила уходить. Параллельно работать было на 300% комфортно, но расти дальше тоже нужно. Потихонечку опрашивала покидавших нас коллег, куда они шли и куда могла бы стремиться я) Но по факту я чисто сходила на корпорат, получила повышение, забрала премию и ушла😂 Я и не предполагала, что уже через год поменяю еще одну работу и один город. Но об этом уже в следующей серии...

3 349

Привет! o/ Меня зовут Айгуль, и я работаю дата инженером в крупной компании👩‍💻 Кратко о себе: 🐦 окончила вуз по направлениям "Бизнес-информатика" и "Программная инженерия" 🐦 посвятила время фронтенд- и бэкенд-разработке, но основную часть – работе с данными 🐦 сейчас использую технологический стек: Spark, Hadoop, Hive, Python, Scala, Airflow, dbt, ClickHouse, Superset В этом канале я буду: 🐤 рассказывать о своем пути: с чего начинала, чего достигла и как я оказалась в этой точке 🐤 рассказывать о настоящем: чем занимаюсь сейчас, какие курсы прохожу, какие проекты поделываю для души 🐤 рекомендовать подборки материалов и полезных ресурсов 🐤 постить интересные задачки и лайфхаки на тему данных (и не только!) 🐤 помогать прокачиваться быстрее, чем это делала я В общем, впереди много всего крутого😎 На вас смотрит серьезное личико, потому что мы будем серьезно говорить о несерьезных вещах. Ну, или наоборот) Добро пожаловать!🤗