дата инженеретта
серьезно говорим о несерьезных вещах вдохновляемся по вопросам сюда: @aigul_sea
Більше860
Підписники
+324 години
+367 днів
+10630 днів
- Підписники
- Перегляди допису
- ER - коефіцієнт залучення
Триває завантаження даних...
Приріст підписників
Триває завантаження даних...
Фото недоступнеДивитись в Telegram
SQL писать умеют все
Не так давно в X5 услышала такое мнение:
SQL писать умеют все. Даже Junior DA умеет поднять спарк сессию и писать запросы. DE нужен, чтобы разбираться под капотом - если много данных, сложные расчеты, писать не в лоб, а эффективно, учитывать узкие места, продумывать обновление данных, решать проблемы с замедлением расчетов.Читая это сейчас, я склонна согласиться. Но когда первые слова на первых минутах - это такое категоричное заявление, то невольно задумываешься, а комфортно ли работается в такой атмосфере. Что думаете?
5🤔 3
#️⃣#️⃣#️⃣ Вакансия в нашу команду!🔥
⭐Что делаем:
В команду маркетинга Сбера ищем разработчика продуктовых витрин.
Мы создаем Martech инструменты для сквозной аналитики, позволяющие отследить весь пользовательский путь от просмотра баннера до первой транзакции.
🌷Позиция: Junior/Junior+ DE
Формат: Офис (по болезни можно дома)
📆Чем предстоит заниматься:
• Проектировать и разрабатывать продуктовые витрины данных
• Мониторить и оптимизировать процессы загрузки, преобразования данных и сборки витрин
• Контролить качество данных
• Разрабатывать инструменты для автоматизации рутинных задач, связанных с обработкой данных
• Разрабатывать и поддерживать внутренние сервисы
➡️Требования:
• SQL на продвинутом уровне
• Cтек технологий Big Data (Hadoop, Spark, Hive/Impala) и любой СУБД
• Знание понятий и концепций DWH
• Python (PySpark, Pandas, REST API)
• Airflow/Dagster/Oozie
• BitBucket/Git
• Bash
⭐Будет плюсом:
• Опыт работы с веб-аналитическими данными, данными мобильных приложений, рекламных кабинетов (YandexMetrica, AppMetrica или др. кликстримы)
• Знание банковского бизнеса
• Опыт работы по Agile
🎈Условия
• Классная и дружная команда
• Непростые задачи и быстрый рост
• Льготные условия кредитования и ипотеки
• Бесплатная подписка СберПрайм+
• Скидки на продукты компаний-партнеров
• ДМС с первого дня и льготное страхование для близких
• Корпоративное обучение, тренинги, митапы, доступ к бибилиотеке
• Современный офис в центре Москвы
✉️ Писать мне: @aigul_sea
🔥 11👍 3💯 1
Фото недоступнеДивитись в Telegram
👩💻 👩💻Про leetcode
Неделю назад решила достать свой акк на литкоде и начать решать задачки. Потому что когда-нибудь это может пригодиться на лайв кодинге, а я уже буду без стресса и во всеоружии⭐️
🎙️Иногда бывали такие вопросы, когда накатывала внутренняя улыбка и я думала:
Ага, про это я писала в своем канале)И хочется достичь такого же уровня:
Ага, я уже решала такую задачу и помню, как она решаетсяКстати, в самом начале увидела задачку про палиндром, которую спрашивали у моего коллеги на собесе. 📖 Даже если не понадобится, то все равно это основа для моего дальнейшего развития. Я сверяюсь с залайканными решениями, изучаю возможные оптимизации по памяти/месту, запоминаю технические и логические лайфхаки. Пока решаю простые задачки и планирую их все добить (бесплатные). Python - чтобы подумать, SQL - чтобы отдохнуть😅 А у вас как дела? Есть тут чемпионы?
👍 21 3
💡Ответ 💡
count('email')
count(1)
count(-100)
☕️ Давайте разбираться
Есть табличка emails:
1 [email protected]
2 null
3 null
4 [email protected]
⭐️Что выведет каждый из запросов?
email == `email`
== "email"
Эти три конструкции одинаковы, они обозначают само поле.
Кавычки нужны, когда название поля - это ключевое слово или когда написано на русском.
По условию email - уникальное, поэтому
count(email) == count(distinct email)
📍count не считает нуллы
Поэтому в нашем примере по всем этим 6 запросам будет ответ 2.
Ответ - 2.🦶 Идем дальше count('email') - здесь мы подаем на вход строку с названием 'email' (не поле!) Т.е. на вход каунту будет так:
1 email
2 email
3 email
4 email
Мы по сути считаем количество строк.
Ответ - 4.Аналогично для этих двух запросов: count(1) count(-100) Вообще неважно, что писать в скобках, хоть '2340sdjf2фыа934!-3/'. Результат всегда - это количество строк.
1 -100
2 -100
3 -100
4 -100
Ответ - 4.Ну и в count(distinct 'email') получается, что мы берем уникальные строки 'email'. А они везде одинаковые.
Ответ - 1.
👍 15 2❤ 1💯 1
Какие запросы дадут МАКСИМАЛЬНЫЙ результат?
* email уникален, в email есть null, бэктики поддерживаютсяAnonymous voting
- count(email)
- count(`email`)
- count('email')
- count("email")
- count(distinct email)
- count(distinct `email`)
- count(distinct 'email')
- count(distinct "email")
- count(1)
- count(-100)
👍 1
Кидаю ссылочку на буст канала
Пишите свои пожелания по реакциям)
https://t.me/boost/data_engineerette
дата инженеретта
Проголосуйте за канал, чтобы он получил больше возможностей.
❤ 3🔥 1💯 1 1 1 1
Фото недоступнеДивитись в Telegram
💬Наш командный сленг
Просто захотелось записать крутые словечки, которые мы используем внутри команды) Некоторые могут быть общепринятыми, но мы с коллегами постарались накидать своих особенных:
🔠
aboba - почти дефолтный нейминг всяких тестовых табличек, файликов, переменных
🔠
Багулина - баг
Базёнка - база данных
Биг боссы - руководители
🔠
Грядка - ряд рабочих мест
🔠
Джирафлоу - перемещение задачек по статусам в джире
Дикий интернет - интернет нормального человека
Дип дайв - образовательная техническая встреча, где кто-то из коллег рассказывает про крутые штуки
Дорогие коллеги - устойчивое выражение по отношению к коллегам
🔠
Жира - джира
🔠
ЗНОпс (запрос на обслуживание) - история с заведением заявок, получением согласований
🔠
Каминг-аут - релиз
Кодулина/эскуэлина - кусочек кода
kutuza moment - когда мы переехали с кутузы в другой офис, все казалось непривычным: мыло само не льется, вода сама не включается. это выражение описывает такие моменты, когда ты стоишь ждешь мыла или забыл выключить кран
🔠
Миграция/интеграция с хх - когда коллега собирается уйти
🔠
Ореховая леди - женщина, которая с утра раскладывает орешки
Особый стендап - прощальный стендап
🔠
Падаван - джун
Плов - Airflow
Пользак - пользователь
Проблема будущих нас - как Скарлетт, которая подумает обо всем завтра
🔠
Синк - встреча нескольких команд, чтобы обсудить статусы
Скам мастер - скрам мастер
Смотритель зоопарка, сопровод - сопровождение
С улицы - когда коллега пришел не из Сбера
🔠
Технина - у нас был коллега, который работал в яндексе. там у них проводились техтолики (типо techtalk). и я как-то предложила для Толика придумать даму сердца - Нину. теперь у нас есть технина))
Трубочист - девопсер
🔠
Узя - Oozie
Улучшайзинг - процесс улучшения
🔠
Фактура, собрать фактуру - поресерчить, прийти с конкретными кейсами и вопросами
🔠
Хабуп - Hadoop
Хадуповоды - название нашего чатика, где мы решаем проблемы с кластером
Хомяк - папка /home
🔠
Человек-джоба - когда ручками запускаешь то, что можно автоматизировать
🔠
Ярн киллер, придет ярн киллер - одно из требований безы к витринкам - если они падают, то должен быть процесс, который придет и убьет поток. и наоборот - если поток падает, процесс приходит и убивает расчет витринки
💬А у вас есть что-то, что понимаете только вы?)
🔥 17😁 9🤡 2👻 2❤🔥 1👍 1❤ 1
Repost from IT-минималист | Карьера с нуля
007. Надо брать и делать с Data engineer
Пообщались с Айгуль Сибгатуллиной. Сейчас Айгуль работает в Сбербанке на позиции Data Engineer.
Также ведет свой канал в телеграмм @data_engineerette.
Получился очень любопытный путь — несколько стажировок от фронтенда до бекэнда, опыт в консалтинг, потом аналитиком. И сейчас уже инженер данных.
Как так получилось? Мы обсуждали сегодня в подкасте!
👇 Слушайте, где удобно! 👇
Яндекс.Музыка
Youtube
VK
Приятного прослушивания! ❤️
#podcast
❤ 22👍 8 5❤🔥 1⚡ 1🔥 1🆒 1
Вопросы на middle+
😵 Недавно позвали на собес, решила сходить для контента🤩 Для меня он был прям сильно нестандартным, т.к. больше гоняли по кейсам "что будешь делать, если" и задавали нетривиальные вопросы по технике.
🚩 Ниже краткий списочек тем и вопросов:
DataOps
Синхронная/асинхронная репликация
Селективный запрос
Покрывающий индекс
Всегда ли план запроса отражает правду?
Zookeeper
MapReduce
Spark
Что делать, если надо показать отчет за месяц, а данных за один день нет?
Что делать, если после загрузки в dwh данных в 3 раза больше?
Золотая запись
PL/SQL процедуры
Движки в КХ
MDM (master data management)
Data Lineage
Data Vault/Anchor/Звезда
В каких случаях что выбирать?
ACID
WAL (Write-Ahead Logging)
Что сложнее - update vs insert?
Физические джойны
Какую бд выберешь, если ...?
Что делать, чтобы сравнить данные с источником, api?
Как будешь решать нестандартную задачу?
👍 Можете порассуждать в комментах)
#собес
🔥 26❤ 5❤🔥 3
Оберіть інший тариф
На вашому тарифі доступна аналітика тільки для 5 каналів. Щоб отримати більше — оберіть інший тариф.