дата инженеретта

الذهاب إلى القناة على Telegram

мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea

إظهار المزيد

روسيا154 354 الحياة الوظيفية8 070

3 346

المشتركون

+824 ساعات

-177 أيام

+730 أيام

1 709

عرض المشاهدات

~ 75524 ساعات

~ 87748 ساعات

51.12%

معدل المشاركة

لا توجد بيانات

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

3 347

Когда тимлид смотрит твои сторис

3 347

Про technical product manager’ов😎 Я заколлабилась с каким-то крутым челом - Артем, "CPO & Head of PMO Платформы для разработчиков @ Яндекс". Так что если у вас есть вопросики, есть выход на прямой контакт 🙂 🎙️ Минутка самопрезентации: Закрой глаза на секунду, потом открой и представь себе, что ты продакт, отвечающий за развитие русского языка😬 Ну че, какие планы по улучшению?😉 А как будешь собирать обратную связь от пользователей? Может ну не эту букву «ы», кому она там нужна? Артем, конечно, не продакт русского языка, он руководитель продуктового офиса, который делает платформу для разработчиков в Яндексе. Ага, и у него есть ребята, кто решает такую задачу для языков разработки. Хочешь послушать про то, как повысить эффективность разработки - вот тут О том, как построить надежный финансовый сервис для 78 + млн. пользователей: ну вот же Ну и как всегда можно зайти и глянуть очередное никому не интересное мнение: - как решать проблемы - как задавать вопросы - как качественно выгореть - как научиться в техничку 👉 Подписывайтесь

3 347

Архитектурки Вчера прошел "Lakehouse Meetup", где было 2 выступления и панельная дискуссия на тему проблем, технологий, опыта разных компаний: Т-Банк, Лемана Тех, Азбука Вкуса, S7 Airlines, Querify Labs, Positive Technologies (как ни странно) Картинка №1 - to be, до которой дошли в Лемана Тех (почти) Картинка №2 - как сейчас в Азбуке Вкуса Успела заглянуть всего на полчаса, чтобы посмотреть офис, встретиться со знакомыми людьми и съесть пару вкусняшек 🙂 Остальное досмотрела в записи, что можете сделать и вы: YouTube VK #system_design

3 347

⚡️Анализируем продажи на Wildberries с помощью Python С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся аналитики, которые умеют с ними работать. Хотите за несколько часов собрать интересный кейс для своего портфолио? Андрон Алексанян - эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative в прямом эфире проанализирует продажи на Wildberries с помощью Python. Что будет на вебинаре: 🟠Напишем скрипт на Python, который каждый час собирает статистику о ранжировании карточки на WB по ключевым запросам; 🟠Построим наглядные визуализации для отслеживания динамики ранжирования. Важно досмотреть вебинар до конца, чтобы узнать как упаковать этот кейс в портфолио своих проектов. 😶Зарегистрироваться на бесплатный вебинар

3 347

Новый релиз Airflow! https://github.com/apache/airflow/releases/tag/3.0.0 Уже есть видос с фичами, этот чел мне постоянно в линкедине попадается: https://youtu.be/PMO5LPc112E?si=GwiHa9KFte7uVeNN

3 347

Сейчас конфа от Arenadata https://arenaday.io/live/

3 347

Моя теория расписаний Меня несколько раз спрашивали, как у меня получается делать столько дел и все успевать? 🎹 Я думаю, эта история заложилась как минимум, когда я параллельно училась в лицее+муз колледже. Я выписывала все доступные слоты по каждому предмету в колледже и искала оптимальное время Потом ходила к преподам договариваться, чтобы разрешили ходить с другими группами. Если слотов не было, договаривалась прийти на экз со всеми конспектами. У меня как будто американское образование, потому что я всегда ходила с разными людьми😂 На индивидуальные занятия ходила даже домой, потому что по времени было больше никак. Я даже когда-то охарактеризовала себя так: «Каждый семестр я немножко колдунья» 👟 Часто я бегала туда-обратно по несколько раз в день (типо колледж-универ-колледж-универ) Было особенно забавно, когда у меня совпали экзы в универе и выпускные гос экзы в колледже. С утра я сдавала в одном месте, а после обеда в другом. Бывало, что договаривалась с универом и сдавала с параллельной группой 🕊 На фотке №1 - мое расписание, когда я училась уже в универе+муз колледже. Периодически я была занята с 8 до 20. А еще в идеале нужно было заниматься за фортепиано минимум по 4ч в день. Кроме теор предметов, было 5 индивидуальных с инструментом два раза в неделю, к которым просто необходимо было готовиться🫠 🕊 На фотке №2 - забавная смесь, где на левой страничке я готовилась к угадайке по опере, а на правой делала домашку по линалу 🕊 На фотке №3 - пример моего текущего расписания. Мне всегда куда-то надо и в несколько мест одновременно 😅 🖍Решила заодно перечитать свой «Дневник размышлений», который пополняю мыслями несколько раз в год. Нашла интересные аффирмации:

Сейчас время ускользает сквозь пальцы, а все мои идеи так ими и остаются. А я растрачиваю свое невозвратимое никогда благо на ерунду, когда нужно начать действовать!

Я могу. Я хочу. Я делаю

3 347

Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week! Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи. Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений. Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.

3 347

‼️ Я дропнула базу на проде ‼️ Ну... почти дропнула ➡️ перезаписала базу ➡️ схему на проде ➡️ на деве Я просто сделала в спарке:

(
  df
  .write
  .format(data_format)
  .mode("overwrite")
  .save(path)
)

Но в переменной path оказался путь не к табличке, а ко всей схеме... В целом, ничего критичного не случилось, но грустно и неприятно. Как говорил классик: "Anything that can go wrong will go wrong". Так что будьте внимательны, дамы и господа

3 347

⚙️ YDB Topics — Kafka-подход, но с новыми фишками Яндекс выпустил корпоративный брокер сообщений YDB Topics, совместимый с Apache Kafka. Но это не просто «свой велосипед», а инструмент, заточенный под работу с высокой нагрузкой, где стабильность и отказоустойчивость — не пустые слова. На вебинаре 23 апреля расскажут, как YDB Topics масштабируется сам — система автоматически распределяет нагрузку и подключает новые ресурсы без ручного вмешательства. Поговорят и о доступности: брокер продолжает приём сообщений даже при сбоях, чего Kafka не умеет из коробки. Заодно объяснят, как работают ACID-транзакции между топиками и таблицами, и почему можно отказаться от outbox-паттерна без потери данных и дублирования. Тем, кто проектирует микросервисы или работает с ingest-сценариями, будет особенно интересно. Плюс обсудят, как встроить YDB Topics в корпоративную экосистему с ролевыми моделями, аудитом и безопасностью на уровне зрелых компаний.

3 347

Наткнулась на статью, которую опубликовал лид моего тимлида в прошлом году https://habr.com/ru/companies/lamoda/articles/810705/

3 347

Оптимизируем работу со Spark и строим рекомендательные системы Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение. На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода. Что еще обсудим 🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде. 🔹 Как оптимизировать расходы и работу со Spark. 🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца. Кому будет полезен вебинар ⚫️ML-инженерам. ⚫️Архитекторам, Data-инженерам, Data-аналитикам. ⚫️Руководителям ML-направлений и Data-офисов. Зарегистрироваться

3 347

⚡️Как Docker упрощает жизнь аналитиков и инженеров данных Когда вы работаете с данными, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения. На бесплатном вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью, а значит и повысите эффективность работы и сэкономите время на настройку окружения. Что будем делать на вебинаре: 🟠Разберём основы Docker и как контейнеры упрощают работу; 🟠Выполним анализ данных, запустив Python прямо внутри контейнера; 🟠Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL); 🟠Настроим удобный доступ к результатам анализа; 🟠Организуем ускоренную обработку больших данных. 😶Зарегистрироваться на бесплатный вебинар

3 347

ClickHouse Tips and Features Недавно один подписчик спрашивал, остались ли еще какие-нибудь крутые презы по инструментам. Вот откопала презу по кх)

3 347

Теперь дока - мой верный друг В последнее время чувствую необходимость пойти в доку и почитать, если нужно что-то найти. Привожу список полезных ссылочек с небольшим описанием: ✨ Spark - движок для распределенных вычислений большого объема данных на нескольких машинках https://spark.apache.org/docs/latest/configuration.html 🐇 Trino - SQL-движок для запросов к разным видам источников данных https://trino.io/docs/current/index.html 👩‍💻Scala - Java-подобный язык (но не совсем) https://www.scala-lang.org/api/3.x/scala.html 👩‍💻 PyArrow - либа для работы с данными https://arrow.apache.org/docs/python/index.html 🐘 YARN API - API для менеджера ресурсов на кластере https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html 🍺 brew - менеджер пакетов для мака https://formulae.brew.sh/formula/ 👩‍💻 Python - ну что тут еще добавить https://docs.python.org/3/library/ 🌺 Airflow - оркестратор потоков обработки https://airflow.apache.org/docs/apache-airflow/stable/index.html ⛩ Jinja - шаблоны на питоне для динамической генерации https://jinja.palletsprojects.com/en/stable/ 👩‍💻 Docker - платформа для контейнеризации приложений https://docs.docker.com/reference/ 👨‍🏫 Bamboo - CI/CD https://confluence.atlassian.com/bamboo/bamboo-documentation-289276551.html 🗻 Iceberg - табличный формат хранения данных с транзакциями, возможностью иметь несколько версий таблицы и т.д. https://iceberg.apache.org/docs/latest/ 🟢 Apache ORC - колоночный формат хранения данных https://orc.apache.org/docs/index.html

3 347

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными. Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью. Всё о программе — на дне открытых дверей: — Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer. — Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей. — Поговорим про поступление: сроки, экзамены, документы, оплата.

Спикеры: Станислав Павлов, директор по AI, Positive Technologies. Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ. Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум. Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.

Ждём вас 9 апреля в 19:00 мск. → Зарегистрироваться на встречу

3 347

Пост-мит dbt meetup Только что закончился dbt meetup Что было: 1️⃣"Данные под контролем: Great Expectations в деле" База про что такое data quality, какие критерии качества данных бывают, как добавить тест в GX, какой файлик с результатами получается, как выглядит таблица в UI DataHub (это такой дата каталог, чтобы пользователям было удобно смотреть бизнес-сущности, запущенные проверки и т.д.) Хотелось послушать на х3, скучно, в чате были вопросы круче, мне не понравилось :( 2️⃣"Так ли удобен dbt, как о нём рассказывают (костыли, ограничения, трудности)" Про dbt на практике. Как переопределять макросы, добавлять хинты для dbt, как обращаться к системным таблицам, как возвращать значения из макросов, особенности логирования и работы с json, dbt unit testing (либа) 3️⃣"Современные практики локальной разработки и тестирования в dbt" Про локальную разработку в dbt, Makefile (для удобного запуска команд), Zero Copy Clone (прод - read-only, запись в dev), dbt unit tests (в dbt core), эфемерные модели, фикстуры (один раз создаются, даже если нужны в нескольких тестах) 4️⃣"DuckDB на каждый день - меньше рутины, больше аналитики" Про pandas, DuckDB overview, кейсы использования, как интегрировать с dbt, новые фичи в SQL (group by all, union by name и т.д.) 5️⃣"Данные на максималках: инкрементальные загрузки и partition replacing" Про инкрементальные модели в dbt, SCD, WAP-паттерн (Write-Audit-Pattern, сначала записываем, потом проверяем и публикуем), метод замены партиций, продвинутая работа с изменениями в данных. Тут надо еще немного преисполниться

3 347

rows between Когда я в декабре решала Advent of SQL, на 11 день было интересное задание - найти скользящее среднее по текущей строке с двумя предыдущими. Еще похожая штука применяется, когда нужно найти кумулятивную сумму 🚃 Выход - оконка! (но только в целях SQL) Мы можем написать так:

avg(amount) over(order by column)

Но под капотом это так:

avg(amount) over(order by column rows between unbounded preceding and current row)

т.е. мы стартуем с первой строки и берем все до текущей Всего есть несколько способов тюнинга:

--от первой до текущей
rows between unbounded preceding and current row

--от текущей до последней
rows between current row and unbounded following

--с конкретикой - сколько до и сколько после
--от предыдущей до текущей (2 строки)
rows between 1 preceding and current row

--от текущей до 1 следующей (2 строки)
rows between current row and 1 following

--от предыдущей до следующей (3 строки, еще текущая есть)
rows between 1 preceding and 1 following

В контексте задачи со скользящим средним просто нужно взять не 1, а 2 строки:

avg(amount) over(order by rows between 2 preceding and current row)

А для кумулятивной суммы нужно просто сделать так, потому что по дефолту она и будет кумулятивной✨

sum(amount) over(order by column)

3 347

Иди на дата саентиста, там вакансии с ЗП от 300 000₽ Ага, только тебя завалят на первых же задачах с LeetCode. Сотни ребят каждый день сталкиваются с тем, что без подготовки и понимания алгоритмов пройти техническое собеседование — это как пытаться собрать IKEA без инструкции. В этом деле важен опыт: гляньте канал Глеба Михайлова, он прошел больше сотни технических собеседований (съел на этом всех собак 🐕🍽). — Работал в Альфе, Сбере, Ростелекоме — 5 лет являлся наставником в Яндекс.Практикуме — Знает все подводные камни тех. собеседований в ТОП компании Кто, как не он, знает, как пройти техсобесы и не сойти с ума? Если ты хочешь левел-апнуться, больше зарабатывать и от души поржать над байками о работе в Сбере и Альфе от дата саентиста, который вырос из просто аналитика — подписывайся: @mikhaylovgleb Реклама

3 347

Стата по моим офферам Довольно многих волнует тема офферов, поэтому я тут поделюсь своей историей 🪐Разделим последний год на 2 hr-кампании, когда я осознанно хотела пособеситься. Каждая кампания длиной примерно 2 месяца: 1️⃣ лето: 02.07 - 06.09 2️⃣ зима: 23.12 - 12.02 ➡️ Первая hr-кампания меня сильно прокачала в плане проведения собственных собесов и научила не быть слепым котеночком. Иногда я ставила даже 2 собеса в день, и моя энергия скатывалась куда-то в минус ➡️ А в зимний период я понимала, что может быть сложно начинать. Но мне сказали, что бюджеты все равно закладываются заранее, так что по сути в начале года ничего не мешает начинать найм ☕️ Итак, смотрим на графички. Не поленилась, прошлась по всей стате на hh и по всем перепискам в мессенджерах😁 Возьмем оранжевую линию за основу - это те вакансии, которые были мне интересны. Конверсия в оффер получилась 8/15 = 53% vs 1/21 = 4,7%. Т.е. зимняя hr-кампания отработала в 11 раз хуже летней. Возможно, с весны эта ситуация меняется? Но я не уверена 👩‍💻 Также есть качественная разница в уровне компаний. Если летом мне писали отсюда: CIAN Альфа МТС Magnit Лента То зимой конкретно все поменялось: Quickly Search WMT Group ИЦ АЙ-ТЕКО Datanomica Trinity Monsters 🗓️ Средняя длительность hr-процесса получилась 10 дней летом vs 18 дней зимой (зааффектили нг каникулы). Включала компании, от которых я получила ОС по итогам собесов, и исключила выброс в виде яндекса - там 63 дня на 3 этапа 👍 Прокомменчу 3 других отказа зимой: Касперский - двх на MS SQL🙂 и я была просто антиметчем их вакансии Билайн - искал топового скалиста🙂 Авито - завалилась на алгосах с NP-полной задачей🙂 🎤 В итоге я пришла к таким выводам: - хоть и количество просмотров увеличилось - но очень много интеграторов, и общее качество компаний упало - отклики на hh не работают (почти), в большинстве пишут сами и поэтому заинтересованы больше, чем если откликаться самому Было страшно подавать заявление, понимая, что на рынке вот такая ситуация, выходить только через месяц, а у меня единственный оффер на руках 🎤 Есть кто сейчас в процессе поисков, какие ощущения?