fa
Feedback
дата инженеретта

дата инженеретта

رفتن به کانال در Telegram

мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea

نمایش بیشتر
3 346
مشترکین
+824 ساعت
-177 روز
+730 روز
آرشیو پست ها
Добрый день, Начал обучение на дата инженера, посоветуйте пожалуйста хорошую книгу по SQL 🙏 Что то основательное как Лутц на Питон 😅

Краудфандинг ресурсов по SQL А давайте накидаем любые полезные материалы в этом треде. У меня с этим сложности, я sql еще в универе проходила по лекциям и авторской книжке от препода, а потом 3 года шлифовала на рабочих задачах 🙂 P.S. всем комментаторам лайк, сердечко и огонечек

Порекомендовали книжку, пойду зачитываться на выходных Желаю всем хорошенечко отдохнуть 🥰
Порекомендовали книжку, пойду зачитываться на выходных Желаю всем хорошенечко отдохнуть 🥰

StarRocks meetup Всем привет. Рады пригласить вас на первый онлайн - митап по восходящей звезде аналитических баз данных Star
StarRocks meetup Всем привет. Рады пригласить вас на первый онлайн - митап по восходящей звезде аналитических баз данных StarRocks 19 июня в 19:00МСК 👉 Митап состоится онлайн, регистрация по ссылке Сообщество пользователей подготовило 2 доклада, охватывающие весь спектр задач - от типичного dwh небольшой компании до использования lakehouse движка поверх S3 и открытых форматов. От часовых витрин до bi безумия из сотен тысяч запросов. Мы постараемся ответить - жив ли еще опенсорс, есть ли альтернатива кликхаузу, гринпламу или трино. А если вдруг что-то забудем, то после докладов приглашаем вас на сессию вопросов и ответов в zoom к докладчикам.

Либретто Хотела сходить на hr-оперу ра прошлой неделе, но не смогла. Потом увидела, что стрим сохранился, глянула минут 10 и решила досмотреть попозже. А сейчас стрима уже нет 😅 Ухватила только, что это не стандартная опера с красивыми костюмами и декорациями. Сзади был экран, на который выводились чб рисунки города/офиса, а человек перед экраном пел и двигался. Пели тоже не академично, а скорее эстрадно По первому впечатлению не зацепило, поэтому отложила. Но осталось либретто, которое перед началом высылали всем на почту. Судя по тексту, выглядит как реклама компании)

Как хранятся айсберг таблицы На картинке у нас есть таблица под названием "warehouse". Для нее создаются 2 папки: data + meta
Как хранятся айсберг таблицы На картинке у нас есть таблица под названием "warehouse". Для нее создаются 2 папки: data + metadata. И всего есть 4 типа файликов 🤩 Data Files Это сами данные в форматах parquet/orc/avro 🤩 metadata.json Неполный список меты: - путь к таблице - время обновления - схема данных - версии - специфичные параметры айсберга 🤩 Manifest File (404eff92-...m0.avro) Инфа про файлы с данными: пути к ним, количество записей, статистики 🤩 Manifest List (snap-....avro) В айсбергах есть снепшот - это консистентное состояние таблицы в определенный момент времени. Снепшот знает, какие файлики ему надо выбрать, чтобы получить таблицу на сегодня/вчера/минуту назад. Поэтому по id снепшота можно вернуться к предыдущим состояниям Так вот Manifest List - это список манифест-файлов, которые относятся к конкретному снепшоту. Этот файл контролирует добавление, обновление, удаление данных и т.п. 🤩🤩🤩🤩🤩🤩 Хотела сюда вставить картинки со структурой всех файлов, но вместе они выглядели некрасиво. Поэтому лучше сделаю отдельные посты с более детальным разбором)

Приходите на прямой эфир по архитектуре данных и Data Lakehouse 5 июня, в 17:00 по Москве канал Данные на стероидах проводит
Приходите на прямой эфир по архитектуре данных и Data Lakehouse 5 июня, в 17:00 по Москве канал Данные на стероидах проводит прямой эфир с двумя экспертами-архитекторами. Спикерами станут Алексей Белозерский, руководитель команды BigData Services VK Cloud, а также Вадим Белов, руководитель системной разработки DMP, Х5 Group. Основная тема дискуссии: Data Lakehouse — хайп или необходимость. Во время прямого эфира вы сможете задать вопросы экспертам и поделиться своим опытом. Кому будет особенно интересно залететь в трансляцию: ⚫️Дата-инженерам ⚫️Руководителям дата-платформ ⚫️Аналитикам ⚫️Архитекторам ⚫️CDO, CDTO Подписывайтесь на канал, включайте напоминание и до встречи в эфире!

Я сходила на aha… и мне не понравилось) Встретила только двух знакомых и чувствовала себя максимально некомфортно в сообществ
+1
Я сходила на aha… и мне не понравилось) Встретила только двух знакомых и чувствовала себя максимально некомфортно в сообществе аналитиков. Залы были почти пустыми, хотя где-то ходила целая 1000 человек Я поучаствовала в нескольких активностях: 1️⃣ Игруля, где на деревянной дощечке стоят плашки, нужно задавать сопернику вопросы и закрывать неподходящие варианты. Перед последним ходом мой соперник уже понимал, что это профессия человека, который обрабатывает данные) А я понимала, что это какая-то метрика. Пошла ва-банк с ROI, но оказался Churn Rate 🤷‍♀️
ROI («Return On Investment», возврат инвестиций) — коэффициент рентабельности инвестиций, который помогает рассчитать окупаемость вложений в проект.
Churn rate, или отток клиентов, — метрика, которая показывает, сколько клиентов потеряла компания за определённый период.
2️⃣ Пошла вытягивать предсказания
Баг исчезнет сам, будто его и не было. Но откроет кое-что посложнее.
Вторая часть предсказания мне не очень понравилась, и я решила вытащить "пояснительную" для решения этого "посложнее":
Следующий твой инсайт родится из самой глупой идеи. Будь готов.
Ну допустим 3️⃣ На одной станции в призах была кружка (я люблю собирать симпатичные), баллов требовалось немного, и я пошла их копить Сыграла в викторину, где на определенную тему нужно назвать как можно больше терминов. Нам с соперником досталась тема "Виды графиков", и как же я была счастлива)) А то на тему метрик, статистики я бы вряд ли много чего накидала. Эту игру я выиграла 🎉 Потом пошла решать математические задачи. По времени не было никаких ограничений, хоть вечером приноси. Всего 3 задачи: найти этаж по номеру квартиры в доме, тервер, интеграл. В тервер лезть не стала, баллов на кружку уже хватило бы без нее) 4️⃣ Потом покрутила колесо заданий. В самом задании нужно было выбрать, какой вид графика лучше. Оказалось, что визуально разделять категории (одежда, бытовая химия и т.д.) по разным цветам - плохая идея. Только если мы не хотим акцентировать внимание именно на разных категориях. А так можно выбрать, например, выручку и покрасить столбики в зависимости от ее размера Проходя мимо аналитической настолки, услышала термины "когортный анализ" и "логистическая регрессия", решила не ввязываться 😁 ⚾️⚾️Второй день послушала уже в онлайне, вообще из всех треков мне понравился только про здоровье, сидячий образ жизни, умственную деятельность и вот это все

⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимает
⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

Мама, я CTO тимлид 📱 Недавно ко мне вышел человечек и предложил обучаться управленческим навыкам. Сначала я заигнорила, было похоже на скам, и ну сколько уже можно учиться? 😁 После второго пинга я решила зайти посмотреть программы. Это школа Стратоплан, и мне на выбор предложили четыре программы: - Soft Skills для инженеров - Команда. Инструменты управления - Школа руководителя отдела - Школа технического директора Я посмотрела стоимость каждого курса, ну пока предлагают - надо брать самое крутое. Конечно, скипаю предыдущие этапы и иду сразу в CTO! Потом оказалось, что надо сделать вступительное задание и пройти собес 😁 Ладно, так уж и быть, начнем с тимлида Подробное описание программы можно глянуть тут 💻 Во вступительном нужно было написать эссе про себя, решить управленческий кейс (какие решения вы примете в конкретной ситуации, как будете разбираться с проблемами), заполнить чек-лист по компетенциям (найм, контроль команды, переговоры и т.д.). Задания для меня были вообще нетипичными. Потом я записалась на собес, и мы полчаса это все обсуждали. Собес я прошла) Далее была установочная встреча, где рассказали про формат обучения, и мы даже дважды попрактиковались в мини-командах на тему целей и результатов после курса 📊 Вообще обучение будет проходить раз в месяц 3 дня подряд по 5 часов до октября 😍 Еще есть 8 сопутствующих мини-курсов по 2 месяца, на которые можно записаться и получить серт или просто смотреть в видеозаписях без серта. Они тоже прикольные на тему мотивации, увольнений, коммуникаций, финансов, но я как-нибудь по ходу посмотрю. Хоть и хочется все и сразу, но не могу закоммититься (все-таки лето) ☕️ Дальше буду по итогам каждого модуля рассказывать, что и как, что прошли, что делали, какие ощущения

✨Spark 4.0✨ Official release notes: https://spark.apache.org/releases/spark-release-4-0-0.html Краткое описание в статейке (работает только с впнкой): https://www.databricks.com/blog/introducing-apache-spark-40 А кто-то живет еще на втором спарке?

Аналитика по сторис Потратила час-два, но собрала аналитику по сторис, которые я выкладываю😁 Погуглила апишку тг, погулила л
Аналитика по сторис Потратила час-два, но собрала аналитику по сторис, которые я выкладываю😁 Погуглила апишку тг, погулила либу telethon, подняла постгрю в докере, создала две таблички с просмотрами и с пользователями, вызвала метод GetStoryViewsListRequest и собрала оттуда нужную инфу Покрутила эти таблички в базе, и вот какие выводы я для себя сделала: ⏺️есть мои контакты, у которых я не в контактах - грустно( ⏺️есть интересные флаги "bot", "scam", "fake" - у меня все false (либо они коряво определяются) ⏺️некоторые люди смотрят сторисы спустя год с лишним(!) - вот это шок 😮😮 ⏺️собрала топ стату по просмотрам ⏺️чекнула по data quality, что поле count == views_count == кол-ву пользователей в списке == кол-ву просмотров в списке - все норм) Пользовалась этой докой, но она супер кривая, даже непонятно, что значат некоторые поля

Найден годный конспект по LLM на русском языке Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтоб
+4
Найден годный конспект по LLM на русском языке Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко: – Необходимая математика: линал и матанализ на пальцах – Все про механизм внимания и трансформеры – Детальное объяснение процесса предобучения – RL – с нуля до обучения ризонинг-моделей типа o3 – И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель. Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц. Забрать полную pdf-версию абсолютно бесплатно можно здесь

Найдите 10 отличий 🐱🥹 У меня было на слуху слово "atlas" в мире дата технологий, но на днях я поняла, что их несколько: 🟠Есть Apache Atlas - это дата каталог, чтобы управлять метаданными, бизнес-сущностями, смотреть происхождение таблички/поля и т.д. https://atlas.apache.org/ https://github.com/apache/atlas 🟢Есть просто Atlas - тулза для миграции схем данных https://atlasgo.io/docs https://github.com/ariga/atlas 🔵А потом я наткнулась на Atlan - это тоже дата каталог, но уже платный https://atlan.com/ Есть еще какие-то слова, которые обозначают совершенно разные технологии?

Committers in Spark В спарке есть такая штука, как коммиттеры. Они нужны, чтобы пользователи видели только успешные финальные
+2
Committers in Spark В спарке есть такая штука, как коммиттеры. Они нужны, чтобы пользователи видели только успешные финальные результаты. Их несколько: ✨ File Output Committer v1
"spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version" = 1
Сначала все файлы пишутся во временные папки в attempt/, потом перекладываются (по сути rename) в task/ и в самом конце в корень вашей папки. Тут упор на надежность: если что-то упало, то оно перезапустится и не попадет в конечную папку, пока не отработает v2
"spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version" = 2
Здесь файлы пишутся в attempt/, а потом сразу перемещаются в корень вашей папки. Тут упор на производительность: нет дополнительного шага, но если что-то пойдет не так, то останутся куски файлов ✨ S3A Committers Для работы с s3 есть magic и staging. Предыдущие не подходят, т.к. переименование реализовано как копирование и удаление. И если файлов много, то это очень долгая операция magic
"spark.hadoop.fs.s3a.committer.name" = "magic"
"spark.hadoop.fs.s3a.committer.magic.enabled" = "true"
Файлы пишутся сразу в корень, но облако должно быть консистентным. Появился в конце 2021 staging С ним я не игралась, но суть в том, что сами файлы пишутся в стейджинг на hdfs (отсюда и название), а потом грузятся в s3 _SUCCESS Возможно, вы когда-нибудь заглядывали в файл _SUCCESS. Если писать алгоритмами v1/v2, то он будет пустым. А вот пример с magic:
{
  "name" : "org.apache.hadoor.fs.3a.commit. files.SuccessData/1",
  "timestamp" : 1744183768995,
  "date" : "Wed Apr 09 10:29:28 MSK 2025",
  "committer" : "magic",
  "description" : "Task committer attempt_202504091019345870801396712503545_6660_m_1000000_0",
  "metrics" : {
    "stream_write_block_uploads" : 0,
    "files_created" : 1,
    "stream_closed" : 200,
...

Как Яндекс кошмарит аналитиков на собесах ❤️ Успешно пройти секцию по профильным хардам, но смачно опозориться на логической задаче с часами? В этом вся суть интервью в Яндексе 😆 Автор этой истории недавно побывал на собесе в Яндексе и рассказал всю правду о клоунаде, которая там происходила. Готовьте попкорн! V{IT}A Заебумба | Путь корпората — топовый канал про IT, сферу найма, трешовые собесы и работу в корпорациях. Просто кладезь кулстори не только от автора, но и от подписчиков Атмосфера 12/10: авторская подача, юмор и угарные комменты от аудитории, состоящей из бизнес, системных, дата аналитиков и других айтишников 🔥Истории, которые уже успели стать бестселлером: 🟡Поймала дешёвок за руку на собесе в Ягодках 🛍 🟡Я стала эйчаром и вот что выяснила. Правда о ситуации на рынке IT 🟡Интервьюеры на собесе в табачную компанию сказали сесть спиной к монитору 🟡Турнули с испытательного срока Но тут не только про веселье и треш. Подписывайтесь, если хотите: 🟢Узнать лайфхаки продающего резюме 🟢Быть в курсе актуальной ситуации на рынке 🟢Обойти 90% кандидатов 🟢Не продешевить на собесе и выгодно себя продать ➡️ @vitazaebymba

Как вам история коммитов?
Как вам история коммитов?

Aha!25 — теперь два дня! 29 и 30 мая в Москве пройдет Aha!25 — техническая конференция о product science, продуктовой аналити
Aha!25 — теперь два дня! 29 и 30 мая в Москве пройдет Aha!25 — техническая конференция о product science, продуктовой аналитике и эффективности бизнеса. В этом году программа впервые расширяется до двух дней: 16 тематических потоков и более 1200 участников на одной площадке На сцене — топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других крупнейших компаний Рунета и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также профессора и кандидаты наук из ИТМО, РЭШ, Центрального университета Ключевые темы: 🤩Интеграция LLM, ML и AI в цифровые сервисы 🤩Современные подходы к A/B-тестированию 🤩Оцифровка пользовательского опыта 🤩Применение машинного обучения в управлении продуктом 🤩Математическое мышление и поведенческая экономика Приглашают продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1) Программа: http://ahaconf.ru/program С моим персональным промокодом будет скидочка 10% 🤩 Скопировать можно тут:
DATAENGINEERETTE10
Билеты — на сайте!

CustDev В моей голове не укладывалось, что это такое, пока я не попробовала на себе. Сначала я не хотела идти, но когда позва
CustDev В моей голове не укладывалось, что это такое, пока я не попробовала на себе. Сначала я не хотела идти, но когда позвали персонально, то почему бы и не пойти на что-то новое) Кастдев - это по сути встреча, где вы выступаете пользователем продуктов, а другая сторона - разработчиком собственного продукта. Меня поспрашивали про: 🤩мои боли 🤩что мне неудобно в функционале 🤩что мне хотелось бы видеть 🤩как часто я пользуюсь тем или иным приложением 🤩какие задачи я решаю с их использованием 🤩что мне хотелось бы автоматизировать 🤩трудности, если бы я была новым коллегой 🤩и т.д. Возможно, это был бонус, но мне даже показали UI и что там уже можно поделать Такое проводится с большим количеством людей, чтобы собрать мнения и потом создать ультра-мега-супер-классный продукт, который понравится всем (в идеале) Встреча была интересной, я постаралась выжать из себя идеи, но как будто это не мой формат 😅 К сожалению, меня ничего не бесит и не раздражает в этой жизни)) Следующий шаг - осознать, что каждый день на работе делает DevRel…