дата инженеретта
Kanalga Telegram’da o‘tish
мелкое — крупно, в глубоком разговоре мудрость приходит по вопросам сюда: @aigul_sea
Ko'proq ko'rsatish3 346
Obunachilar
+824 soatlar
-177 kunlar
+730 kunlar
Postlar arxiv
3 347
Добрый день,
Начал обучение на дата инженера, посоветуйте пожалуйста хорошую книгу по SQL 🙏
Что то основательное как Лутц на Питон 😅
3 347
Краудфандинг ресурсов по SQL
А давайте накидаем любые полезные материалы в этом треде. У меня с этим сложности, я sql еще в универе проходила по лекциям и авторской книжке от препода, а потом 3 года шлифовала на рабочих задачах 🙂
P.S. всем комментаторам лайк, сердечко и огонечек
3 347
Порекомендовали книжку, пойду зачитываться на выходных
Желаю всем хорошенечко отдохнуть 🥰
3 347
StarRocks meetup
Всем привет.
Рады пригласить вас на первый онлайн - митап по восходящей звезде аналитических баз данных StarRocks 19 июня в 19:00МСК
👉 Митап состоится онлайн, регистрация по ссылке
Сообщество пользователей подготовило 2 доклада, охватывающие весь спектр задач - от типичного dwh небольшой компании до использования lakehouse движка поверх S3 и открытых форматов. От часовых витрин до bi безумия из сотен тысяч запросов. Мы постараемся ответить - жив ли еще опенсорс, есть ли альтернатива кликхаузу, гринпламу или трино. А если вдруг что-то забудем, то после докладов приглашаем вас на сессию вопросов и ответов в zoom к докладчикам.
3 347
Либретто
Хотела сходить на hr-оперу ра прошлой неделе, но не смогла. Потом увидела, что стрим сохранился, глянула минут 10 и решила досмотреть попозже. А сейчас стрима уже нет 😅
Ухватила только, что это не стандартная опера с красивыми костюмами и декорациями. Сзади был экран, на который выводились чб рисунки города/офиса, а человек перед экраном пел и двигался. Пели тоже не академично, а скорее эстрадно
По первому впечатлению не зацепило, поэтому отложила. Но осталось либретто, которое перед началом высылали всем на почту. Судя по тексту, выглядит как реклама компании)
3 347
Как хранятся айсберг таблицы
На картинке у нас есть таблица под названием "warehouse". Для нее создаются 2 папки: data + metadata. И всего есть 4 типа файликов
🤩 Data Files
Это сами данные в форматах parquet/orc/avro
🤩 metadata.json
Неполный список меты:
- путь к таблице
- время обновления
- схема данных
- версии
- специфичные параметры айсберга
🤩 Manifest File (404eff92-...m0.avro)
Инфа про файлы с данными: пути к ним, количество записей, статистики
🤩 Manifest List (snap-....avro)
В айсбергах есть снепшот - это консистентное состояние таблицы в определенный момент времени. Снепшот знает, какие файлики ему надо выбрать, чтобы получить таблицу на сегодня/вчера/минуту назад. Поэтому по id снепшота можно вернуться к предыдущим состояниям
Так вот Manifest List - это список манифест-файлов, которые относятся к конкретному снепшоту. Этот файл контролирует добавление, обновление, удаление данных и т.п.
🤩🤩🤩🤩🤩🤩
Хотела сюда вставить картинки со структурой всех файлов, но вместе они выглядели некрасиво. Поэтому лучше сделаю отдельные посты с более детальным разбором)
3 347
Приходите на прямой эфир по архитектуре данных и Data Lakehouse
5 июня, в 17:00 по Москве канал Данные на стероидах проводит прямой эфир с двумя экспертами-архитекторами. Спикерами станут Алексей Белозерский, руководитель команды BigData Services VK Cloud, а также Вадим Белов, руководитель системной разработки DMP, Х5 Group.
Основная тема дискуссии: Data Lakehouse — хайп или необходимость. Во время прямого эфира вы сможете задать вопросы экспертам и поделиться своим опытом.
Кому будет особенно интересно залететь в трансляцию:
⚫️Дата-инженерам
⚫️Руководителям дата-платформ
⚫️Аналитикам
⚫️Архитекторам
⚫️CDO, CDTO
Подписывайтесь на канал, включайте напоминание и до встречи в эфире!
3 347
+1
Я сходила на aha…
и мне не понравилось)
Встретила только двух знакомых и чувствовала себя максимально некомфортно в сообществе аналитиков. Залы были почти пустыми, хотя где-то ходила целая 1000 человек
Я поучаствовала в нескольких активностях:
1️⃣ Игруля, где на деревянной дощечке стоят плашки, нужно задавать сопернику вопросы и закрывать неподходящие варианты. Перед последним ходом мой соперник уже понимал, что это профессия человека, который обрабатывает данные) А я понимала, что это какая-то метрика. Пошла ва-банк с ROI, но оказался Churn Rate 🤷♀️
ROI («Return On Investment», возврат инвестиций) — коэффициент рентабельности инвестиций, который помогает рассчитать окупаемость вложений в проект.
Churn rate, или отток клиентов, — метрика, которая показывает, сколько клиентов потеряла компания за определённый период.2️⃣ Пошла вытягивать предсказания
Баг исчезнет сам, будто его и не было. Но откроет кое-что посложнее.Вторая часть предсказания мне не очень понравилась, и я решила вытащить "пояснительную" для решения этого "посложнее":
Следующий твой инсайт родится из самой глупой идеи. Будь готов.Ну допустим 3️⃣ На одной станции в призах была кружка (я люблю собирать симпатичные), баллов требовалось немного, и я пошла их копить Сыграла в викторину, где на определенную тему нужно назвать как можно больше терминов. Нам с соперником досталась тема "Виды графиков", и как же я была счастлива)) А то на тему метрик, статистики я бы вряд ли много чего накидала. Эту игру я выиграла 🎉 Потом пошла решать математические задачи. По времени не было никаких ограничений, хоть вечером приноси. Всего 3 задачи: найти этаж по номеру квартиры в доме, тервер, интеграл. В тервер лезть не стала, баллов на кружку уже хватило бы без нее) 4️⃣ Потом покрутила колесо заданий. В самом задании нужно было выбрать, какой вид графика лучше. Оказалось, что визуально разделять категории (одежда, бытовая химия и т.д.) по разным цветам - плохая идея. Только если мы не хотим акцентировать внимание именно на разных категориях. А так можно выбрать, например, выручку и покрасить столбики в зависимости от ее размера Проходя мимо аналитической настолки, услышала термины "когортный анализ" и "логистическая регрессия", решила не ввязываться 😁 ⚾️⚾️Второй день послушала уже в онлайне, вообще из всех треков мне понравился только про здоровье, сидячий образ жизни, умственную деятельность и вот это все
3 347
⚡️Пошаговый план: как стать аналитиком данных в 2025
Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?
Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта
Что будет на вебинаре?
🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— обсудите, какие отклики работают, а какие сразу отправляют в корзину;
— изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях
🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру
😶Зарегистрироваться на бесплатный вебинар
3 347
Мама, я CTO тимлид
📱 Недавно ко мне вышел человечек и предложил обучаться управленческим навыкам. Сначала я заигнорила, было похоже на скам, и ну сколько уже можно учиться? 😁
После второго пинга я решила зайти посмотреть программы. Это школа Стратоплан, и мне на выбор предложили четыре программы:
- Soft Skills для инженеров
- Команда. Инструменты управления
- Школа руководителя отдела
- Школа технического директора
Я посмотрела стоимость каждого курса, ну пока предлагают - надо брать самое крутое. Конечно, скипаю предыдущие этапы и иду сразу в CTO!
Потом оказалось, что надо сделать вступительное задание и пройти собес 😁
Ладно, так уж и быть, начнем с тимлида
Подробное описание программы можно глянуть тут
💻 Во вступительном нужно было написать эссе про себя, решить управленческий кейс (какие решения вы примете в конкретной ситуации, как будете разбираться с проблемами), заполнить чек-лист по компетенциям (найм, контроль команды, переговоры и т.д.). Задания для меня были вообще нетипичными. Потом я записалась на собес, и мы полчаса это все обсуждали. Собес я прошла)
Далее была установочная встреча, где рассказали про формат обучения, и мы даже дважды попрактиковались в мини-командах на тему целей и результатов после курса
📊 Вообще обучение будет проходить раз в месяц 3 дня подряд по 5 часов до октября 😍 Еще есть 8 сопутствующих мини-курсов по 2 месяца, на которые можно записаться и получить серт или просто смотреть в видеозаписях без серта. Они тоже прикольные на тему мотивации, увольнений, коммуникаций, финансов, но я как-нибудь по ходу посмотрю. Хоть и хочется все и сразу, но не могу закоммититься (все-таки лето)
☕️ Дальше буду по итогам каждого модуля рассказывать, что и как, что прошли, что делали, какие ощущения
3 347
✨Spark 4.0✨
Official release notes: https://spark.apache.org/releases/spark-release-4-0-0.html
Краткое описание в статейке (работает только с впнкой): https://www.databricks.com/blog/introducing-apache-spark-40
А кто-то живет еще на втором спарке?
3 347
Аналитика по сторис
Потратила час-два, но собрала аналитику по сторис, которые я выкладываю😁
Погуглила апишку тг, погулила либу telethon, подняла постгрю в докере, создала две таблички с просмотрами и с пользователями, вызвала метод GetStoryViewsListRequest и собрала оттуда нужную инфу
Покрутила эти таблички в базе, и вот какие выводы я для себя сделала:
⏺️есть мои контакты, у которых я не в контактах - грустно(
⏺️есть интересные флаги "bot", "scam", "fake" - у меня все false (либо они коряво определяются)
⏺️некоторые люди смотрят сторисы спустя год с лишним(!) - вот это шок 😮😮
⏺️собрала топ стату по просмотрам
⏺️чекнула по data quality, что поле count == views_count == кол-ву пользователей в списке == кол-ву просмотров в списке - все норм)
Пользовалась этой докой, но она супер кривая, даже непонятно, что значат некоторые поля
3 347
+4
Найден годный конспект по LLM на русском языке
Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:
– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.
Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.
Забрать полную pdf-версию абсолютно бесплатно можно здесь
3 347
Найдите 10 отличий 🐱🥹
У меня было на слуху слово "atlas" в мире дата технологий, но на днях я поняла, что их несколько:
🟠Есть Apache Atlas - это дата каталог, чтобы управлять метаданными, бизнес-сущностями, смотреть происхождение таблички/поля и т.д.
https://atlas.apache.org/
https://github.com/apache/atlas
🟢Есть просто Atlas - тулза для миграции схем данных
https://atlasgo.io/docs
https://github.com/ariga/atlas
🔵А потом я наткнулась на Atlan - это тоже дата каталог, но уже платный
https://atlan.com/
Есть еще какие-то слова, которые обозначают совершенно разные технологии?
3 347
+2
Committers in Spark
В спарке есть такая штука, как коммиттеры. Они нужны, чтобы пользователи видели только успешные финальные результаты. Их несколько:
✨ File Output Committer
v1
"spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version" = 1
Сначала все файлы пишутся во временные папки в attempt/, потом перекладываются (по сути rename) в task/ и в самом конце в корень вашей папки. Тут упор на надежность: если что-то упало, то оно перезапустится и не попадет в конечную папку, пока не отработает
v2
"spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version" = 2
Здесь файлы пишутся в attempt/, а потом сразу перемещаются в корень вашей папки. Тут упор на производительность: нет дополнительного шага, но если что-то пойдет не так, то останутся куски файлов
✨ S3A Committers
Для работы с s3 есть magic и staging. Предыдущие не подходят, т.к. переименование реализовано как копирование и удаление. И если файлов много, то это очень долгая операция
magic
"spark.hadoop.fs.s3a.committer.name" = "magic"
"spark.hadoop.fs.s3a.committer.magic.enabled" = "true"
Файлы пишутся сразу в корень, но облако должно быть консистентным. Появился в конце 2021
staging
С ним я не игралась, но суть в том, что сами файлы пишутся в стейджинг на hdfs (отсюда и название), а потом грузятся в s3
_SUCCESS
Возможно, вы когда-нибудь заглядывали в файл _SUCCESS. Если писать алгоритмами v1/v2, то он будет пустым. А вот пример с magic:
{
"name" : "org.apache.hadoor.fs.3a.commit. files.SuccessData/1",
"timestamp" : 1744183768995,
"date" : "Wed Apr 09 10:29:28 MSK 2025",
"committer" : "magic",
"description" : "Task committer attempt_202504091019345870801396712503545_6660_m_1000000_0",
"metrics" : {
"stream_write_block_uploads" : 0,
"files_created" : 1,
"stream_closed" : 200,
...3 347
Как Яндекс кошмарит аналитиков на собесах ❤️
Успешно пройти секцию по профильным хардам, но смачно опозориться на логической задаче с часами? В этом вся суть интервью в Яндексе 😆
Автор этой истории недавно побывал на собесе в Яндексе и рассказал всю правду о клоунаде, которая там происходила. Готовьте попкорн!
V{IT}A Заебумба | Путь корпората — топовый канал про IT, сферу найма, трешовые собесы и работу в корпорациях. Просто кладезь кулстори не только от автора, но и от подписчиков
Атмосфера 12/10: авторская подача, юмор и угарные комменты от аудитории, состоящей из бизнес, системных, дата аналитиков и других айтишников
🔥Истории, которые уже успели стать бестселлером:
🟡Поймала дешёвок за руку на собесе в Ягодках 🛍
🟡Я стала эйчаром и вот что выяснила. Правда о ситуации на рынке IT
🟡Интервьюеры на собесе в табачную компанию сказали сесть спиной к монитору
🟡Турнули с испытательного срока
Но тут не только про веселье и треш. Подписывайтесь, если хотите:
🟢Узнать лайфхаки продающего резюме
🟢Быть в курсе актуальной ситуации на рынке
🟢Обойти 90% кандидатов
🟢Не продешевить на собесе и выгодно себя продать
➡️ @vitazaebymba
3 347
Aha!25 — теперь два дня!
29 и 30 мая в Москве пройдет Aha!25 — техническая конференция о product science, продуктовой аналитике и эффективности бизнеса. В этом году программа впервые расширяется до двух дней: 16 тематических потоков и более 1200 участников на одной площадке
На сцене — топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других крупнейших компаний Рунета и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также профессора и кандидаты наук из ИТМО, РЭШ, Центрального университета
Ключевые темы:
🤩Интеграция LLM, ML и AI в цифровые сервисы
🤩Современные подходы к A/B-тестированию
🤩Оцифровка пользовательского опыта
🤩Применение машинного обучения в управлении продуктом
🤩Математическое мышление и поведенческая экономика
Приглашают продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1)
Программа: http://ahaconf.ru/program
С моим персональным промокодом будет скидочка 10% 🤩
Скопировать можно тут:
DATAENGINEERETTE10Билеты — на сайте!
3 347
CustDev
В моей голове не укладывалось, что это такое, пока я не попробовала на себе. Сначала я не хотела идти, но когда позвали персонально, то почему бы и не пойти на что-то новое)
Кастдев - это по сути встреча, где вы выступаете пользователем продуктов, а другая сторона - разработчиком собственного продукта. Меня поспрашивали про:
🤩мои боли
🤩что мне неудобно в функционале
🤩что мне хотелось бы видеть
🤩как часто я пользуюсь тем или иным приложением
🤩какие задачи я решаю с их использованием
🤩что мне хотелось бы автоматизировать
🤩трудности, если бы я была новым коллегой
🤩и т.д.
Возможно, это был бонус, но мне даже показали UI и что там уже можно поделать
Такое проводится с большим количеством людей, чтобы собрать мнения и потом создать ультра-мега-супер-классный продукт, который понравится всем (в идеале)
Встреча была интересной, я постаралась выжать из себя идеи, но как будто это не мой формат 😅 К сожалению, меня ничего не бесит и не раздражает в этой жизни))
Следующий шаг - осознать, что каждый день на работе делает DevRel…
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
