en
Feedback
Инжиниринг Данных

Инжиниринг Данных

Open in Telegram

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Show more

📈 Analytical overview of Telegram channel Инжиниринг Данных

Channel Инжиниринг Данных (@rockyourdata) in the Russian language segment is an active participant. Currently, the community unites 23 882 subscribers, ranking 5 636 in the Technologies & Applications category and 27 917 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 23 882 subscribers.

According to the latest data from 01 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -22 over the last 30 days and by -4 over the last 24 hours, overall reach remains high.

  • Verification status: Not verified
  • Engagement rate (ER): The average audience engagement rate is 23.98%. Within the first 24 hours after publication, content typically collects 12.83% reactions from the total number of subscribers.
  • Post reach: On average, each post receives 5 726 views. Within the first day, a publication typically gains 3 064 views.
  • Reactions and interaction: The audience actively supports content: the average number of reactions per post is 40.
  • Thematic interests: Content is focused on key topics such as claude, postgres, databricks, aws, sql.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9...

Thanks to the high frequency of updates (latest data received on 02 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

23 882
Subscribers
-424 hours
+97 days
-2230 days
Posts Archive
После уровня Senior перед многими Data Science-инженерами встает непростой выбор. В выпуске с AvitoTech обсуждаем карьерные т
После уровня Senior перед многими Data Science-инженерами встает непростой выбор. В выпуске с AvitoTech обсуждаем карьерные треки в Data Science и честно говорим о том, что стоит за каждым из них. ✅ Как расти после Senior. ✅ Какие ожидания от инженеров высоких грейдов. ✅ Почему некоторые уходят в менеджмент, а затем возвращаются в IC трек. ✅ Какие возможности открывает экспертный путь. Смотрите выпуск на YouTube и VK Видео. Сейчас в Авито проходит Fast Track, проект в рамках которого можно получить оффер на Senior DS по ускоренному пути отбора.

Всем привет, можно в Лондоне встретится числа 8го Июля на data&drinks и обсудить UK зарплаты и компании:) Есть желающие? Груп
Всем привет, можно в Лондоне встретится числа 8го Июля на data&drinks и обсудить UK зарплаты и компании:) Есть желающие? Группа https://t.me/+WGGCmqx-0dxmNjU5

Что мощнее — S3 или локальные диски? Разбираем сценарии использования S3-хранилища в связке с Postgres Pro На вебинаре узнает
Что мощнее — S3 или локальные диски? Разбираем сценарии использования S3-хранилища в связке с Postgres Pro На вебинаре узнаете о лучших практиках эксплуатации в продакшн-средах. Эксперты Selectel и Postgres Pro разберут все: от резервного копирования через pg_probackup и S3 Selectel до хранения паркетных данных с Postgres Pro AXE и результатов TPC-тестов. Особенно интересно будет архитекторам, техлидам и всем, кто отвечает за надежность и экономику хранения данных. 📍 Онлайн ⏰ 25 июня в 12:00 Регистрируйтесь ➡️ https://slc.tl/q0hcj Больше мероприятий для ИТ-специалистов в канале @selectel_events. Подписывайтесь! Реклама. АО "Селектел". erid:2W5zFJujdLu

Мы начали вебинар про DataForge! Приходите! Ссылка для подключения: https://us06web.zoom.us/j/81983883522?pwd=Gknc5FzYuaDOfjwo4mxzhjbEJ5LqFW.1 Идентификатор конференции: 819 8388 3522 Код доступа: 640329

Я буду проводить вебинар, посмотрим, что там за DataForge и как дела у Сергея Громова☕️

⚡️ Снова #вебинар Когда: 1 июля в 9:00 (Мск) Тема: DataForge: наводим порядок в данных с единым семантическим слоем – для пол
⚡️ Снова #вебинар Когда: 1 июля в 9:00 (Мск) Тема: DataForge: наводим порядок в данных с единым семантическим слоем – для пользователей и ИИ-агентов 📌 На вебинаре коллеги представят DataForge – self-service-платформу полного цикла: от бизнес-требований через реестр показателей до генерации DDL и автоматического построения витрин в DWH. Покажут, как в платформе устроен семантический слой – единая точка истины для всех подключенных систем и ИИ-агентов, которая снимает рутину и исключает разночтения на всех этапах. Встречаемся в Zoom! ➡️ Регистрация по ссылке Спикеры: технический директор и владелец продукта. В числе приглашенных экспертов – Сергей Громов, CEO BI Consult. #Вебинар #datalearn

Не все BI компании одинаковые, как и orchestration компании (например Astronomer). BI вендор Domo, тоже попал в новости:
Компания была основана Джошем Джеймсом, вышла на IPO в 2018 году, а к 2021-му достигла пика оценки в $2,8 млрд (акции торговались по ~$97). Сегодня рыночная капитализация составляет лишь около $133 млн — падение более чем в 20 раз. Крах объясняется сразу несколькими факторами: уходы топ-менеджеров, давление со стороны ИИ-конкурентов, и личные скандалы основателя. В 2022 году Джеймс покинул пост CEO после обвинений в сексуальном насилии (уголовных обвинений предъявлено не было), но уже в 2023-м вернулся. В августе 2024-го его арестовали за вождение в нетрезвом виде — видео с нагрудной камеры полицейского попало в прессу. В декабре 2025 года Domo официально сообщила, что Джеймс «сокращает обязанности ради здоровья» и проходит стационарное лечение от алкогольной зависимости.
Зато все знают Astronomer и Domo. Мне кажется был бы отличный PR ход для отечественного вендора, который хочет выйти на западный рынок. Уже есть готовый playbook, бери и делай📈

Досмотрел Плата за Риск. Очень зашло, команда plata сделало не реальное и теперь лучший банк будет в Мексике. Очень много в видео откликается про иммиграцию, про карьеру, цели, амбиции и много другое.

Выбрал самую топовую комплектацию, дата доставки середина августа🫪 Надеюсь excel больше не будет тормозить.
Выбрал самую топовую комплектацию, дата доставки середина августа🫪 Надеюсь excel больше не будет тормозить.

OMNI BI напоминает Looker — там тоже свой синтаксис, прямо как LookML. Но у них есть интеграция с dbt, и он автоматически пон
OMNI BI напоминает Looker — там тоже свой синтаксис, прямо как LookML. Но у них есть интеграция с dbt, и он автоматически понимает все трансформации и использует dbt как источник для семантического слоя. Также сразу у вас есть доступ к моделям Claude, но за токены вы платите сами. Насколько я понимаю, они используют AWS Bedrock как gateway. Таким образом, вам не спрятаться от AI и перерасхода токенов. Но бизнес-пользователи прям кайфуют — наконец-то можно общаться с вашим дашбордом на равных! Прошло 7+ лет с момента, когда Tableau сделал анонс про Ask Data — тогда они купили ClearGraph. На картинке слайд про токены, а мы и не знали, что там ещё какие-то квоты 😄 Теперь у меня MCP для Snowflake, dbt, Omni - и все само работает 🛌, что дает время на всякие другие дела🛰🛰

На 1й картинке пост про SpaceX IPO = спам для розничных инвесторов как мы, и упоминание про AI IPO. Хотя через 2-3 года цена
+1
На 1й картинке пост про SpaceX IPO = спам для розничных инвесторов как мы, и упоминание про AI IPO. Хотя через 2-3 года цена акции удвоятся. Самый крутые акции оказались это MU, Sandisk, Samsung, ASML - те, кто продают лопаты для наших инновационных идей. На второй картинке моя инвестиция в SpaceX. По классике я купил на хаях. Но я больше хотел протестировать корпоративное инвестирование, это примерно как если бы у вас было ООО и доход корпорации за вычетом 10% налогов вы бы инвестировали. В Северной Америке очень удобный механизм. И если вы теряете деньги = налоговый вычет, зарабатываете = платите доп налог, когда выводите. А спустя какое-то время, когда вашим детям 13+ начинаете платить зарплату из доходов корпорации. И это только вершина айсберга. В США намного больше возможностей с корпорацией, чем в Канаде, но это не сравнить с обычной зарплатой и налогами. Планирую написать пост в Surfalytics про налоги, оптимизацию, корпорации и тп.

Meta уволила половину команды безопасности, перевела инженеров на разметку данных, и получила крупнейший взлом в своей истори
Meta уволила половину команды безопасности, перевела инженеров на разметку данных, и получила крупнейший взлом в своей истории. Решение руководства? Больше снеков в офисе.

В одной компании VP Engineering поделился документом «Как работать со мной». Делюсь ключевыми тезисами и своими мыслями. 🎯 Р
В одной компании VP Engineering поделился документом «Как работать со мной». Делюсь ключевыми тезисами и своими мыслями.
🎯 Роль лидера — не контролировать, а разблокировать Его приоритеты: дать тебе возможность работать, помочь с аналитикой и поддержать твой карьерный рост. Он заходит в проект на старте, но как только видит, что ты взял ownership — отступает. Если начинает микроменеджить — ему можно прямо написать в Slack: «Слушай, я справлюсь, не нужно». И это будет воспринято нормально. 📡 Никаких сюрпризов — ни вверх, ни вниз Главный принцип: держи в курсе. Не нужно писать эссе — достаточно короткого сообщения в Slack. Но он никогда не должен узнавать о проблемах или рисках последним. Это работает в обе стороны. ✍️ Коммуникация: сначала письменно, потом голосом Формат по умолчанию — краткие буллеты. Полные предложения не нужны. Если переписка становится запутанной — переходим в Slack huddle. Любой апдейт строится по схеме: что случилось → почему это важно → что делаем дальше. 📋 Еженедельные рефлексии — обязательно Каждую неделю — короткий документ: достижения, проблемы, вызовы, кого хочется отметить. Не более 15 минут. Можно использовать AI. Зачем это нужно? Это конкретные доказательства твоей работы — для промоушена, для компенсации, для защиты в случае сокращений. 🧠 Для директоров и senior-менеджеров — отдельная планка Приходи с проблемой — приноси и решение. Хотя бы черновое. Просто «пожаловаться» — это не лидерство. Принимай решения самостоятельно там, где у тебя есть контекст и полномочия. Эскалируй осознанно — только если исчерпал варианты и у тебя есть рекомендация. Мне нравится такой подход: всё явно, без угадывания ожиданий.
Но в целом это не помогло компании, за несколько месяцев акции упали в 5 раз и дальше падают. Не все выживают в AI гонке. На ближайшей встрече будем обсуждать как мигрировать 4 инстанса AWS Airflow на один GCP Composer.

Циклы позволяет агентам работать автономно. Я пока еще не использовал, но пора уже. Видео про циклы: https://youtu.be/F4a8aMLb678?si=poI883i6sIutHQso Используете?

🔥 Разобрали AWS-стек от и до — 2,5 часа живого кодинга Видео 👉 https://youtu.be/nWn_hDuL4jc Провели мощную сессию по AWS Glue, MWAA Airflow, dbt Core и Iceberg Lakehouse. Всё строилось с нуля через CloudFormation с AI-агентом (Claude в Cursor) — отличный пример того, как выглядит AI-assisted инфраструктура на практике. ⚙️ Glue & Spark • Glue Data Catalog — управляемый Hive-style метастор; краулеры автоматически обнаруживают схемы в S3 • Типы Glue-джобов: визуальный редактор, ноутбуки, Python Shell и PySpark-скрипты • GlueContext vs SparkContext и DynamicFrame vs DataFrame — и почему большинство команд остаётся на чистом Spark • Подбор размера кластера, query plans и Spark UI — та же логика применима к Snowflake-вархаусам • coalesce vs repartition — управление количеством и размером выходных файлов в распределённых вычислениях • Код Glue-джобов хранится как файлы в S3 — это открывает возможности для версионирования и release-стратегий • Glue Docker-образ для локального запуска и тестирования Spark-джобов в CI/CD 🏔️ Athena & Lakehouse • Amazon Athena — serverless SQL-движок на базе Presto/Trino; оплата за TB отсканированных данных + S3 • Partition projections vs Hive-style partition metadata; обработка JSON SerDe • dbt + Apache Iceberg lakehouse через dbt-athena-community (Docker-образ на ECR) • Внутренности Iceberg: папки data и metadata, manifest-файлы, manifest lists и снапшоты • Один dbt-проект, нацеленный одновременно на Athena, Redshift и Snowflake 🔄 Оркестрация & MWAA • Managed Airflow (MWAA): синхронизация DAG'ов через S3, интеграция с Secrets Manager и CloudWatch • Почему MWAA — это НЕ serverless: VPC, биллинг 24/7 и когда локальный Airflow выгоднее • Как хостить dbt с Airflow: DAG'и в S3 vs запуск dbt в контейнере на ECS/Batch • EcsRunTaskOperator — стандартный production-паттерн для связки dbt + Airflow • Добавили Airflow MCP-сервер, чтобы AI-агент мог инспектировать и триггерить DAG'и 💡 Главный вывод: AI строит инфраструктуру быстро — но именно понимание сервисов, трейдоффов и стоимости отличает инженера, который шипит проекты, от того, кто просто копирует код. Код здесь 👉 https://github.com/surfalytics/data-ingestion-github-to-snowflake/pull/1

Repost from N/a
Уважаемые коллеги, я понимаю, что сейчас не до постов про аналитику и ai-агентов, так как за окном лето, отдых и думскроллинг
Уважаемые коллеги, я понимаю, что сейчас не до постов про аналитику и ai-агентов, так как за окном лето, отдых и думскроллинг, но у меня есть важная тема, которую нам стоит обсудить! Так, ну и что там такого важного? Ну, вы задумывались, какие навыки и задачи в вашей корпоративной роли аналитика станут дороже, а какие обесценятся с постепенным переходом на агентские фреймворки? Тут об этом целая статья хайпится Some Simple Economics of AGI, и я бы хотел разобрать график оттуда По горизонтали отложена стоимость автоматизации задачи (c_A), по вертикали стоимость проверки результата задачи человеком (c_H). Две пунктирные линии режут картинку на четыре части, горизонтальная это бюджет на проверку (B), вертикальная это зарплата (w), ниже которой держать работягу на задаче дороже, чем ее автоматизировать (логично) Итого имеем 4 квадранта Q1 (нижний левый) — автоматизация дешёвая, проверка дешёвая. Сюда падают всякие дашборды, регулярные выгрузки, базовые ETL, расчёт A/B через готовый калькулятор (когда дизайн уже задан), ad-hoc запросы под звонок. В расчётах авторов в этом квадранте лежит s_v ≈ 0.59 всей работы (s_v это доля задач, у которых обе стоимости дешёвые одновременно), и именно эту долю агенты автоматизируют первой Q2 (верхний левый) — автоматизация дешёвая, проверка дорогая. В этот скоуп задач можно отнести оценки causal effect, дизайн рекомендательных систем, агентные пайплайны принятия решений, долгосрочные A/B с метрикой через квартал (изменение subscription pricing, retention 12M, ранкер ленты), оценка incrementality от brand-маркетинга Формула c_H = w · t_fb / S_nm объясняет, почему здесь бывает жить: t_fb — сколько надо ждать результата, w зарплата эксперта, который проверяет, S_nm запас экспертизы в экономике. Длинный лаг умножается на дорогого эксперта, а делится на тающий запас экспертов. В пределе проверять некому, агенты летают без надзора Q3 (нижний правый) — автоматизация дорогая, проверка дешёвая. Качественный user research и интервью с пользователями, ручной разбор отзывов и NPS с пониманием контекста, конкурентный анализ, подготовка слайдов для C-level с правильным месседжингом, разметка эджевых кейсов в данных. Зона временно живая, пока стрелка K_C на графике (рост компьюта) не сдвинет её содержимое влево, в Q1, и LLM в разбор отзывов и в классификацию уже зашли Q4 (верхний правый) — автоматизация дорогая, проверка дорогая. Дизайн самой системы измерения продукта, то есть что считать North Star, перевод мутного запроса от CEO «надо увеличить engagement» в конкретные гипотезы и план измерений, дизайн экспериментальной программы на год с выбором guardrail-метрик, стратегические решения о приоритизации продуктовых направлений на данных плюс контексте, который нигде не записан Погоди, а в чем тут новость? С джунами также ведь! Это база! В целом я тоже так думал — замените агентов на джунов и суть же не изменится: джун делает Q1, мидл Q2, сеньор Q4, это карьерная лестница из любого учебника, какая там новизна вообще? Но есть три места, где аналогия агенты = джуны ломается, и из-за них статью, собственно, и написали: 1️⃣Verification не масштабируется, а execution масштабируется Один сеньор мог проверять пару джунов в день, и количество джунов было ограничено физикой найма. Сегодня сеньор должен проверять выход агента, который генерирует в тысячи раз больше за тот же час. Execution капасити экспоненциальная, verify капасити линейная, упирается в одного человека. С джунами этой асимметрии не было, потому что джун тоже ограничен временем 2️⃣Codifier's curse С джунами было так: сеньор обучает джуна, наращивает свой статус (становится ментором), джун через 5 лет становится мидлом, рынок экспертизы расширяется. С агентами: сеньор обучает модель, перекладывает свою интуицию в обучающие данные, и его собственная ценность падает. Аналога в карьерной лестнице нет, механизм работает в обратную сторону

Сейчас самый большой hype это дата центра и AI в космосе. Bloomberg выпустил небольшое видео https://youtu.be/cNI4N3-FcEI?si=JFuu3XZSf2eIbbfv Все относятся к этой идеи очень скептически, но с другой стороны, все новые идеи проходят такой путь, поэтому утверждать, что этого никогда не будет мы не можем. Зато, если будет, то будут уже космические дата инженеры:)

Сегодня попробовал Omni. Подключил его к Snowflake и dbt. Напомнил Looker с LookML, но удобней, что он сразу умеет читать из
Сегодня попробовал Omni. Подключил его к Snowflake и dbt. Напомнил Looker с LookML, но удобней, что он сразу умеет читать из dbt моделей и более удобно интегрируется с git. Короткое демо https://youtu.be/9GduXHYYGbU?si=FcmQdlnoj36xbhdN

Spark Connect для ИТ-команд: упрощаем разработку и работу с данными 😎 Многие компании уже используют Apache Spark для обрабо
Spark Connect для ИТ-команд: упрощаем разработку и работу с данными 😎
Многие компании уже используют Apache Spark для обработки и трансформации данных, но часто только в привычных сценариях. Spark остаётся инструментом исключительно для Spark‑разработчиков: сложный стек и высокий порог входа мешают вовлекать в работу другие команды. В результате потенциал платформы используется лишь частично.
На вебинаре 23 июня эксперты Cloud.ru покажут, как с помощью Spark Connect и сервиса Evolution Managed Spark сделать взаимодействие со Spark удобным для разных ролей. В программе:
▶️
Интерактивная разработка со Spark через локальную IDE и Spark Connect;
▶️
Анализ и визуализация данных в Jupyter Notebooks;
▶️
Построение ETL‑процессов в dbt на чистом SQL;
▶️
Сценарии использования Spark для разработчиков, аналитиков и специалистов Data Lakehouse;
▶️
Возможности Evolution Managed Spark для интерактивной работы с данными.
➡️ Бонус: практическая часть с демонстрацией сценариев интерактивной работы с Apache Spark 👉 Зарегистрироваться 👈