Я – Дата Инженер | Евгений Виндюков

رفتن به کانال در Telegram

💵 Как стать Data Engineer 🗄 Смотри Roadmap в закрепе! _____________________________ Автор @halltape Все вопросы по рекламе @k_shredinger

نمایش بیشتر

روسيا106 375 فناوری و برنامه‌ها18 032

5 516

مشترکین

+1124 ساعت

+437 روز

+14430 روز

2 592

نمایش های پست

~ 1 07524 ساعت

~ 1 34448 ساعت

46.99%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

5 516

Однажды в 1856 году я проходил собес на дата инженера в какой-то ноунейм банк и там меня спросил взрослый мужик. Кстати, он получается вообще видел динозавров, учитывая, что я тоже старый и уже пенсию получаю… так вот что спросил! - а почему вы закончили московский энергетический институт на инженера, но выбрали профессию айтишника? В тот момент я резко встал, у меня закружилась голова и я упал на пол. Но собеседование продолжалось. И меня в итоге взяли на работу. Ладно это шутка. Короче видос про то, что эволюция профессий неизбежна. Я вполне допускаю, что лет через пять один из навыков для разработчика, будет настройка AI агентов, а может и вовсе их оркестрация. Ну или в дворники пойдём, на свежем воздухе будем работать!

5 516

Repost from Инженерообязанный🫡 | Владимир Шустиков | Инженер Данных | Аналитик Данных

📸 Отзывы участников #BootCampDE — Март-Апрель 2026 Это уже не отзыв, это прям подскат😁 ________ Запись на 7 поток(Июль-Август) уже в самом разгаре! Записывайся @bootcampych_bot

5 516

Если зарубежный трафик станет платным, теперь придется платить за pip install pyspark ? Там так-то там 350Мб…

5 516

Кто хочет на картинг? Рассказываю.. вечерами мне часто нечего делать, а сидеть за компом и штудировать ВАШИ АЙСБЕРГИ, ТРИНЫ, ХАДУПЫ мне надоедает.. дайте нормальной жизнью пожить, а не вот это вот все! Я стал ходить на картинг с декабря. Сразу скажу, что это СОВСЕМ НЕ ТО, КАК ВЫ КАТАЛИСЬ В ДЕТСТВЕ. Тут нормально так можно нагрузить физуху, особенно если вам за 30)) Пока выиграл 2 гонки (1 и 2 места), стал ходить в секцию Картинга. Ну прям занимаюсь полтора часа — и кстати на довольно сложной трассе. ЧТО Я ПРЕДЛАГАЮ? Я создал чат. КТО ХОЧЕТ, заходите в группу, буду звать вас на заезды и потом на гонки. Все расскажу, всему научу.. Роадмапа не будет)) Буткемпа тоже. Возможно я слишком социальный и мне хочется общения с людьми.. либо в прошлой жизни я был тренером и ведущим. https://t.me/+f7ifHxU9O-5iOTky И это, необязательно быть айтишником.. если кто из знакомых хочет — го присоединяйтесь!

5 516

— Почему, мистер Андерсон, почему? Во имя чего? Что вы делаете? Зачем, зачем встаете? Зачем продолжаете драться? Неужели вы верите в какую-то миссию, или вам просто страшно погибать? Так в чем же миссия, может быть, вы откроете? Это свобода, правда, может быть, мир, или вы боретесь за любовь? Иллюзии, мистер Андерсон, причуды восприятия. Хрупкие логические теории слабого человека, который отчаянно пытается оправдать свое существование — бесцельное и бессмысленное! Но они, мистер Андерсон, как и Матрица, столь же искусственны. Только человек может выдумать скучное и безжизненное понятие — «BootCamp»! Вам пора это увидеть, мистер Андерсон, увидеть и понять! Вы не можете победить, продолжать борьбу бессмысленно. Почему, мистер Андерсон, почему вы упорствуете?

— Потому что это мой выбор.

@bootcampych_bot

5 516

Repost from Инженерообязанный🫡 | Владимир Шустиков | Инженер Данных | Аналитик Данных

🚀ШЕСТОЙ ПОТОК СТАРТУЕТ УЖЕ НА ЭТОЙ НЕДЕЛЕ 🚀 Уже 2 мая пройдёт первое занятие шестого потока буткемпа! В этот поток мы добавили материалы по Trino и Iceberg — уже полностью готовы и теория, и практика. Переработали формулировки домашних заданий и добавили несколько вариантов финальных проектов. Залететь на поток можно тут 👉 @bootcampych_bot P.S. С каждым потоком мы всё сильнее прокачиваем инфраструктуру буткемпа. Уже развернуты Kafka, Flink и Spark Streaming, а это значит, что в следующих потоках, помимо batch, появится и стриминг. Но не стоит откладывать покупку на потом, все лекции последующих потоков, так же будут доступны! Так что впереди, каждого потока, вас ждут 2 месяца настоящего АДА!👨‍💻

5 516

Когда нейронка наконец-то начала говорить на понятном тебе языке…

5 516

Запись стрима про МАЙСКИЙ поток BootCamp для Дата Инженера! ▶️ Смотреть на Youtube https://youtu.be/eW9uMMdrPBU Мы уже набираем поток на МАЙ! Записаться и попасть на поток можно тут - @bootcampych_bot

5 516

Iceberg для БАБУШЕК! Очень коротко и прямо, чтобы даже ваш сосед-алкаш понял. Айсберг это надстройка над S3 хранилищем. Само S3 считайте это как Яндекс Диск, куда мы складываем файлики и папочки. Можно зайти и посмотреть, что у нас там хранится. Например когда мы записываем данные в S3, то это просто создается папочка и туда складываются CSV, Parquet и так далее. А когда мы настроим над S3 еще и Iceberg, то у нас создается папки data и metadata. В папку data складываются сами данные. В папку metadata складываются файлики с метаинформацией. Что за метаинформация? Там есть три вида файликов: один .json и два файлика .avro. Они просто описывают, из чего состоит наша таблица (схема, снепшоты, изменения и так далее). По факту, когда мы записываем все новые данные в таблицу, то в папке metadata постоянно создаются новые файлики меты. Т.е. буквально "чихнули в таблицу — получили три файлика". Зачем так много файликов? Фишка айсберга в том, что он записывает себе в метаданные вообще все изменения. Записали данные, удалили, изменили — все это он знает. Поэтому мы можем в любой момент откатиться на предыдущую версию таблицы или вообще на любую другую, которая когда-либо была. Это буквально путешествие во времени. Ну например вы что-то не то удалили из таблицы.. Можно откатиться. А что еще? Как вы знаете, если просто записывать в голый S3 паркеты, то операции DELETE или UPDATE там не работают. Либо ты перезаписываешь целый файл, либо придумывай что-то другое. А в айсберге можно писать, как в SQL методы UPDATE и DELETE. Ведь, как я сказал, он запоминает любой чих и вздох и просто делает у себя пометочки, что такие-то строчки были удалены и изменены. Какие есть проблемы? Ну раз он такой крутой и класный, то есть и нюансы. Например если мы часто делаем вставки, обновления и удаления из таблицы, то копится много метаинформации + при удалении у нас добавляются, так называемые, "delete файлики". Они там используются, чтобы при чтении данных вычеркивать те строки, которые мы когда-то удалили. И В ЧЕМ ПРОБЛЕМА? (на самом деле там есть два вида хранения CopyOnWrite и MergeOnRead — это для душнил) Короче проблема в том, что копится реально куча мелких файликов. Это все потом влияет на скорость чтения. Поэтому в айсберге придумали всякие фишки, которые позволяют удалять и компактить файлы с данными и метой. Главное про это не забывать! Что еще? В айсберге можно, как в гитхабе создавать ветки. Т.е. буквально ветка main это ваша главная версия таблицы. А можно создать ветку рядом и работать с таблицей, как угодно ее менять и это никак не будет аффектить на главную ветку. Ну и дальше по аналогии с гитом. Конечно есть еще больше функционала, но он уже слишком для этого поста. ——— Мы в Bootcamp уже настроили Iceberg в S3 и даже есть ГОТОВЫЙ Jupyter Notebook, чтобы протестировать! Записаться и попасть уже в чат можно тут - @bootcampych_bot

5 516

СТРИМ СТАРТАНУЛ https://telemost.yandex.ru/live/cd52580c7a3b48168c2053300761c783 ЗАХОДИМ

5 516

Есть идея провести стрим в 19 апреля ВС в 20:00 МСК! - Покажем новые идеи и стек на BootCamp - Ответим на ваши вопросы - Поговорим про технологии и рынок Расскажем, наши впечатление про Iceberg и Trino.. Они уже доступны в буткемпе кстати. Вообще есть тенденция компаний на переход в LakeHouse, поэтому лучше сейчас эти инструменты освоить, чтобы потом не догонять. Мне кажется, что в итоге мы все придем к этому: Clickhouse, Trino, S3, Spark, Polars, Iceberg, dbt, Airflow - и это все на кубере ———— Кстати 🔴 Мы уже набираем поток на МАЙ! Записаться и попасть уже в чат можно тут - @bootcampych_bot

5 516

Repost from Инженерообязанный🫡 | Владимир Шустиков | Инженер Данных | Аналитик Данных

📸 Отзывы участников #BootCampDE — Январь-Февраль 2026 Я пришла на Bootcamp с базовыми знаниями SQL и Python, лайфкодила + применяла их для выполенения и облегчения своих рабочих задач, после чего поняла, что данные – это то, с чем я хочу связать свою жизнь. Для меня самым тяжёлым стала моральная подготовка к буткемпу, чтобы впитывать знания целиком и полностью. Мне пришлось отказаться от TikTok, мемов, просмотра сериалов и т.д., чтобы не забивать мозг. И это того стоило! У ребят курс построен поэтапно — шаг за шагом ты поглощаешь порцию новых знаний. В моменте кажется, что ничего непонятно, но как только начинаешь практиковаться, тыкаешь, выполняешь домашку — всё встаёт на свои места. Все уроки шли до победного, до последнего вопроса. (Было занятие, которое шло с 8 вечера и до 12 часов ночи, ибо вопросы не ждут). Ну а вишенка на торте — мок-собесы, где тебя готовят к суровой реальности рынка. Женя с Вовой всегда на связи по любому вопросу, и это ФАКТ, который перетекает из каждого отзыва в отзыв🤗 Особую благодарность хочу выразить комьюнити: именно благодаря ребятам и чатам я так быстро смогла грейдануться. Сначала было страшно писать и задавать вопросы на созвонах, но спустя пару месяцев дружелюбная атмосфера полностью снимает страх — вы уже чувствуете себя как дома. Когда буткемп закончился, я немного растерялась и не знала, как двигаться дальше, но ребята пригласили всех в чат выпускников, и он всегда рядом(в закрепе), чтобы поддержать, дать ответы на любые вопросы, и сама теперь не стесняюсь их задавать! _____________________________ 📝 От команды 📝 Анастасия — пример самой скромности, пока не подтолкнёшь, сама вопрос не задаст😂 В самом начале пути была тише воды, ниже травы — и это, кстати, абсолютно нормально, таких ребят на старте много. Но у Насти был огромный плюс: она не пропускала созвоны и всегда досиживала до конца, даже когда было сложно и казалось, что ничего непонятно. И вот – в какой-то момент случился перелом — начала задавать вопросы, включаться, копать глубже… и дальше уже было не остановить🤢 Отдельно хотим отметить её дисциплину. Отказаться от отвлекающих вещей, сфокусироваться на обучении и довести это до результата — это дорогого стоит. Именно такие решения и приводят к реальным изменениям в жизни. Мы безумно рады, что в итоге всё сложилось: оффер найден, направление выбрано, и теперь Настя будет заниматься тем, к чему действительно лежит душа, с достаточно большим багажом знаний и умений за плечами! Гордимся тобой! И спасибо за доверие ☺️ Поздравляем с очередным оффером! 🚀 _________________ До начала следующего потока осталось совсем чуть-чуть, поторопись – @bootcampych_bot

5 516

Trino и Iceberg теперь есть на Bootcamp! Сейчас многие смотрят в сторону этого стека, да и в целом переходят на него. Поэтому мы тоже не стоим на месте. Что уже есть? Трино в режиме 1 координатор и 2 воркера. Также доступен Trino UI. Ну про Iceberg че говорить.. Думаю все и так знают. Короче современный LAKEHOUSE. По факту сейчас еще додумаем интересные pipeline к этому стеку и в майском потоке точно будет обновление! Есть даже идея выбора pipeline! Например можно выбрать стрим LakeHouse Trino + s3 Iceberg + CH Либо взять ближе к DWH, когда есть Spark - Greenplum (DBT) - CH Или пойти в сторону Data Lake Spark - S3 - CH При этом у нас также остается Kafka - Debezium. И вполне вероятно может появиться Flink. Точнее я уже его добавил)) И на каждый pipeline может быть своя логика сбора и обработки данных. На рынке стек в командах так быстро не меняется, поэтому разобравшись и познакомившись со всем этими инструментами будете намного увереннее себя чувствовать. 🔴 Мы уже набираем поток на МАЙ! Записаться и попасть уже в чат можно тут - @bootcampych_bot Пишите смело, мы по ту сторону бота сидим, если что! P.S. Примеры пайплайнов чисто формальные.. безусловно, там еще Airflow, Github, где-то PostgreSQL, где-то API, иногда S3 для метаданных может использоваться. Главное, чтобы вы поняли, что это мощнейщая и крутая шутковина!

5 516

Самая быстрая сортировка EVER!

5 516

Ребят, вопрос! У кого-то легли телеграм боты, сервисы, связанные с телеграмом? Может у кого-то на Timeweb или Selectel что-то крутилось?

5 516

ТРИНАААА! Начал читать про Trino. У меня в голове были несостыковки, типа зачем еще один очередной инструмент в этом Дата Инжиниринге? АСТАНАВИТЕСЬ! Рассказываю на пальцах и только самое основное. Вот есть Spark. С ним мы можем подключиться к PG, CH, S3, GP и другим хранилкам данных. Пишем там df_pg = spark.read.format("jdbc") Потом отдельно df_ch = spark.read.format("jdbc") Короче говоря, каждый раз надо подключаться и читать отдельно каждую таблицу. А я хочу просто написать ОДИН SQL запрос и сразу так:

SELECT u.name, o.order_id
FROM postgres.public.users u
JOIN clickhouse.sales.orders o
  ON u.id = o.user_id;

Чтобы в самом запросе у меня уже указывались разные БД и мне не надо было ничего отдельно читать. Так вот спарк так не умеет, А ТРИНО УМЕЕТ! Фишка Трино — это куча коннекторов. Т.е. установили Трино и дальше просто читаем из разных источников. Ничего больше делать не надо. Буквально вы в Dbeaver пишете запрос и все работает. ИЗИ. Кстати к Kafka тоже можно подключиться, но имейте в виду, что в Кафку данные постоянно добавляются и с каждым новым запросом, данные могут меняться. Короче говоря, супер для AD HOC аналитики! Называется все это ФЕДЕРАТИВНЫЕ ЗАПРОСЫ А что еще? Когда в спарке мы в лоб читаем данные через JDBC, то на все создается одно подключение и 1 партиция. А спарк же распределенный, у нас много executors, на которые надо раскидать данные. И поэтому нужно дописывать еще кода, который читает определенный столбец, создает несколько jdbc подключений и раскидывает все по executors. Короче тут без бутылки водки не разберешься В трино же просто пишешь один SQL запрос и он сам параллельно читает и раскидывает на свои воркеры. Никаких танцев с бубном. Кстати, внутри Трино и Спарк реально похожи. Такие же координаторы и и воркеры наряду с драйвером и executor. Какие еще фишки? Можно создать view и перенести часть вычислений на уровне БД. Например пишем запрос на Trino, но вся нагрузка идет сначала в PG. Типа необязательно тянуть к себе в память. Ну и по факту кол-во фишек еще больше, но думаю и так достаточно инфы. В чем минусы? В трино Нет стриминга, MLlib, как в спарке. Также нельзя контролировать кол-во создаваемых файлов, как в спарке через coalesce и repartition. Там есть некоторые общие настройки, которые позволяют компактить, но все же это не совсем то, как это делает спарк во время записи здесь и сейчас. Короче, Трино идеально подходит для ad hoc запросов. Возможно не всегда его стоит использовать для ETL, потому что нет такой гибкой настройки и контроля прямо, как в спарк. Хотя на мой взгляд, если данных меньше Тб, то почему бы не обойтись только им. Тем более на SQL умеет писать даже собака из соседнего подъезда. А на вашем спарк апи еще пойди найди человека.. P.S.Если есть замечания или еще чего-то знаете, делитесь.

5 516

🚀 Data Engineer за 2 месяца Не кликбейт. Мы реально сделали супер интенсив за 2 месяца в DE. Это буквально копия вашей будущей работы. Представьте, что вы приходите на новое место работы, и увольняющийся коллега передаёт вам дела. У него есть две недели, чтобы показать, что и как делать. Вы буквально впитываете всё как губка, потому что потом спрашивать будет не у кого. Так вот именно эту идею мы и вложили в Bootcamp! За короткое время вы погружаетесь в работу инженера данных, осваиваете современный стек и получаете навыки прохождения собеседований и составления резюме. Мы реально вычеркнули большую часть бесполезной теории. Упор исключительно на практику. Чтобы вы пришли на работу и сказали: "Мы это уже делали" Что внутри буткемпа Вы получаете доступ к инфраструктуре, максимально приближенной к продакшену: • Postgres • ClickHouse (распределённый, 2 шарда) • GreenPlum (8 сегментов) • Spark • S3 • AirFlow • Kafka • DBT • GitHub • Jira • Confluence Как часто занятия? • 3 раза в неделю (Живые лекции, на которых можно задать вопрос и сразу получить ответ) • Вечером (после работы) в 20:00 по МСК • Все лекции записываются и доступны навсегда Поддержка и практика • Чат с ответами почти 24/7 • Можно задать любой вопрос • Можно попросить задачу сложнее • Разбор ваших решений на созвонах Подготовка к работе • Mock собеседования • Прожарка резюме • Разбор реальных кейсов После буткемпа все выпускники приглашаются в чат, где мы делимся ситуацией на рынке, вопросами с собесов, а также поддерживаем друг друга! Кстати, мы добавили классную фишку — доступ к лекциям из новых потоков. Даже после окончания буткемпа вы остаетесь в обучении и можете следить за обновлениями. А если не успеваете? У нас есть InfraSharing. Это тот же самый буткемп, но без лекций. Просто готовая инфраструктура. Даже если не успеваете сделать все задачи в Bootcamp, можете продолжить в InfraSharing. Тем более для всех выпускников мы даем огромную скидку! Ближайший старт потока — 1 мая Переходите в наш бот @bootcampych_bot и жми Хочу на BootCamp

5 516

Когда идём? Я собрал прикольное приложение (как мне кажется). Заходишь в приложение, отмечаешь с друзьями дни, когда свободен, и видишь, когда все могут. Вот я хотел собрать друзей на картинг. И как же мне надоело у каждого спрашивать, в какой день он (она) может. Это какой-то ад. Все занятые бизнесмены, как и я. В понедельник не может — яхту покупает. В среду не может — Бентли забирает из салона. В итоге я взял вайбкодинг и собрал мини-апп. Все заходят по ссылке-приглашению и выбирают день, когда свободны. Приложение само определяет пересечения и показывает общий день. Авторизация через Телеграм, но в будущем можно сделать через что угодно. Через что сделал? Вайбкодинг на Codex от OpenAI + искал вдохновение на ReplitAI. Из приколюх: есть кнопка «Напомнить всем». Нажимаешь, и приложение всем присылает напоминалку о событии либо о том, что надо выбрать день. Версия альфа, поэтому, вероятно, найдёте бэкдоры, баги или ошибки. Предлагаю нам потестировать! Можете и свои встречи создавать! Вот, я создал встречу. Лимит на одну встречу максимум 15 человек. Заходите-пробуйте! Ссылка: https://t.me/kogda_idemBot/whenwego?startapp=inv_cec1017faec31467 Присоединяйтесь к встрече «Сходка Roadmappers». P.S. если найдете баги, ошибки или приложение упадет, пишите в лс. Разберемся.

5 516

📸 Отзывы участников #BootCampDE — Январь-Февраль 2026 Меня зовут Александр. Я обучался на 4-м потоке буткемпа. О буткемпе случайно узнал в январе 2026 года. В это время я искал новое место работы, так как попал под сокращение из-за урезания финансирования проекта со стороны заказчика. Я работал разработчиком SQL более 10 лет и задумался: стоит ли мне дальше искать работу в этом же направлении или пройти обучение и получить более востребованную на рынке специальность. Наткнувшись на сайт roadmappers.ru, я заинтересовался дата инженерией и посмотрел доступные на youtube видеоролики организаторов буткемпа. Идея пройти обучение в формате реального рабочего места мне показалась очень правильной, и я записался на курс. Во время обучения мне очень понравилась подача материала в формате видеозвонков, постановка задача в жире, подробная документация в конфлюенсе и конечно же возможность самому решать реальные задачи на базе развернутой инфраструктуры рабочего места. Организаторы буткемпа, Володя и Женя, всегда помогали, если были проблемы. Практически 24 часа в сутках были на связи и очень здорово мотивировали в учебе и дальнейшем поиске работы. В конце курса Володя с Женей помогли нам доработать и систематизировать резюме, чтобы они проходили фильтры ИИ и попадали в топ поиска для HR компаний. Как закономерный итог обучения я смог найти работу по специальности дата-инженера🏁. Выражаю огромную благодарность за обучение, наставничество и помощь с трудоустройством! Рекомендую буткемп всем, кто хочет реально войти в профессию. 🔥 Всем хороших офферов! _____________________________ 📝 От команды 📝 Александр — пример сильного подхода к обучению. За 2 месяца он: — глубоко погружался в темы — задавал много вопросов — проходил дополнительный материал — не ограничивался базовой программой 💪 Такой результат — это всегда сочетание программы и усилий самого человека. Поздравляем с оффером! 🚀 Набор на май месяц в самом разгаре, уже забронирвано половина потока, так что поторопись записаться – @bootcampych_bot.

5 516

Крутой пример типичной задачи для Дата Инженера! Есть два ~~стула~~ датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым. В чем сложности? 60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер). С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик. Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных. Что уже есть внутри: - Пример кода для сборки витрин на PySpark - Пример чтения XML и сохранения в parquet - Уже готовый датасет в формате parquet ➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark ——- P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка