SysAdmin_jobs
Відкрити в Telegram
Обсуждаем вакансии и все с ними связанное. Оформить и предложить вакансию можно тут: @cyberJohnny Реклама - @cyberJohnny Чат: https://t.me/+GV-1GAi3F2o1OTMy
Показати більше451
Підписники
-124 години
-27 днів
-130 день
Архів дописів
Data Engineer for VLM Training Data (GigaChat Vision)
#офис
Москва
Компания: Сбер
🔹Обязанности
-Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM.
-Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных.
-Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning.
-Отвечать за инфраструктуру хранения и подготовки данных, включая:
импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data;
валидацию и контроль качества данных;
хранение и версионирование датасетов;
экспорт данных в форматы, пригодные для обучения моделей.
-Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений.
-Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM.
-Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов.
-Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов.
-Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой.
🔹Требования
-Сильный опыт в data engineering и построении production-grade data pipelines.
-Уверенное владение Python, включая multiprocessing, multithreading и async-подходы.
-Опыт работы с большими объёмами данных и распределённой обработкой.
-Практический опыт с объектными хранилищами, в частности S3 или аналогами.
-Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных.
-Понимание принципов валидации, очистки, дедупликации и версионирования датасетов.
-Опыт работы с DVC, Git, Docker.
-Опыт работы с PostgreSQL или другими реляционными базами данных.
-Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат.
-Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения.
-Готовность работать на стыке engineering и ML research.
Откликнуться (https://rabota.sber.ru/search/data-engineer-for-vlm-training-data-gigachat-vision-4536473/)
() | () | ()
@SysAdmins_jobs
🚀 Вакансия: Data Engineer (удаленно/гибрид)
Компания: ООО "ОДСС" https://odsscompany.ru (аккредитованная IT-компания)
Локация Москва
Зарплата от 150 до 170 т.р.
Оформление по ТК РФ
Мы ищем в свою команду инициативного Data Engineer для разработки и поддержания инфраструктуры данных для большого проекта озера данных, включающего себя сложные сценарии приема и обработки данных из разных источников.
Что предстоит:
• разработка и поддержание парсеров
• автоматизация обработки и преобразования данных
• отладка и мониторинг конвейеров данных
Технологический стек: Python, PostgreSQL, Dagster, Selenium
Что мы ждем от тебя:
- знание основных библиотек Python для работы с данными
- опыт обработки и скрейпинга/парсинга сложных и слабоструктурированных документов в форматах pdf, doc, docx, xls, xlsx
- опыт работы автоматизации конвейеров данных и знание соответствующих программных инструментов
- представление об управлении качеством данных
- представление о возможностях отладки мониторинга
- понимание специфики форматов данных (JSON lines, Parquet, XML, CSV и тд.)
- понимание методов получения и поставки данных (как, например, S3, REST API, SOAP, RPC)
- знание английского языка на уровне, достаточном для чтения технической документации
- знание Git
- готовность осваивать новые технологии и разрабатывать индивидуальные технические решения под поставленные задачи.
Плюсами будут:
- опыт работы с данными из открытых источников и понимание их специфики
- опыт долгосрочного поддержания работы парсеров
- опыт работы с библиотеками Python для computer vision
Преимущества проекта
✅ Проект только стартовал — мало легаси, много свободы для экспериментов
✅ Можно влиять на выбор технологий и архитектурных решений
Для быстрой связи @LvovaOV
@SysAdmins_jobs
🐧 Linux-приложение не всегда нужно разбирать по исходникам, чтобы понять, что оно делает. Иногда важнее увидеть его поведение в динамике: какие функции вызываются, какие системные вызовы происходят, где ломается логика и как программа взаимодействует с окружением.
1 июля в 20:00 МСК на открытом вебинаре OTUS разберём классические методы перехвата управления в Linux. Поговорим, зачем эти механизмы нужны для отладки, мониторинга, профилирования и динамического анализа программ, как работает LD_PRELOAD, чем динамическая линковка отличается от статической и почему перехват сработает не во всех случаях.
На практике покажем, как подгрузить свою динамическую библиотеку в процесс, перехватить вызов функции, использовать ptrace для контроля над процессом, а также применять ltrace и strace, чтобы видеть библиотечные и системные вызовы вместе с параметрами работы программы.
Урок проходит в преддверии старта курса «Обратная разработка». Обратите внимание: вебинар идёт в предзаписи, и мы не рассылаем видео после эфира.
👉Регистрируйтесь: https://vk.cc/cZ6t53
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Data-инженер
#удаленка
Компания: Золотое Яблоко
🔹ЧТО НУЖНО ДЕЛАТЬ:
-Разработка и поддержка текущих ETL-процессов сбора данных
-Разработка проверок качества данных, интеграция новых источников
-Участие в тестирование разработанного функционала
-Определение возможностей для автоматизации и оптимизации процессов загрузки и обработки данных
-Участие в митапах с бизнесом с целью отладки технических вопросов в поступающих задачах
🔹ЧТО ЖДЕМ ОТ КАНДИДАТА:
-Опыт работы на позиции Data-инженера от 2 лет
-Навыки работы с технологиями: SQL, Python, Spark, Airflow, Clickhouse, Trino, Gitlab, dbt, k8s, Mongo DB, Docker + прочие современные инструменты для работы с большими массивами данных.
-Практические знания в области big-data
Контакты: https://job.goldapple.ru/vacancy/6964a414bf490ee4caf2b38d-data-inzhener
🔥 / /
@SysAdmins_jobs
Data Engineer / Рекомендации
#удаленка
Компания: Wildberries
🔹Что нужно делать
-Поддерживать пайплайны на Greenplum;
сопровождать и оптимизировать существующие ETL/ELT-процессы: мониторинг, диагностика деградаций, партиционирование, работа с каталогом;
-заниматься интеграциями новых источников;
-подключать новые продуктовые команды и внешние источники: технический ресёрч, проектирование схем интеграции, data contracts.
Взаимодействие с владельцами источников на уровне технических требований;
-участие в миграции: перепроектирование слоёв под Iceberg (partitioning, schema evolution, snapshot management), понимание компромиссов MPP vs object storage.
🔹Какой опыт и знания нужны
-Владеете опытом с Airflow как оркестратором;
-имеете работы с Hadoop (Spark/Yarn/Hdfs);
-имеете работы c Greenplum или другими MPP-системами;
-работали с Trino как query engine.
Откликнуться (https://career.rwb.ru/vacancies/34680?)
🔥 / /
@SysAdmins_jobs
Дата-инженер в Дата-сервисы VK Tech, Москва
#удаленка #офис #middle #senior
Компания: VK
☑️Задачи
-разрабатывать и поддерживать ETL/ELT-процессы с использованием Python и Airflow;
-оптимизировать запросы и распределённые вычисления под ClickHouse и YT;
-мониторить состояние ETL-процессов, обеспечивать их надёжность и наблюдаемость;
-помогать аналитикам с оптимизацией их SQL-запросов и структур данных;
-проектировать и поддерживать хранилище данных VK Tech (схемы, витрины, SCD);
-участвовать в миграции вычислительной платформы с YT на Hadoop/Spark.
☑️Требования
-опыт разработки и поддержки ETL-процессов на Python + Airflow;
-уверенное знание SQL (JOIN, оконные функции, CTE, агрегации);
-понимание концепций DWH: витрины данных, медленно меняющиеся измерения (SCD), слои raw/ods/cdm/dds;
-опыт оптимизации запросов в распределённых системах (ClickHouse или Spark);
-знание Git (ветки, коммиты, pull requests, code review);
-умение читать и анализировать чужой код.
Откликнуться (https://team.vk.company/vacancy/45606/)
Python Job (https://t.me/job_python) | (https://vk.com/job_python) | (https://max.ru/job_python)
@SysAdmins_jobs
Информационная безопасность перестала быть исключительно технической задачей. Сегодня от неё ждут управляемости, предсказуемости рисков и понятного языка для бизнеса.
Курс OTUS «CISO / Директор по информационной безопасности» — это системный переход от эксперта или ИТ-менеджера к роли руководителя, который отвечает за стратегию, бюджет, команду и соответствие требованиям регуляторов. Вы разберёте архитектуру систем ИБ, управление рисками, стандарты и юридические аспекты, а также научитесь говорить с бизнесом на одном языке.
Программу ведут практикующие CISO и руководители ИБ. Курс построен на живых лекциях, разборе реальных кейсов и актуальных требованиях рынка. Вы получаете не абстрактные знания, а управленческое мышление, финансовую логику и навыки лидерства, которые ожидают от CISO в крупных компаниях.
Оставьте заявку и получите специальные условия на обучение: https://vk.cc/cZ4QKQ
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Data Engineer
#удаленка
Компания: Облако.ру
🔹Обязанности
-Проектирование и развитие data-пайплайнов для обработки событий кибербезопасности;
-Нормализация и обогащение событий безопасности;
-Проектирование и оптимизация аналитического хранилища данных (ClickHouse / StarRocks / аналоги);
-Подготовка витрин данных под быстрые запросы и аналитику;
-Эксплуатация data сервисов в Kubernetes: деплой, ресурсы, отказоустойчивость, масштабирование;
-Обеспечение наблюдаемости и качества данных (метрики, алерты, replay/backfill);
-Участие в разборе инцидентов и оптимизации производительности data платформы.
🔹Требования
-Опыт построения и эксплуатации data pipelines (ETL, ELT и/или streaming) в production среде;
-Уверенный SQL, включая оптимизацию запросов и анализ производительности;
-Опыт работы с OLAP-СУБД (ClickHouse/StarRocks/Druid/Pinot или аналоги);
-Понимание принципов потоковой обработки данных (идемпотентность, дедупликация, обработка ошибок);
-Опыт проектирования и оптимизации витрин и схем хранения данных;
-Уверенные знания Kubernetes и опыт эксплуатации сервисов в production среде;
-Понимание принципов надежности, масштабирования и наблюдаемости data систем.
Откликнуться
🔥 / /
@SysAdmins_jobs
Senior Data Engineer в Маркет
#гибрид #офис #senior
Компания: Яндекс
🔹Какие задачи вас ждут
-Принятие конечных сетевых решений по реализации поставок данных
Вам предстоит проектировать схемы поставок данных, выбирать подход к внесению доработок в витрины за оптимальное время с минимизацией рисков от релизов. И ещё нужен будет критический взгляд на результат в интересах потребителей данных.
-Развитие фреймворков обработки данных
Вы будете применять существующие инструменты работы с данными и выделять их недостатки, продвигать повестку по их улучшению или поиску новых для более эффективного решения задач.
-Руководство реализацией сложных технических поставок
Нужно будет разбираться в алгоритмической составляющей инструментов и находить эффективные решения, в том числе упрощая постановку задачи.
🔹Мы ждем, что вы
-Уверенно знаете Python на уровне написания собственного фреймворка и SQL на уровне оптимизации запросов
-Умеете проектировать DWH: слои, модели хранения данных, процессы ETL
-Хорошо понимаете принципы работы распределённых систем Hadoop или YTsaurus, ClickHouse
-Умеете выбирать технологии для решения конкретных задач
-Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
-Имеете опыт работы от трёх лет
-Умеете работать в командной строке Unix-подобных систем (Linux, macOS)
🔹Будет плюсом, если вы
-Имеете опыт промышленной разработки на C++
-Работали в ecom-отрасли
-Решали задачи в роли аналитика, управляли командой или проектами
Откликнуться (https://yandex.ru/jobs/vacancies/senior-data-engineer-v-market-23835)
🔥 / /
@SysAdmins_jobs
Data Engineer
#удаленка #middle
Компания: deeplay
🔹Предстоит поддерживать и развивать:
-Десктопное кроссплатформенное ПО (Java 17+, Swing);
-Монолитное ПО, включает в себя клиентскую и серверную части (взаимодействие посредством gRPC);
-Отсутствие фрэймворка, используются собственные наработки;
-Организация взаимодействия с БД (PostgreSQL, ClickHouse) посредством jdbc, без подключения дополнительных библиотек;
-Организация работ механизмов в многопоточном режиме с помощью ExecutorService, CompletableFuture;
-Покрытие кода тестами (Mockito, JUnit);
-Аналитические запросы и большие объёмы данных (~60 TB).
🔹Основное:
PostgreSQL: глубокое знание системных каталогов, статистики, индексов, партиционирование, наследование, foreign tables, EXPLAIN ANALYZE, cost model, pg_stat_statements, pg_stat_activity, pg_locks, индексные стратегии, lock monitoring
SQL: сложные запросы с CTE, window functions, lateral joins, динамический SQL, хранимые процедуры, триггеры, функции, query rewriting, понимание планов выполнения
🔹Для реализации задач тебе потребуется:
-Опыт работы в аналогичной роли от 3 лет
знание теории реляционных БД, понимание логической, физической моделей БД;
-опыт оптимизации сложных запросов;
-опыт поиска проблем в работающих под высокой нагрузкой системах.
-Опыт создания и поддержки ETL-процессов;
-Глубокий практический опыт разработки на Python (pandas, numpy);
-Опыт работы с Apache Airflow, самостоятельное создание DAG;
-Опыт работы с СУБД PostgreSQL, написание средних/сложных и нетривиальных SQL-запросов;
-Умение самостоятельно брать задачи, по необходимости уточнять требования и доводить до финального результата;
-Навык поиска оптимальных решений: умение работать в условиях неопределенности, формулировать вопросы и предлагать решения.
Будет плюсом:
Bash: скрипты для автоматизации рутинных операций
Linux: command line (уверенный уровень), systemd, cron, bash scripting
Понимание алертинг стратегии
Опыт работы с ClickHouse
Docker (базовое понимание)
Ansible/Terraform: базовое понимание для автоматизации
Python/Pandas для сложной аналитики
Jupyter notebooks для исследовательского анализа
pgBadger для детального анализа
Мониторинг БД: анализ connection pools (PgBouncer), performance troubleshooting, анализ wait events
🔹Мы предлагаем:
-Гибкий подход к формату и месту работы — выбирай любое место на карте или один из комфортных офисов в Омске, Новосибирске и Санкт-Петербурге;
-Корпоративную культуру: общаемся на равных, поддерживаем друг друга, ценим обратную связь и инициативность, легкость общения и юмор.
-Возможность влиять на процессы: если увидишь потенциал для улучшения, сможешь воплотить свои идеи, повысить эффективность и качество продукта.
-Стать частью команды, которая находит драйв в своих задачах и стремится к технологическому лидерству в индустрии.
-Доступность руководства компании и открытую внутреннюю политику.
Контакты: talent@deeplay.io (mailto:talent@deeplay.io)
🔥 / /
@SysAdmins_jobs
Киберпанк для CISO: щит и меч ИИ
Искусственный интеллект уже меняет кибербезопасность, но угрозы теперь возникают сразу с двух сторон.
Снаружи — инъекции промптов, отравление данных и попытки взломать ИИ-систему. Изнутри — собственный ИИ-агент, который без жёстких ограничений может повысить себе привилегии, подменить транзакцию или получить доступ к конфиденциальным данным.
На бесплатном открытом вебинаре разберём:
— как атакуют ИИ через промпты и данные;
— в каких сценариях агент превращается из помощника в бэкдор;
— какие действия нельзя доверять ИИ без подтверждения;
— где устанавливать «стоп-краны» и контрольные точки;
— как моделировать угрозы при внедрении ИИ;
— в каком порядке CISO стоит выстраивать защиту.
По итогам составим дорожную карту, которая учитывает и внешние атаки на ИИ, и угрозы со стороны агентов внутри инфраструктуры.
Открытый урок пройдёт 22 июня в 20:00 МСК в преддверии старта курса «Директор по информационной безопасности (CISO)».
Принять участие:
https://vk.cc/cYONOo
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Senior Data Engineer в Маркет
#гибрид #офис #senior
Компания: Яндекс
🔹Какие задачи вас ждут
-Принятие конечных сетевых решений по реализации поставок данных
Вам предстоит проектировать схемы поставок данных, выбирать подход к внесению доработок в витрины за оптимальное время с минимизацией рисков от релизов. И ещё нужен будет критический взгляд на результат в интересах потребителей данных.
-Развитие фреймворков обработки данных
Вы будете применять существующие инструменты работы с данными и выделять их недостатки, продвигать повестку по их улучшению или поиску новых для более эффективного решения задач.
-Руководство реализацией сложных технических поставок
Нужно будет разбираться в алгоритмической составляющей инструментов и находить эффективные решения, в том числе упрощая постановку задачи.
🔹Мы ждем, что вы
-Уверенно знаете Python на уровне написания собственного фреймворка и SQL на уровне оптимизации запросов
-Умеете проектировать DWH: слои, модели хранения данных, процессы ETL
-Хорошо понимаете принципы работы распределённых систем Hadoop или YTsaurus, ClickHouse
-Умеете выбирать технологии для решения конкретных задач
-Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
-Имеете опыт работы от трёх лет
-Умеете работать в командной строке Unix-подобных систем (Linux, macOS)
🔹Будет плюсом, если вы
-Имеете опыт промышленной разработки на C++
-Работали в ecom-отрасли
-Решали задачи в роли аналитика, управляли командой или проектами
Откликнуться (https://yandex.ru/jobs/vacancies/senior-data-engineer-v-market-23835)
🔥 / /
@SysAdmins_jobs
Главный дата-инженер
#удаленка
Компания: Альфа-Банк
🔹Чем предстоит заниматься
-Проектирование и развитие масштабируемой data-инфраструктуры (batch и streaming пайплайны);
ClickHouse (MergeTree), S3 Data Lake, Kafka, Airflow (ETL/ELT);
-Архитектура и реализация витрин данных для аналитики, ML и AI-агентов;
-Поддержка и написание пайплайнов ETL/ELT (dbt / Airflow / Spark / Kafka / etc.);
-Оптимизация производительности, стоимость хранения и потребления данных;
-Внедрение и поддержка стандартов CI/CD и мониторинга пайплайнов;
-Работа в связке с аналитиками, ML-инженерами, разработчиками и продуктами;
-Участие в построении feature store, ML-инфраструктуры и поддержке GenAI систем.
🔹Наши пожелания к кандидатам
-3+ лет опыта работы с данными в роли Data Engineer;
-Опыт проектирования data-платформ в продакшене (от ingestion до витрин);
-Отличное знание SQL, Python (или Scala), опыт работы с Apache Airflow, Spark, Kafka;
-Опыт построения CI/CD процессов и мониторинга data pipeline’ов;
-Понимание принципов data governance, data quality и data contracts.
Откликнуться (https://job.alfabank.ru/vacancies/moskva/remote-job/glavnyii-data-inzhener_34214)
🔥 / /
@SysAdmins_jobs
Data Engineer/ MLOpsE
#офис #гибрид #middle
Москва
Компания: Bell Integrator
☑️ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:
-Понимание основ облачных технологий и технологий виртуализации и контейнеризации;
-Опыт с экосистемой Hadoop (HDFS, Hive, Spark и п-р.);
-Опыт промышленной разработки Python;
-Опыт работы с ETL (Airflow и пр.);
-Опыт работы с CI/CD решениями на базе Jenkins и Bitbucket / Git.
БУДЕТ ПЛЮСОМ:
Опыт работы с платформами оркестрации контейнеров K8s, OpenShift;
Опыт внедрения DS-моделей в промышленный контур;
Опыт работы с Kafka;
Опыт работы с популярными РСУБД (Greenplum, Teradata, Oracle, PostgreSQL);
Понимание принципов построения хранилищ данных DWH;
Знания в RL и Графовых нейросетях;
Отличные знания в области классического ML и DL.
☑️ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:
-Разработка, поддержка и оптимизация ETL-процессов команды на платформах банка;
-Внедрение разработанных DS-моделей в промышленную среду (MLOps);
-Поддержка промышленной эксплуатации разработанных решений.
☑️МЫ ПРЕДЛАГАЕМ:
-Возможность участия в интересных проектах.
-Возможность профессионального и карьерного роста в компании.
-Опыт работы в команде профессионалов.
-Специальные тарифы для сотрудников в спортивные клубы и языковые курсы и пр.
-Офисный\гибридный формат работы в Москве.
Контакты: hr@bellintegrator.ru (mailto:hr@bellintegrator.ru)
() | () | ()
@SysAdmins_jobs
Роль: Senior-Lead Data Engineer
Компания: Finframe (финтех)
Формат: Удаленно по РФ
Ищем Lead/Senior Data Engineer, которому интересно не просто поддерживать существующие решения, а строить Data Platform с нуля. Будет много hands-on работы: запуск новых контуров, оптимизация производительности, развитие Lakehouse и аналитического DWH. При этом это роль с лидерской зоной - создание и развитие команды, внедрение best-practice разработки, процессов, артефактов.
✅Основные задачи:
Архитектура и развитие платформы (совместно с Data Architect):
- Проектирование архитектуры Data Platform (DWH + Lakehouse)
- Выбор технологических решений и инструментов
- Участие в проработке подходов к Data Quality, lineage и monitoring
Разработка
- Проектирование, разработка и поддержка ETL/ELT-пайплайнов
- Разработка витрин данных
- Реализация ingestion и обработки данных в Lakehouse
- Настройка оркестрации и мониторинга в Airflow
- Поддержка и развитие LakeHouse, DWH
- Внедрение практик CI/CD для data-разработки
- Документирование разработки
Лидерство и развитие команды:
- Создание команды Data Engineers
- Развитие компетенций, процессов разработки, code review и внедрение engineering best-практик
- Планирование roadmap развития платформы
- Взаимодействие с архитекторами, аналитиками и backend-командами
Технический стек:
S3, Iceberg, Airflow, Spark, Python, Trino, ClickHouse, Greenplum, DBT, Superset (опыт со стеком обязателен)
📌Наши ожидания
- Опыт работы Data Engineering / DWH / Big Data от 6 лет
- Опыт работы с DBT / Airflow / Spark / объектными хранилищами
- Опыт проектирования Data Platform или ключевых её частей
- Опыт оптимизации производительности DWH или Big Data систем
- Опыт technical leadership (lead / tech lead / играющий тренер)
- Понимание принципов Data Governance и Data Quality
- Будет плюсом: опыт создания Data Platform с нуля, включая MVP
Вакансия: https://hh.ru/vacancy/133215284
Контакты: @olesyaaaassss
(При отклике просьба сразу отправлять свое cv и писать название тг канала)
@SysAdmins_jobs
Когда у команды десятки уязвимостей, ограниченный бюджет и постоянное давление со стороны бизнеса — главный вопрос уже не «что сломано», а «что исправлять первым».
На открытом уроке разберём, как CISO превращает хаотичный список проблем в понятный план работ с аргументацией для бизнеса и руководства. Поговорим о том, как оценивать реальные риски, отделять критичные угрозы от второстепенных задач и выстраивать приоритеты в условиях ограниченных ресурсов.
Отдельно разберём, как переводить технические проблемы на язык денег, репутации, регуляторных рисков и простоя систем. Покажем, как через риск-реестр, метрики и дорожную карту защищать бюджет на информационную безопасность.
Открытый урок пройдёт 16 июня в 20:00 МСК в преддверии старта курса «Директор по информационной безопасности (CISO)».
Принять участие: https://vk.cc/cYBZ4J
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Data Engineer (Премиальные решения)
#гибрид
Компания: Сбер
🔹Обязанности
-Разработка, оптимизация и сопровождение масштабных ETL/ELT pipeline-процессов на Hadoop и Greenplum для обработки больших данных;
-Интеграция и объединение данных из множества внутренних и внешних источников, включая потоки данных (Kafka), в единое хранилище (Hadoop);
-Проектирование и развитие корпоративного хранилища данных на базе Greenplum и Hadoop: создание витрин данных для аналитики и отчётности, оптимизация существующих таблиц и запросов;
-Автоматизация и оркестрация процессов обработки данных;
-Обеспечение надежности, отказоустойчивости и качества данных в рабочих контурах: мониторинг производительности, выявление узких мест и их устранение;
-Взаимодействие с бизнес- и ИТ-командами для уточнения требований к данным и совместной реализации проектов.
🔹Требования
-Опыт работы в роли Data Engineer (или аналогичной) от 2 лет;
-Уверенное владение SQL: написание сложных запросов, оптимизация производительности, понимание принципов проектирования баз данных и организации хранилищ данных;
-Практическое применение технологий Big Data: Hadoop (HDFS, YARN), Apache Spark (написание и запуск jobs), а также с системами хранения/обработки данных вроде Hive, Impala или Greenplum;
-Опыт использования систем оркестрации и планировщиков задач (Apache Airflow, Oozie или аналогичные) для построения ETL/ELT процессов;
-Знание инструментов контейнеризации и облачной оркестрации (Docker, Kubernetes) и опыт работы с потоковыми данными (Kafka или аналогичные платформы);
-Понимание принципов распределенных вычислений, высоконагруженных систем и обработки больших объемов данных;
-Английский язык на уровне, достаточном для чтения технической литературы и документации.
Откликнуться (https://rabota.sber.ru/search/data-engineer-premial-nye-resheniya-4501812/)
💬 () | 💙 () | 💬 ()
@SysAdmins_jobs
Data Engineer (Премиальные решения)
#гибрид
Компания: Сбер
🔹Обязанности
-Разработка, оптимизация и сопровождение масштабных ETL/ELT pipeline-процессов на Hadoop и Greenplum для обработки больших данных;
-Интеграция и объединение данных из множества внутренних и внешних источников, включая потоки данных (Kafka), в единое хранилище (Hadoop);
-Проектирование и развитие корпоративного хранилища данных на базе Greenplum и Hadoop: создание витрин данных для аналитики и отчётности, оптимизация существующих таблиц и запросов;
-Автоматизация и оркестрация процессов обработки данных;
-Обеспечение надежности, отказоустойчивости и качества данных в рабочих контурах: мониторинг производительности, выявление узких мест и их устранение;
-Взаимодействие с бизнес- и ИТ-командами для уточнения требований к данным и совместной реализации проектов.
🔹Требования
-Опыт работы в роли Data Engineer (или аналогичной) от 2 лет;
-Уверенное владение SQL: написание сложных запросов, оптимизация производительности, понимание принципов проектирования баз данных и организации хранилищ данных;
-Практическое применение технологий Big Data: Hadoop (HDFS, YARN), Apache Spark (написание и запуск jobs), а также с системами хранения/обработки данных вроде Hive, Impala или Greenplum;
-Опыт использования систем оркестрации и планировщиков задач (Apache Airflow, Oozie или аналогичные) для построения ETL/ELT процессов;
-Знание инструментов контейнеризации и облачной оркестрации (Docker, Kubernetes) и опыт работы с потоковыми данными (Kafka или аналогичные платформы);
-Понимание принципов распределенных вычислений, высоконагруженных систем и обработки больших объемов данных;
-Английский язык на уровне, достаточном для чтения технической литературы и документации.
Откликнуться (https://rabota.sber.ru/search/data-engineer-premial-nye-resheniya-4501812/)
🔥 / (https://t.me/best_itjob) / (https://t.me/)
@SysAdmins_jobs
Data Engineer в Маркет
#офис #гибрид
Компания: Яндекс
🔹Какие задачи вас ждут
-Принятие конечных сетевых решений по реализации поставок данных
Вам предстоит проектировать схемы поставок данных, выбирать подход к внесению доработок в витрины за оптимальное время с минимизацией рисков от релизов. И ещё нужен будет критический взгляд на результат в интересах потребителей данных.
-Развитие фреймворков обработки данных
Вы будете применять существующие инструменты работы с данными и выделять их недостатки, продвигать повестку по их улучшению или поиску новых для более эффективного решения задач.
-Руководство реализацией сложных технических поставок
Нужно будет разбираться в алгоритмической составляющей инструментов и находить эффективные решения, в том числе упрощая постановку задачи.
🔹Мы ждём, что вы
-Уверенно знаете Python на уровне написания собственного фреймворка и SQL на уровне оптимизации запросов
-Умеете проектировать DWH: слои, модели хранения данных, процессы ETL
-Хорошо понимаете принципы работы распределённых систем Hadoop или YTsaurus, ClickHouse
-Умеете выбирать технологии для решения конкретных задач
-Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
-Имеете опыт работы от трёх лет
-Умеете работать в командной строке Unix-подобных систем (Linux, macOS)
Откликнуться (https://yandex.ru/jobs/vacancies/data-engineer-v-market-23835)
🔥 / (https://t.me/best_itjob) / (https://t.me/)
@SysAdmins_jobs
Стажер Data Engineer в Аналитику для сервиса Заявки Телеком данных [Big Data, МТС Веб Сервисы]
#гибрид #intern
Москва
Компания: МТС
🔹Чем предстоит заниматься
-Выгружать и обрабатывать гео- и телеком-данные (трафик, локации нахождения абонентов);
-Разрабатывать простые ETL-процессы;
-Выполнять ad-hoc-задачи на PySpark;
-Создавать сегменты пользователей;
-Готовить отчётность и обрабатывать табличные данные на PySpark
🔹Что мы ожидаем
-Студенты 3 - 6 курсов бакалавриата, специалитета или магистратуры;
-Уверенное базовое знание Python;
-Уверенное знание SQL;
-Будет плюсом: знание распределенных вычислений, PySpark
Откликнуться (https://job.mts.ru/vacancy/668806526051292284)
🔥 / (https://t.me/best_itjob) / (https://t.me/)
@SysAdmins_jobs
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
