SysAdmin_jobs - Статистика та аналітика Telegram каналу @sysadmins

451

Data Engineer for VLM Training Data (GigaChat Vision) #офис Москва Компания: Сбер 🔹Обязанности -Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM. -Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных. -Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning. -Отвечать за инфраструктуру хранения и подготовки данных, включая: импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data; валидацию и контроль качества данных; хранение и версионирование датасетов; экспорт данных в форматы, пригодные для обучения моделей. -Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений. -Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM. -Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов. -Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов. -Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой. 🔹Требования -Сильный опыт в data engineering и построении production-grade data pipelines. -Уверенное владение Python, включая multiprocessing, multithreading и async-подходы. -Опыт работы с большими объёмами данных и распределённой обработкой. -Практический опыт с объектными хранилищами, в частности S3 или аналогами. -Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных. -Понимание принципов валидации, очистки, дедупликации и версионирования датасетов. -Опыт работы с DVC, Git, Docker. -Опыт работы с PostgreSQL или другими реляционными базами данных. -Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат. -Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения. -Готовность работать на стыке engineering и ML research. Откликнуться (https://rabota.sber.ru/search/data-engineer-for-vlm-training-data-gigachat-vision-4536473/) () | () | () @SysAdmins_jobs

451

🚀 Вакансия: Data Engineer (удаленно/гибрид) Компания: ООО "ОДСС" https://odsscompany.ru (аккредитованная IT-компания) Локация Москва Зарплата от 150 до 170 т.р. Оформление по ТК РФ Мы ищем в свою команду инициативного Data Engineer для разработки и поддержания инфраструктуры данных для большого проекта озера данных, включающего себя сложные сценарии приема и обработки данных из разных источников. Что предстоит: • разработка и поддержание парсеров • автоматизация обработки и преобразования данных • отладка и мониторинг конвейеров данных Технологический стек: Python, PostgreSQL, Dagster, Selenium Что мы ждем от тебя: - знание основных библиотек Python для работы с данными - опыт обработки и скрейпинга/парсинга сложных и слабоструктурированных документов в форматах pdf, doc, docx, xls, xlsx - опыт работы автоматизации конвейеров данных и знание соответствующих программных инструментов - представление об управлении качеством данных - представление о возможностях отладки мониторинга - понимание специфики форматов данных (JSON lines, Parquet, XML, CSV и тд.) - понимание методов получения и поставки данных (как, например, S3, REST API, SOAP, RPC) - знание английского языка на уровне, достаточном для чтения технической документации - знание Git - готовность осваивать новые технологии и разрабатывать индивидуальные технические решения под поставленные задачи. Плюсами будут: - опыт работы с данными из открытых источников и понимание их специфики - опыт долгосрочного поддержания работы парсеров - опыт работы с библиотеками Python для computer vision Преимущества проекта ✅ Проект только стартовал — мало легаси, много свободы для экспериментов ✅ Можно влиять на выбор технологий и архитектурных решений Для быстрой связи @LvovaOV @SysAdmins_jobs

451

🐧 Linux-приложение не всегда нужно разбирать по исходникам, чтобы понять, что оно делает. Иногда важнее увидеть его поведение в динамике: какие функции вызываются, какие системные вызовы происходят, где ломается логика и как программа взаимодействует с окружением. 1 июля в 20:00 МСК на открытом вебинаре OTUS разберём классические методы перехвата управления в Linux. Поговорим, зачем эти механизмы нужны для отладки, мониторинга, профилирования и динамического анализа программ, как работает LD_PRELOAD, чем динамическая линковка отличается от статической и почему перехват сработает не во всех случаях. На практике покажем, как подгрузить свою динамическую библиотеку в процесс, перехватить вызов функции, использовать ptrace для контроля над процессом, а также применять ltrace и strace, чтобы видеть библиотечные и системные вызовы вместе с параметрами работы программы. Урок проходит в преддверии старта курса «Обратная разработка». Обратите внимание: вебинар идёт в предзаписи, и мы не рассылаем видео после эфира. 👉Регистрируйтесь: https://vk.cc/cZ6t53 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

451

Data-инженер #удаленка Компания: Золотое Яблоко 🔹ЧТО НУЖНО ДЕЛАТЬ: -Разработка и поддержка текущих ETL-процессов сбора данных -Разработка проверок качества данных, интеграция новых источников -Участие в тестирование разработанного функционала -Определение возможностей для автоматизации и оптимизации процессов загрузки и обработки данных -Участие в митапах с бизнесом с целью отладки технических вопросов в поступающих задачах 🔹ЧТО ЖДЕМ ОТ КАНДИДАТА: -Опыт работы на позиции Data-инженера от 2 лет -Навыки работы с технологиями: SQL, Python, Spark, Airflow, Clickhouse, Trino, Gitlab, dbt, k8s, Mongo DB, Docker + прочие современные инструменты для работы с большими массивами данных. -Практические знания в области big-data Контакты: https://job.goldapple.ru/vacancy/6964a414bf490ee4caf2b38d-data-inzhener 🔥 / / @SysAdmins_jobs

451

Data Engineer / Рекомендации #удаленка Компания: Wildberries 🔹Что нужно делать -Поддерживать пайплайны на Greenplum; сопровождать и оптимизировать существующие ETL/ELT-процессы: мониторинг, диагностика деградаций, партиционирование, работа с каталогом; -заниматься интеграциями новых источников; -подключать новые продуктовые команды и внешние источники: технический ресёрч, проектирование схем интеграции, data contracts. Взаимодействие с владельцами источников на уровне технических требований; -участие в миграции: перепроектирование слоёв под Iceberg (partitioning, schema evolution, snapshot management), понимание компромиссов MPP vs object storage. 🔹Какой опыт и знания нужны -Владеете опытом с Airflow как оркестратором; -имеете работы с Hadoop (Spark/Yarn/Hdfs); -имеете работы c Greenplum или другими MPP-системами; -работали с Trino как query engine. Откликнуться (https://career.rwb.ru/vacancies/34680?) 🔥 / / @SysAdmins_jobs

451

Дата-инженер в Дата-сервисы VK Tech, Москва #удаленка #офис #middle #senior Компания: VK ☑️Задачи -разрабатывать и поддерживать ETL/ELT-процессы с использованием Python и Airflow; -оптимизировать запросы и распределённые вычисления под ClickHouse и YT; -мониторить состояние ETL-процессов, обеспечивать их надёжность и наблюдаемость; -помогать аналитикам с оптимизацией их SQL-запросов и структур данных; -проектировать и поддерживать хранилище данных VK Tech (схемы, витрины, SCD); -участвовать в миграции вычислительной платформы с YT на Hadoop/Spark. ☑️Требования -опыт разработки и поддержки ETL-процессов на Python + Airflow; -уверенное знание SQL (JOIN, оконные функции, CTE, агрегации); -понимание концепций DWH: витрины данных, медленно меняющиеся измерения (SCD), слои raw/ods/cdm/dds; -опыт оптимизации запросов в распределённых системах (ClickHouse или Spark); -знание Git (ветки, коммиты, pull requests, code review); -умение читать и анализировать чужой код. Откликнуться (https://team.vk.company/vacancy/45606/) Python Job (https://t.me/job_python) | (https://vk.com/job_python) | (https://max.ru/job_python) @SysAdmins_jobs

451

Информационная безопасность перестала быть исключительно технической задачей. Сегодня от неё ждут управляемости, предсказуемости рисков и понятного языка для бизнеса. Курс OTUS «CISO / Директор по информационной безопасности» — это системный переход от эксперта или ИТ-менеджера к роли руководителя, который отвечает за стратегию, бюджет, команду и соответствие требованиям регуляторов. Вы разберёте архитектуру систем ИБ, управление рисками, стандарты и юридические аспекты, а также научитесь говорить с бизнесом на одном языке. Программу ведут практикующие CISO и руководители ИБ. Курс построен на живых лекциях, разборе реальных кейсов и актуальных требованиях рынка. Вы получаете не абстрактные знания, а управленческое мышление, финансовую логику и навыки лидерства, которые ожидают от CISO в крупных компаниях. Оставьте заявку и получите специальные условия на обучение: https://vk.cc/cZ4QKQ Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

451

Data Engineer #удаленка Компания: Облако.ру 🔹Обязанности -Проектирование и развитие data-пайплайнов для обработки событий кибербезопасности; -Нормализация и обогащение событий безопасности; -Проектирование и оптимизация аналитического хранилища данных (ClickHouse / StarRocks / аналоги); -Подготовка витрин данных под быстрые запросы и аналитику; -Эксплуатация data сервисов в Kubernetes: деплой, ресурсы, отказоустойчивость, масштабирование; -Обеспечение наблюдаемости и качества данных (метрики, алерты, replay/backfill); -Участие в разборе инцидентов и оптимизации производительности data платформы. 🔹Требования -Опыт построения и эксплуатации data pipelines (ETL, ELT и/или streaming) в production среде; -Уверенный SQL, включая оптимизацию запросов и анализ производительности; -Опыт работы с OLAP-СУБД (ClickHouse/StarRocks/Druid/Pinot или аналоги); -Понимание принципов потоковой обработки данных (идемпотентность, дедупликация, обработка ошибок); -Опыт проектирования и оптимизации витрин и схем хранения данных; -Уверенные знания Kubernetes и опыт эксплуатации сервисов в production среде; -Понимание принципов надежности, масштабирования и наблюдаемости data систем. Откликнуться 🔥 / / @SysAdmins_jobs

451

Senior Data Engineer в Маркет #гибрид #офис #senior Компания: Яндекс 🔹Какие задачи вас ждут -Принятие конечных сетевых решений по реализации поставок данных Вам предстоит проектировать схемы поставок данных, выбирать подход к внесению доработок в витрины за оптимальное время с минимизацией рисков от релизов. И ещё нужен будет критический взгляд на результат в интересах потребителей данных. -Развитие фреймворков обработки данных Вы будете применять существующие инструменты работы с данными и выделять их недостатки, продвигать повестку по их улучшению или поиску новых для более эффективного решения задач. -Руководство реализацией сложных технических поставок Нужно будет разбираться в алгоритмической составляющей инструментов и находить эффективные решения, в том числе упрощая постановку задачи. 🔹Мы ждем, что вы -Уверенно знаете Python на уровне написания собственного фреймворка и SQL на уровне оптимизации запросов -Умеете проектировать DWH: слои, модели хранения данных, процессы ETL -Хорошо понимаете принципы работы распределённых систем Hadoop или YTsaurus, ClickHouse -Умеете выбирать технологии для решения конкретных задач -Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными -Имеете опыт работы от трёх лет -Умеете работать в командной строке Unix-подобных систем (Linux, macOS) 🔹Будет плюсом, если вы -Имеете опыт промышленной разработки на C++ -Работали в ecom-отрасли -Решали задачи в роли аналитика, управляли командой или проектами Откликнуться (https://yandex.ru/jobs/vacancies/senior-data-engineer-v-market-23835) 🔥 / / @SysAdmins_jobs

451

Data Engineer #удаленка #middle Компания: deeplay 🔹Предстоит поддерживать и развивать: -Десктопное кроссплатформенное ПО (Java 17+, Swing); -Монолитное ПО, включает в себя клиентскую и серверную части (взаимодействие посредством gRPC); -Отсутствие фрэймворка, используются собственные наработки; -Организация взаимодействия с БД (PostgreSQL, ClickHouse) посредством jdbc, без подключения дополнительных библиотек; -Организация работ механизмов в многопоточном режиме с помощью ExecutorService, CompletableFuture; -Покрытие кода тестами (Mockito, JUnit); -Аналитические запросы и большие объёмы данных (~60 TB). 🔹Основное: PostgreSQL: глубокое знание системных каталогов, статистики, индексов, партиционирование, наследование, foreign tables, EXPLAIN ANALYZE, cost model, pg_stat_statements, pg_stat_activity, pg_locks, индексные стратегии, lock monitoring SQL: сложные запросы с CTE, window functions, lateral joins, динамический SQL, хранимые процедуры, триггеры, функции, query rewriting, понимание планов выполнения 🔹Для реализации задач тебе потребуется: -Опыт работы в аналогичной роли от 3 лет знание теории реляционных БД, понимание логической, физической моделей БД; -опыт оптимизации сложных запросов; -опыт поиска проблем в работающих под высокой нагрузкой системах. -Опыт создания и поддержки ETL-процессов; -Глубокий практический опыт разработки на Python (pandas, numpy); -Опыт работы с Apache Airflow, самостоятельное создание DAG; -Опыт работы с СУБД PostgreSQL, написание средних/сложных и нетривиальных SQL-запросов; -Умение самостоятельно брать задачи, по необходимости уточнять требования и доводить до финального результата; -Навык поиска оптимальных решений: умение работать в условиях неопределенности, формулировать вопросы и предлагать решения. Будет плюсом: Bash: скрипты для автоматизации рутинных операций Linux: command line (уверенный уровень), systemd, cron, bash scripting Понимание алертинг стратегии Опыт работы с ClickHouse Docker (базовое понимание) Ansible/Terraform: базовое понимание для автоматизации Python/Pandas для сложной аналитики Jupyter notebooks для исследовательского анализа pgBadger для детального анализа Мониторинг БД: анализ connection pools (PgBouncer), performance troubleshooting, анализ wait events 🔹Мы предлагаем: -Гибкий подход к формату и месту работы — выбирай любое место на карте или один из комфортных офисов в Омске, Новосибирске и Санкт-Петербурге; -Корпоративную культуру: общаемся на равных, поддерживаем друг друга, ценим обратную связь и инициативность, легкость общения и юмор. -Возможность влиять на процессы: если увидишь потенциал для улучшения, сможешь воплотить свои идеи, повысить эффективность и качество продукта. -Стать частью команды, которая находит драйв в своих задачах и стремится к технологическому лидерству в индустрии. -Доступность руководства компании и открытую внутреннюю политику. Контакты: talent@deeplay.io (mailto:talent@deeplay.io) 🔥 / / @SysAdmins_jobs

451

Киберпанк для CISO: щит и меч ИИ Искусственный интеллект уже меняет кибербезопасность, но угрозы теперь возникают сразу с двух сторон. Снаружи — инъекции промптов, отравление данных и попытки взломать ИИ-систему. Изнутри — собственный ИИ-агент, который без жёстких ограничений может повысить себе привилегии, подменить транзакцию или получить доступ к конфиденциальным данным. На бесплатном открытом вебинаре разберём: — как атакуют ИИ через промпты и данные; — в каких сценариях агент превращается из помощника в бэкдор; — какие действия нельзя доверять ИИ без подтверждения; — где устанавливать «стоп-краны» и контрольные точки; — как моделировать угрозы при внедрении ИИ; — в каком порядке CISO стоит выстраивать защиту. По итогам составим дорожную карту, которая учитывает и внешние атаки на ИИ, и угрозы со стороны агентов внутри инфраструктуры. Открытый урок пройдёт 22 июня в 20:00 МСК в преддверии старта курса «Директор по информационной безопасности (CISO)». Принять участие: https://vk.cc/cYONOo Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

451

Senior Data Engineer в Маркет #гибрид #офис #senior Компания: Яндекс 🔹Какие задачи вас ждут -Принятие конечных сетевых решений по реализации поставок данных Вам предстоит проектировать схемы поставок данных, выбирать подход к внесению доработок в витрины за оптимальное время с минимизацией рисков от релизов. И ещё нужен будет критический взгляд на результат в интересах потребителей данных. -Развитие фреймворков обработки данных Вы будете применять существующие инструменты работы с данными и выделять их недостатки, продвигать повестку по их улучшению или поиску новых для более эффективного решения задач. -Руководство реализацией сложных технических поставок Нужно будет разбираться в алгоритмической составляющей инструментов и находить эффективные решения, в том числе упрощая постановку задачи. 🔹Мы ждем, что вы -Уверенно знаете Python на уровне написания собственного фреймворка и SQL на уровне оптимизации запросов -Умеете проектировать DWH: слои, модели хранения данных, процессы ETL -Хорошо понимаете принципы работы распределённых систем Hadoop или YTsaurus, ClickHouse -Умеете выбирать технологии для решения конкретных задач -Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными -Имеете опыт работы от трёх лет -Умеете работать в командной строке Unix-подобных систем (Linux, macOS) 🔹Будет плюсом, если вы -Имеете опыт промышленной разработки на C++ -Работали в ecom-отрасли -Решали задачи в роли аналитика, управляли командой или проектами Откликнуться (https://yandex.ru/jobs/vacancies/senior-data-engineer-v-market-23835) 🔥 / / @SysAdmins_jobs

451

Главный дата-инженер #удаленка Компания: Альфа-Банк 🔹Чем предстоит заниматься -Проектирование и развитие масштабируемой data-инфраструктуры (batch и streaming пайплайны); ClickHouse (MergeTree), S3 Data Lake, Kafka, Airflow (ETL/ELT); -Архитектура и реализация витрин данных для аналитики, ML и AI-агентов; -Поддержка и написание пайплайнов ETL/ELT (dbt / Airflow / Spark / Kafka / etc.); -Оптимизация производительности, стоимость хранения и потребления данных; -Внедрение и поддержка стандартов CI/CD и мониторинга пайплайнов; -Работа в связке с аналитиками, ML-инженерами, разработчиками и продуктами; -Участие в построении feature store, ML-инфраструктуры и поддержке GenAI систем. 🔹Наши пожелания к кандидатам -3+ лет опыта работы с данными в роли Data Engineer; -Опыт проектирования data-платформ в продакшене (от ingestion до витрин); -Отличное знание SQL, Python (или Scala), опыт работы с Apache Airflow, Spark, Kafka; -Опыт построения CI/CD процессов и мониторинга data pipeline’ов; -Понимание принципов data governance, data quality и data contracts. Откликнуться (https://job.alfabank.ru/vacancies/moskva/remote-job/glavnyii-data-inzhener_34214) 🔥 / / @SysAdmins_jobs

451

Data Engineer/ MLOpsE #офис #гибрид #middle Москва Компания: Bell Integrator ☑️ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА: -Понимание основ облачных технологий и технологий виртуализации и контейнеризации; -Опыт с экосистемой Hadoop (HDFS, Hive, Spark и п-р.); -Опыт промышленной разработки Python; -Опыт работы с ETL (Airflow и пр.); -Опыт работы с CI/CD решениями на базе Jenkins и Bitbucket / Git. БУДЕТ ПЛЮСОМ: Опыт работы с платформами оркестрации контейнеров K8s, OpenShift; Опыт внедрения DS-моделей в промышленный контур; Опыт работы с Kafka; Опыт работы с популярными РСУБД (Greenplum, Teradata, Oracle, PostgreSQL); Понимание принципов построения хранилищ данных DWH; Знания в RL и Графовых нейросетях; Отличные знания в области классического ML и DL. ☑️ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ: -Разработка, поддержка и оптимизация ETL-процессов команды на платформах банка; -Внедрение разработанных DS-моделей в промышленную среду (MLOps); -Поддержка промышленной эксплуатации разработанных решений. ☑️МЫ ПРЕДЛАГАЕМ: -Возможность участия в интересных проектах. -Возможность профессионального и карьерного роста в компании. -Опыт работы в команде профессионалов. -Специальные тарифы для сотрудников в спортивные клубы и языковые курсы и пр. -Офисный\гибридный формат работы в Москве. Контакты: hr@bellintegrator.ru (mailto:hr@bellintegrator.ru) () | () | () @SysAdmins_jobs

451

Роль: Senior-Lead Data Engineer Компания: Finframe (финтех) Формат: Удаленно по РФ Ищем Lead/Senior Data Engineer, которому интересно не просто поддерживать существующие решения, а строить Data Platform с нуля. Будет много hands-on работы: запуск новых контуров, оптимизация производительности, развитие Lakehouse и аналитического DWH. При этом это роль с лидерской зоной - создание и развитие команды, внедрение best-practice разработки, процессов, артефактов. ✅Основные задачи: Архитектура и развитие платформы (совместно с Data Architect): - Проектирование архитектуры Data Platform (DWH + Lakehouse) - Выбор технологических решений и инструментов - Участие в проработке подходов к Data Quality, lineage и monitoring Разработка - Проектирование, разработка и поддержка ETL/ELT-пайплайнов - Разработка витрин данных - Реализация ingestion и обработки данных в Lakehouse - Настройка оркестрации и мониторинга в Airflow - Поддержка и развитие LakeHouse, DWH - Внедрение практик CI/CD для data-разработки - Документирование разработки Лидерство и развитие команды: - Создание команды Data Engineers - Развитие компетенций, процессов разработки, code review и внедрение engineering best-практик - Планирование roadmap развития платформы - Взаимодействие с архитекторами, аналитиками и backend-командами Технический стек: S3, Iceberg, Airflow, Spark, Python, Trino, ClickHouse, Greenplum, DBT, Superset (опыт со стеком обязателен) 📌Наши ожидания - Опыт работы Data Engineering / DWH / Big Data от 6 лет - Опыт работы с DBT / Airflow / Spark / объектными хранилищами - Опыт проектирования Data Platform или ключевых её частей - Опыт оптимизации производительности DWH или Big Data систем - Опыт technical leadership (lead / tech lead / играющий тренер) - Понимание принципов Data Governance и Data Quality - Будет плюсом: опыт создания Data Platform с нуля, включая MVP Вакансия: https://hh.ru/vacancy/133215284 Контакты: @olesyaaaassss (При отклике просьба сразу отправлять свое cv и писать название тг канала) @SysAdmins_jobs

451

Когда у команды десятки уязвимостей, ограниченный бюджет и постоянное давление со стороны бизнеса — главный вопрос уже не «что сломано», а «что исправлять первым». На открытом уроке разберём, как CISO превращает хаотичный список проблем в понятный план работ с аргументацией для бизнеса и руководства. Поговорим о том, как оценивать реальные риски, отделять критичные угрозы от второстепенных задач и выстраивать приоритеты в условиях ограниченных ресурсов. Отдельно разберём, как переводить технические проблемы на язык денег, репутации, регуляторных рисков и простоя систем. Покажем, как через риск-реестр, метрики и дорожную карту защищать бюджет на информационную безопасность. Открытый урок пройдёт 16 июня в 20:00 МСК в преддверии старта курса «Директор по информационной безопасности (CISO)». Принять участие: https://vk.cc/cYBZ4J Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

451

Data Engineer (Премиальные решения) #гибрид Компания: Сбер 🔹Обязанности -Разработка, оптимизация и сопровождение масштабных ETL/ELT pipeline-процессов на Hadoop и Greenplum для обработки больших данных; -Интеграция и объединение данных из множества внутренних и внешних источников, включая потоки данных (Kafka), в единое хранилище (Hadoop); -Проектирование и развитие корпоративного хранилища данных на базе Greenplum и Hadoop: создание витрин данных для аналитики и отчётности, оптимизация существующих таблиц и запросов; -Автоматизация и оркестрация процессов обработки данных; -Обеспечение надежности, отказоустойчивости и качества данных в рабочих контурах: мониторинг производительности, выявление узких мест и их устранение; -Взаимодействие с бизнес- и ИТ-командами для уточнения требований к данным и совместной реализации проектов. 🔹Требования -Опыт работы в роли Data Engineer (или аналогичной) от 2 лет; -Уверенное владение SQL: написание сложных запросов, оптимизация производительности, понимание принципов проектирования баз данных и организации хранилищ данных; -Практическое применение технологий Big Data: Hadoop (HDFS, YARN), Apache Spark (написание и запуск jobs), а также с системами хранения/обработки данных вроде Hive, Impala или Greenplum; -Опыт использования систем оркестрации и планировщиков задач (Apache Airflow, Oozie или аналогичные) для построения ETL/ELT процессов; -Знание инструментов контейнеризации и облачной оркестрации (Docker, Kubernetes) и опыт работы с потоковыми данными (Kafka или аналогичные платформы); -Понимание принципов распределенных вычислений, высоконагруженных систем и обработки больших объемов данных; -Английский язык на уровне, достаточном для чтения технической литературы и документации. Откликнуться (https://rabota.sber.ru/search/data-engineer-premial-nye-resheniya-4501812/) 💬 () | 💙 () | 💬 () @SysAdmins_jobs

451

Data Engineer (Премиальные решения) #гибрид Компания: Сбер 🔹Обязанности -Разработка, оптимизация и сопровождение масштабных ETL/ELT pipeline-процессов на Hadoop и Greenplum для обработки больших данных; -Интеграция и объединение данных из множества внутренних и внешних источников, включая потоки данных (Kafka), в единое хранилище (Hadoop); -Проектирование и развитие корпоративного хранилища данных на базе Greenplum и Hadoop: создание витрин данных для аналитики и отчётности, оптимизация существующих таблиц и запросов; -Автоматизация и оркестрация процессов обработки данных; -Обеспечение надежности, отказоустойчивости и качества данных в рабочих контурах: мониторинг производительности, выявление узких мест и их устранение; -Взаимодействие с бизнес- и ИТ-командами для уточнения требований к данным и совместной реализации проектов. 🔹Требования -Опыт работы в роли Data Engineer (или аналогичной) от 2 лет; -Уверенное владение SQL: написание сложных запросов, оптимизация производительности, понимание принципов проектирования баз данных и организации хранилищ данных; -Практическое применение технологий Big Data: Hadoop (HDFS, YARN), Apache Spark (написание и запуск jobs), а также с системами хранения/обработки данных вроде Hive, Impala или Greenplum; -Опыт использования систем оркестрации и планировщиков задач (Apache Airflow, Oozie или аналогичные) для построения ETL/ELT процессов; -Знание инструментов контейнеризации и облачной оркестрации (Docker, Kubernetes) и опыт работы с потоковыми данными (Kafka или аналогичные платформы); -Понимание принципов распределенных вычислений, высоконагруженных систем и обработки больших объемов данных; -Английский язык на уровне, достаточном для чтения технической литературы и документации. Откликнуться (https://rabota.sber.ru/search/data-engineer-premial-nye-resheniya-4501812/) 🔥 / (https://t.me/best_itjob) / (https://t.me/) @SysAdmins_jobs

451

Data Engineer в Маркет #офис #гибрид Компания: Яндекс 🔹Какие задачи вас ждут -Принятие конечных сетевых решений по реализации поставок данных Вам предстоит проектировать схемы поставок данных, выбирать подход к внесению доработок в витрины за оптимальное время с минимизацией рисков от релизов. И ещё нужен будет критический взгляд на результат в интересах потребителей данных. -Развитие фреймворков обработки данных Вы будете применять существующие инструменты работы с данными и выделять их недостатки, продвигать повестку по их улучшению или поиску новых для более эффективного решения задач. -Руководство реализацией сложных технических поставок Нужно будет разбираться в алгоритмической составляющей инструментов и находить эффективные решения, в том числе упрощая постановку задачи. 🔹Мы ждём, что вы -Уверенно знаете Python на уровне написания собственного фреймворка и SQL на уровне оптимизации запросов -Умеете проектировать DWH: слои, модели хранения данных, процессы ETL -Хорошо понимаете принципы работы распределённых систем Hadoop или YTsaurus, ClickHouse -Умеете выбирать технологии для решения конкретных задач -Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными -Имеете опыт работы от трёх лет -Умеете работать в командной строке Unix-подобных систем (Linux, macOS) Откликнуться (https://yandex.ru/jobs/vacancies/data-engineer-v-market-23835) 🔥 / (https://t.me/best_itjob) / (https://t.me/) @SysAdmins_jobs

451

Стажер Data Engineer в Аналитику для сервиса Заявки Телеком данных [Big Data, МТС Веб Сервисы] #гибрид #intern Москва Компания: МТС 🔹Чем предстоит заниматься -Выгружать и обрабатывать гео- и телеком-данные (трафик, локации нахождения абонентов); -Разрабатывать простые ETL-процессы; -Выполнять ad-hoc-задачи на PySpark; -Создавать сегменты пользователей; -Готовить отчётность и обрабатывать табличные данные на PySpark 🔹Что мы ожидаем -Студенты 3 - 6 курсов бакалавриата, специалитета или магистратуры; -Уверенное базовое знание Python; -Уверенное знание SQL; -Будет плюсом: знание распределенных вычислений, PySpark Откликнуться (https://job.mts.ru/vacancy/668806526051292284) 🔥 / (https://t.me/best_itjob) / (https://t.me/) @SysAdmins_jobs