4 402
Подписчики
-724 часа
-87 дней
+630 день
Архив постов
4 402
Repost from DevBrain
Требования информационной безопасности: как всё учесть?
С каждым годом всё больше компаний задумывается о защите персональных данных клиентов, сертификации и разграничении прав доступа. На вебинаре спикеры из RPPA и Yandex Cloud помогут вам разобраться в множестве стандартов, а также прокачать свои знания в сфере безопасности.
➡️Регистрируйтесь на вебинар
4 402
У ребят из Airbyte вышла интересная подборка самых популярных рассылок по теме данных: http://bit.ly/3FncX1L
Я же подписан на Seattle Data Guy, Benn Stancil и Data Engineering Weekly. От себя добавлю, что вашего внимания также заслуживает SF Data Weekly: http://weekly.sfdata.io/
4 402
На главной странице HackerNews нашел ссылку на бесплатный курс по основам Natural Language Processing (NLP) - Natural Language Processing
Demystified. Эта тема меня давно интересует, но я никак не могу выделить время, чтобы основательно погрузиться туда. Курс состоит из серии видео роликов на YouTube.
Ссылка на тред с обсуждение на HN.
4 402
Релиз Apache Airflow 2.5.0 🎉
Вчера вечером вышла новая версия Apache Airflow - 2.5. В последнее время меня удивляет с какой скоростью выходят обновления у этого инструмента.
Полный список новых фич смотрите тут.
Из примечательного на мой взгляд:
— Возможность очистить через UI всю таск группу (TaskGroup) для перезапуска всех операторов внутри.
— Декоратор-сенсор (task.sensor). Теперь легко можно превратить функцию в сенсор.
— Поиск по датасетам
— Автообновление логов в UI. Отныне можно забыть про F5 в разделе логов 😎
4 402
В шведском городе Мальмё недавно прошла интересная IT-конференция Øredev 2022. В плейлисте нашел доклады про data engineering:
- The 7 habits of data effective companies
- Five Sins of Data Observability
- Data Mesh: Data Analytics for Engineer
- Democratize your data with Analytics Engineering
- Data engineering in 10 years
Полный список можно глянуть по ссылке.
4 402
Как использовать легковесные кластеры Apache Spark для гибкого управления ресурсами?
1 декабря мы расскажем о возможностях сервиса Yandex Data Proc, где вы можете развернуть кластеры Apache Spark. Узнайте, как одновременно достичь высокой производительности в пиковые периоды и экономить затраты во время простоя.
Также мы покажем, как организовать хранение данных в S3 и преобразовывать их с помощью SQL-запросов. Поделимся планами и направлениями развития сервиса.
Участие бесплатное.
➡️ Регистрируйтесь на вебинар
4 402
🔥 Как применять подход векторного представления слов в NLP?
🗓 Расскажем 1 декабря в 18:00 мск на открытом уроке «Как применять подход векторного представления слов в NLP»
💻 На занятии вы познакомитесь с преподавателем Марией Тихоновой, специалистом по анализу данных в команде AGI NLP в SberDevices.
💣 По итогам занятия вы:
️✔️ Узнаете технику векторных представлений слов (word embedding)
✔️ Изучите несколько классических методов векторных представлений слов.
✔️ Научитесь применять методы word embedding для решения прикладных NLP-задач
📊 Занятие проходит в рамках курса «Natural Language Processing (NLP)». Курс предназначен для DS/ML-специалистов, которые хотят углубить знания в области NLP.
✅ Регистрируйся бесплатно - https://otus.pw/AYly/
4 402
Всем привет! 👋
Друзья, предлагаем вам оценить российский рынок мероприятий для разработчиков. Поделитесь, какие митапы и конференции вам интересны и почему, какие форматы участия вы предпочитаете.
Онлайн-опрос займет не более 3-х минут. За это время вы передохнёте от работы, а в конце мы подарим скидку 25% на крутые образовательные лекции!
Пройти опрос
4 402
🔥 Выгрузка данных из внешних систем — одна из неотъемлемых задач дата-инженера.
📌 Узнайте, как грамотно справляться с ней на открытом уроке 10 ноября в 18:00 мск. Занятие проведет Алексей Железной, Data Engineer в Wildberries.
️️❇️ Что вас ждет на вебинаре?
️️✔️ Изучим классификацию источников
✔️ Поймем, как это влияет на выбор способа загрузки информации
✔️ Разберемся, какие из универсальных инструментов выгрузки данных актуальны сегодня
✔️ Научимся самостоятельно настраивать Data Ingestion пайплайны с помощью NiFi.
💻 Занятие является частью онлайн-курса «Data Engineer» и дает возможность оценить формат обучения в OTUS.
🟢 Для регистрации пройдите вступительный тест
Реклама. Информация о рекламодателе на сайте www.otus.ru
4 402
На ютуб-канале SmartData начали появляться доклады с одноимённой конференции, которая проходила в конце декабря: https://bit.ly/3zOHh2h
4 402
Ко мне обратилась IT-компания с просьбой провести анонимный опрос среди подписчиков моего канала. Если у вас есть пара минут, порефлексируйте, пожалуйста, с нами о новой реальности в небольшом опросе. Ваши ответы помогут крупной IT-компании понять, где теперь лучше организовывать профессиональные мероприятия и оказывать помощь и поддержку комьюнити.
Пройти опрос.
Опрос актуален для граждан РФ
4 402
Data Engineer (senior/lead)
🏢 в классном офисе в Москве;
💳 от 300К руб., белая ЗП или ИП;
🗂 большой датасет, интересные задачи, возможность влиять на продукт.
Ищем Data Engineer в команду PREDICTO. Будем разрабатывать CDP (costumer data platform), для сегментации пользователей на аудитории и многих других интересных задач.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
Что нужно делать:
• Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных;
• Обеспечивать SLA и качество данных;
• Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.
Что ждем от кандидата:
• Хорошее знание технологий из стека: Python, SQL, Spark, Airflow;
• Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных;
• Опыт продуктовой разработки в технологических компаниях.
Будет плюсом:
• Опыт работы с облаками, особенно, с Яндекс.Облаком;
• Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python;
• Опыт работы с моделями машинного обучения в продакшене;
• Опыт работы с базами данных для аналитики, особенно, с ClickHouse.
Если Вас заинтересовала вакансия, пожалуйста, дайте обратную связь и резюме в Telegram: @fedosovaAS
4 402
🔴 Как работать с ГЕО-данными в DWH?
📌 Расскажем на открытом уроке 26 октября в 20:00. Занятие проведет Артемий Козырь, Analytics Engineer с 7+ лет опыта работы с данными.
💣 Мы рассмотрим темы:
✔️ Привязка событий к зонам на карте города;
✔️ Агрегирование и аналитика данных с помощью H3 (гексагоны);
✔️ Оптимизация расчетов и производительности, кэширование.
💻 Также на вебинаре подробнее познакомимся с программой онлайн-курса “Data Engineer”
🔥 Проходите вступительный тест и записывайтесь на урок
4 402
🔴 Как работать с ГЕО-данными в DWH?
📌 Расскажем на открытом уроке 26 октября в 20:00. Занятие проведет Артемий Козырь, Analytics Engineer с 7+ лет опыта работы с данными.
💣 Мы рассмотрим темы:
✔️ Привязка событий к зонам на карте города;
✔️ Агрегирование и аналитика данных с помощью H3 (гексагоны);
✔️ Оптимизация расчетов и производительности, кэширование.
💻 Также на вебинаре подробнее познакомимся с программой онлайн-курса “Data Engineer”
🔥 Проходите вступительный тест и записывайтесь на урок
4 402
Repost from DevBrain
Релиз Python 3.11
Вчера вышел долгожданный (как минимум мною) релиз Python 3.11
Новая версия быстрее предыдущей на 10-60%, а в среднем на 22%, но помимо буста в производительности релиз содержит ряд крутых фич:
— TaskGroup, можно забыть про asyncio.gather
— ExceptionGroups
— Читабельные traceback с подчеркиваниями
Мне особенно зашла фича с группами исключений, даже накидал небольшой демо-пример.
Когда стоит переводить проект на Python 3.11?
Торопиться не стоит, т.к. далеко не все пакеты в вашем проекте могут иметь работающие колёса (wheel). Прямо сейчас, например, нет колёс для библиотеки psycopg2 для python3.11 под Windows. Я бы рекомендовал подождать пару минорных версий с исправлениями и уже после готовиться к миграции.
Все хорошего кодинга! 🐍
4 402
🔥 Хардкорный тест для дата инженеров 🔥
🚀 Ответьте на 20 вопросов и проверьте, насколько вы готовы к обучению на курсе - «Data Engineer»
💻 В новом потоке вас ждет актуализированная программа, живые вебинары с опытными экспертами и еще больше практики! В программе рассмотрим все процессы обработки данных — от загрузки из внешних источников до подготовки финальных витрин.
️️🦾 После обучения вы сможете самостоятельно справляться даже со сложными задачами в сфере работы с данными. Освоите работу с Architecture, Data Lake, DWH, MLOps с практикой в Yandex Cloud.
👉 ПРОЙТИ ТЕСТ https://otus.pw/39x0/
💣 Пройдете тест, получите демо-ролик о занятиях на курсе и Welcome-скидку.
🔴 Также вам откроется доступ к 2 открытым урокам курса:
✅ Работа с ГЕО-данными в DWH: координаты, зоны, агрегация
✅ Выгрузка данных из внешних систем
4 402
Привет всем! До начала нового сезона Podlodka Techlead Crew 🛠«Observability: monitoring, alerting, tracing» ещё осталось время. Мы перенесли старт на 17 октября. А значит вы еще можете успеть купить билет, чтобы узнать ответы на вопросы:
⚡️Как справляться быстро и эффективно с ошибками в проде — советы от Михаила Дружинина из Datadog
⚡️Как и зачем нужно измерять надежность системы и какие подходы для этого применять. Тайны раскроет Павел Лакосников из «Авито»
⚡️Зачем нужны SRE-инженеры: почему возникла эта профессия, какие ее основные принципы и инструменты и чем они отличаются от DevOps-парадигмы. Примеры из практики Ганны Новиковой из Intergiro
⚡️Как устроено SRE в разных компаниях — послушаем на круглом столе с Дмитрием Масленниковым из «Тинькофф», Михаилом Фесенко из Booking.com, Сергеем Бухаровым из АО «Финам» и Максимом Гусевым
⚡️Какие бенефиты компания получит от внедрения SRE-культуры, как ее поддерживать и развивать — в интервью с Максимом Гусевым
⚡️Кому, когда и зачем нужно тестирование доступности — сессия с Алексеем Мишкиным
⚡️Как выбирать технические метрики правильно — чтобы избежать нескольких итераций и боли от множественных переделок. Секреты раскроет Маргарита Ольшанская из Bolt.
Все подробности сессий уже есть на сайте. Купить билет можно уже сейчас — до следующего понедельника действуют скидки!
4 402
Конференция SmartData 2022 пройдет 17–18 октября онлайн и 29 октября в офлайне.
Программа уже готова — вас ждет 31 доклад о работе с данными. Вот их основные темы:
✔️ DBMS and Big Data Storage
✔️ Architecture of Data Platforms
✔️ Data Governance
✔️ Data Processing
✔️ MLOps / DevOps
Если в это непростое время вам хочется на несколько часов отвлечься и побыть среди единомышленников, то приходите на SmartData. А промокод dataeng2022JRGpc даст скидку на билеты из категории «Для частных лиц».
Подробности и билеты — smartdatacont.ru
Если сомневаетесь, стоит ли идти на SmartData, то приходите на бесплатный онлайн-фестиваль TechTrain 2022 Autumn (https://bit.ly/3RwmkyZ). Он традиционно объединяет всех представителей коммьюнити — от тестировщиков до дата-инженеров. И неважно, уехали вы или остались, TechTrain — для всех. Вас ждут 10 докладов на разные темы, в том числе про эволюцию архитектур платформы данных.
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
