4 402
Subscribers
-724 hours
-87 days
+630 days
Posts Archive
4 402
Вышел релиз Airflow 2.4: https://bit.ly/3eUmC57
Много всяких плюшек о которых подготовлю отдельный пост и обновлю контент курса 🎉
4 402
Repost from How to DWH with Python
#article #ethereum Exporting the full history of Ethereum into S3
https://medium.com/@tony.bryzgaloff/how-to-dump-full-ethereum-history-to-s3-296fb3ad175 (author: @bryzgaloff)
What's inside:
— BigQuery public datasets with Ethereum data: how to transfer to S3 quickly.
— Alternative approach: exporting data from a public Ethereum node. No need to run your own node!
— Processing
uint256 with AWS Athena.
— Processing realtime updates from Ethereum.
— Best Data Engineering practices to process Ethereum data.
A short summary inside 👇4 402
Repost from DevBrain
Прошлый пост касался архитектуры Redis, а сейчас предлагаю вам познакомиться с кишками memcached: https://bit.ly/3czb6eQ
Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).
4 402
Wunder Fund: проект для Python разработчика 🔥
Мы в wunderfund.io занимаемся высокочастотной торговлей на бирже (HFT) с 2014 года, активно используем машинное обучение. Сейчас мы торгуем на 12 биржах по всему миру и наш дневной оборот больше $4 млрд.
И у нас много данных.
Ищем Питон-разработчиков в команду:
🛠 Вы будете разрабатывать парсеры биржевых данных и программы для надежного их сохранения. Будете развивать автоматический пайплайн ежедневной обработки этих сохраненных данных.
👺 Идеальный человек хорошо знает Python. Круто, если ты уже строил пайплайны на Luigi/Airflow/etc и выкатывал их продакшн, работал с облачными платформами.
👾 У нас сильная команда и развитая инженерная культура. Вот небольшое видео с рассказом нашего СТО о том, как устроена работа и вообще — https://youtu.be/662q9FVqp50
А вот более подробное описание вакансии (https://wunderfund.io/jobs/data-eng).
Платим от 200 до 400к в месяц ($3k — $7k). В особых случаях больше, договоримся.
Контакт @nedifar1703
4 402
Исследование о виртуализации данных
Возможно, вы слышали что-нибудь о Data Mesh и Логических Хранилищах Данных?
Denodo проводит исследование, направленное на изучение опыта использования систем виртуализации в России. Пройдите короткий опрос по ссылке и получите доступ к материалам про виртуализацию. В библиотеке:
• технический документ, в котором рассматриваются цели интеграции, приводятся недостатки традиционных решений и раскрыты 10 ключевых фактов о виртуализации как ключевого метода, позволяющего успешно выполнять оперативную интеграцию информации из разных источников.
• Кейс крупной розничной сети Albertsons, которая запустила расширенную программу анализа данных клиентов и благодаря платформе Denodo обеспечила безопасность миллионов строк информации о пользователях в Облаке и контроль доступов к токенезированным и детокенезированным данным
• Кейс о том, как ABN Amro Insurance смогла организовать оперативный обмен информацией с подразделениями, регуляторами, анализировать пользовательские данные благодаря созданию Логического Хранилища Данных
• Кейс Toyota, которая развернула платформу Denodo поверх корпоративного хранилища данных и транзакционных БД, бесшовно интегрируя несколько различных систем-источников для создания Логического Хранилища Данных
Поделитесь своим мнением о развитии виртуализации в опросе!
4 402
При принятии решений в ручном режиме риск убытков возрастет до 60%. Это связано с ошибочными действиями, мошенничеством сотрудников или неправильной организацией бизнес-процессов. В результате снижается качество клиентского сервиса, возникают трудности с масштабированием бизнеса.
Автоматизированная система поддержки решений Loginom Decision Maker анализирует и структурирует большие массивы данных и представляет их в удобном для принятия решений виде.
Готовая система используется в качестве основы кредитного конвейера, проверки контрагентов, формирования рейтинга поставщиков, анализа единого профиля клиентов и других процессов.
Преимущества Loginom Decision Maker:
⚡️Формализация процесса принятия решений любой сложности
⚡️Гибкость в настройке новых бизнес-процессов с минимальными трудозатратами
⚡️Централизованный и комплексный подход к управлению логикой принятия решений
⚡️Высокая производительность и увеличение пропускной способности
⚡️Снижение потерь и операционных ошибок
Подробнее по ссылке 👈🏻
4 402
На канале IT's Tinkoff появились видео с их конференции:
— Как мы строим Metadata Management
— Под капотом каталога данных
— Как с помощью Data Mesh разломать ваше DWH
— Data-docs — как найти данные о данных
Enjoy! ☀️
4 402
SmartData от JUG Ru Group возвращается!
Конференция для дата-инженеров пройдет уже в октябре.
Вы можете стать ее спикером. Если у вас есть интересные кейсы или вы хотите поделиться опытом решения нетривиальных задач — подавайте заявку на участие.
Вы подтвердите свою экспертность, познакомитесь с крутыми специалистами и получите обратную связь от участников. Программный комитет поможет с подготовкой к выступлению — назначит персонального куратора, проведет ревью материала и организует репетиции.
На сайте вы найдёте список тем, с которыми можно выступить. Если хотите выступить с другой темой, присылайте свои предложения — их обязательно рассмотрят.
А если хотите просто поучаствовать в SmartData 2022 — билеты уже на сайте.
4 402
Устали заливать медленный код серверами? Приходите на новый сезон онлайн-конференции для backend-разработчиков Podlodka Backend Crew!
Стартуем 18 июля, тема сезона – "Делаем приложения быстрее"!
Всю неделю будем пристально смотреть на производительность приложений. Будем учиться
⚡️Замерять и анализировать нагрузку
⚡️Оптимизировать узкие места, не переписывая сервис с нуля
⚡️Грамотно использовать многопоточность и эффективно утилизировать доступные ресурсы
⚡️Ускорять все, что тормозит!
Будем разбираться фундаментально, поэтому привязки к конкретному стеку и фреймворкам в программе не будет. Зато, например, будем разбираться с реактивным подходом и акторной моделью.
Как всегда в Podlodka Crew все это на протяжении недели с необычными нескучными форматами сессий, и с живым комьюнити в Slack.
До следующего понедельник действует early-bird скидка, а билеты и подробности уже доступны на сайте. Ждем на борту!
4 402
Про таймауты и внешние API
Хорошей практикой при работе с внешними сервисами я считаю явное указание таймаутов ожидания соединения и ответа от хоста. Такой подход поможет избежать проблем с "зависанием" соединения и, как следствие, блокировкой процесса (для блокирующих соединений). На моей памяти было 2 неприятных кейса. В далёком 2015 я использовал requests для работы с сервисом поиска и бронирования ЖД билетов в Казахстане, по-умолчанию в requests нет таймаута и ожидание может превратиться в бесконечность. Всё было хорошо до тех пор пока у внешнего сервиса не начались проблемы, и он перестал отвечать на запросы. Все worker-процессы ушли в бесконечное ожидание, и мой сервис перестал принимать новые соединения, сайт попросту сломался. Тогда мне потребовалось некоторое время, чтобы понять в чем проблема.
Со второй проблемой я столкнулся неделю назад. Сейчас я разрабатываю веб-сервисы для автоматизации рекламных сетей, активно пользуюсь Facebook Ads. Для работы с маркетинговым сервисом Фейсбука существует библиотека facebook-python-business-sdk. Внимание! Под капотом она использует requests 😉 И у неё нет таймаута по умолчанию. Я наткнулся на те же грабли, когда ФБ стал подтормаживать.
К слову, если вы как и я пользуетесь facebook-python-business-sdk, то таймаут можно установить через инициализацию API-класса:
FacebookAdsApi.init(accesstoken=accesstoken, apiversion='v13.0', timeout=settings.FACEBOOKADSAPITIMEOUT)
Не наступайте на грабли, ставьте таймауты 😉
Также по теме в ленте увидел пост про патчинг requests: https://adamj.eu/tech/2022/06/23/how-to-patch-requests-to-have-a-default-timeout/
4 402
Хех, тут новый релиз Luigi нарисовался — https://github.com/spotify/luigi/releases/tag/3.1.0
В интернетах народ уже давно похоронил этот замечательный фреймворк, апеллирует народ в основном к тому, что, мол, давно не было обновлений. А обновлять то там особо нечего, он простой и работает без сбоев. У меня, например, Luigi вот уже много лет бэкапит все сайты и складывает на S3.
4 402
Repost from How to DWH with Python
Подготовил конспект статьи от Shopify о сетапе Airflow на 10 тысяч DAG'ов со 150 тысячами запусков в день. Сэкономит вам время на прочтении и поможет освежить в памяти в будущем.
#briefly #airflow Airflow: scaling out recommendations by Shopify
https://telegra.ph/Airflow-scaling-out-recommendations-by-Shopify-06-03
What's inside:
— Cloud Storage vs Network File System.
— Metadata retention policy.
— Manifest file.
— Consistent distribution of load.
— Concurrency management.
— Using different execution environments.
Origin: Lessons Learned From Running Apache Airflow at Scale
4 402
🔥Как изменится Spark и работа дата-инженера в новых реалиях?
📅Приглашаем 14 июня в 20:00 мск на бесплатный вебинар «Дата инженер и Spark в новых реалиях»
📚На вебинаре мы ответим на вопросы:
✔️ Как изменятся источники и получатели данных, объемы данных, языки для ETL, кластера, облака и IDE?
✔️ Насколько будет востребован дата-инженера на рынке и к чему нужно быть готовым?
💎А также обсудим open source технологии и примеры миграционных проектов.
👉🏻Регистрация на вебинар: https://otus.pw/ZUfD/
4 402
📌 Интересно развиваться как инженер данных? 31 мая начинаются занятия на онлайн-курсе «Data Engineer» в OTUS.
🚀 Курс поможет разработчикам и администраторам СУБД научиться работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями.
✅ Через 3 месяца вы сможете использовать инструменты обработки данных, адаптировать датасеты и отвечать за архитектуру данных в компании.
💻 На курсе вас ждет интенсивная практика: примеры внедрений, разбор типичных ошибок и отработка навыков на виртуальных стендах Yandex.Cloud.
🔥 Пройдите вступительный тест, чтобы успеть записаться в группу
4 402
Планируете переезд или остаётесь в России?
Если вы разработчик и у вас есть минута времени, поделитесь планами в анонимном опросе. Там всего 7 вопросов.
Ваши ответы помогут крупному IT-работодателю понять, в каких странах стоит открывать офисы и как условия нужны разработчикам.
4 402
🚀 Готовы сделать первый шаг к карьере дата-инженера?
23 и 24 мая в 20:00 пройдет открытый интенсив Extract - Load с помощью SaaS-сервиса vs. Cобственное решение. Поиск баланса и дзен. Мероприятия проведет Артемий Козырь, Analytics Engineer в компании Wheely.
✅ На интенсиве мы рассмотрим следующие темы:
✔️ Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения.
✔️ Extract-Load через API-вызовы, обращения к СУБД и CDC — оптимальные способы реализации.
✔️ Автоматизация выгрузки, повторные попытки (retries), получение уведомлений в Slack (notifications) с помощью Airflow.
✔️ Накопление истории выгрузок и организация Data Lake в S3 перед DWH.
👉 Проходите вступительный тест и регистрируйтесь на вебинар
4 402
🚀 Готовы сделать первый шаг к карьере дата-инженера?
23 и 24 мая в 20:00 пройдет открытый интенсив Extract - Load с помощью SaaS-сервиса vs. Cобственное решение. Поиск баланса и дзен. Мероприятия проведет Артемий Козырь, Analytics Engineer в компании Wheely.
✅ На интенсиве мы рассмотрим следующие темы:
✔️ Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения.
✔️ Extract-Load через API-вызовы, обращения к СУБД и CDC — оптимальные способы реализации.
✔️ Автоматизация выгрузки, повторные попытки (retries), получение уведомлений в Slack (notifications) с помощью Airflow.
✔️ Накопление истории выгрузок и организация Data Lake в S3 перед DWH.
👉 Проходите вступительный тест и регистрируйтесь на вебинар
Available now! Telegram Research 2025 — the year's key insights 
