ch
Feedback
DataEng

DataEng

前往频道在 Telegram

Data Engineering & Distributed Systems Contact @adilkhash

显示更多
4 402
订阅者
-724 小时
-87
+630
帖子存档
DataEng
4 402
Вышел релиз Airflow 2.4: https://bit.ly/3eUmC57 Много всяких плюшек о которых подготовлю отдельный пост и обновлю контент курса 🎉

DataEng
4 402
#article #ethereum Exporting the full history of Ethereum into S3 https://medium.com/@tony.bryzgaloff/how-to-dump-full-ethereum-history-to-s3-296fb3ad175 (author: @bryzgaloff) What's inside: — BigQuery public datasets with Ethereum data: how to transfer to S3 quickly. — Alternative approach: exporting data from a public Ethereum node. No need to run your own node! — Processing uint256 with AWS Athena. — Processing realtime updates from Ethereum. — Best Data Engineering practices to process Ethereum data. A short summary inside 👇

DataEng
4 402
Repost from DevBrain
Прошлый пост касался архитектуры Redis, а сейчас предлагаю вам познакомиться с кишками memcached: https://bit.ly/3czb6eQ Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).

DataEng
4 402
Repost from DevBrain
Как работает Redis? Узнать можно тут: https://bit.ly/3pIbA5b

DataEng
4 402
Wunder Fund: проект для Python разработчика 🔥 Мы в wunderfund.io занимаемся высокочастотной торговлей на бирже (HFT) с 2014 года, активно используем машинное обучение. Сейчас мы торгуем на 12 биржах по всему миру и наш дневной оборот больше $4 млрд. И у нас много данных. Ищем Питон-разработчиков в команду: 🛠 Вы будете разрабатывать парсеры биржевых данных и программы для надежного их сохранения. Будете развивать автоматический пайплайн ежедневной обработки этих сохраненных данных. 👺 Идеальный человек хорошо знает Python. Круто, если ты уже строил пайплайны на Luigi/Airflow/etc и выкатывал их продакшн, работал с облачными платформами. 👾 У нас сильная команда и развитая инженерная культура. Вот небольшое видео с рассказом нашего СТО о том, как устроена работа и вообще — https://youtu.be/662q9FVqp50 А вот более подробное описание вакансии (https://wunderfund.io/jobs/data-eng). Платим от 200 до 400к в месяц ($3k — $7k). В особых случаях больше, договоримся. Контакт @nedifar1703

DataEng
4 402
​​Исследование о виртуализации данных Возможно, вы слышали что-нибудь о Data Mesh и Логических Хранилищах Данных? Denodo проводит исследование, направленное на изучение опыта использования систем виртуализации в России. Пройдите короткий опрос по ссылке и получите доступ к материалам про виртуализацию. В библиотеке: • технический документ, в котором рассматриваются цели интеграции, приводятся недостатки традиционных решений и раскрыты 10 ключевых фактов о виртуализации как ключевого метода, позволяющего успешно выполнять оперативную интеграцию информации из разных источников. • Кейс крупной розничной сети Albertsons, которая запустила расширенную программу анализа данных клиентов и благодаря платформе Denodo обеспечила безопасность миллионов строк информации о пользователях в Облаке и контроль доступов к токенезированным и детокенезированным данным • Кейс о том, как ABN Amro Insurance смогла организовать оперативный обмен информацией с подразделениями, регуляторами, анализировать пользовательские данные благодаря созданию Логического Хранилища Данных • Кейс Toyota, которая развернула платформу Denodo поверх корпоративного хранилища данных и транзакционных БД, бесшовно интегрируя несколько различных систем-источников для создания Логического Хранилища Данных Поделитесь своим мнением о развитии виртуализации в опросе!

DataEng
4 402
При принятии решений в ручном режиме риск убытков возрастет до 60%. Это связано с ошибочными действиями, мошенничеством сотру
При принятии решений в ручном режиме риск убытков возрастет до 60%. Это связано с ошибочными действиями, мошенничеством сотрудников или неправильной организацией бизнес-процессов. В результате снижается качество клиентского сервиса, возникают трудности с масштабированием бизнеса. Автоматизированная система поддержки решений Loginom Decision Maker анализирует и структурирует большие массивы данных и представляет их в удобном для принятия решений виде. Готовая система используется в качестве основы кредитного конвейера, проверки контрагентов, формирования рейтинга поставщиков, анализа единого профиля клиентов и других процессов. Преимущества Loginom Decision Maker: ⚡️Формализация процесса принятия решений любой сложности ⚡️Гибкость в настройке новых бизнес-процессов с минимальными трудозатратами ⚡️Централизованный и комплексный подход к управлению логикой принятия решений ⚡️Высокая производительность и увеличение пропускной способности ⚡️Снижение потерь и операционных ошибок Подробнее по ссылке 👈🏻

DataEng
4 402
SmartData от JUG Ru Group возвращается! Конференция для дата-инженеров пройдет уже в октябре. Вы можете стать ее спикером. Ес
SmartData от JUG Ru Group возвращается! Конференция для дата-инженеров пройдет уже в октябре. Вы можете стать ее спикером. Если у вас есть интересные кейсы или вы хотите поделиться опытом решения нетривиальных задач — подавайте заявку на участие. Вы подтвердите свою экспертность, познакомитесь с крутыми специалистами и получите обратную связь от участников. Программный комитет поможет с подготовкой к выступлению — назначит персонального куратора, проведет ревью материала и организует репетиции. На сайте вы найдёте список тем, с которыми можно выступить. Если хотите выступить с другой темой, присылайте свои предложения — их обязательно рассмотрят. А если хотите просто поучаствовать в SmartData 2022 — билеты уже на сайте.

DataEng
4 402
Устали заливать медленный код серверами? Приходите на новый сезон онлайн-конференции для backend-разработчиков Podlodka Backend Crew! Стартуем 18 июля, тема сезона – "Делаем приложения быстрее"! Всю неделю будем пристально смотреть на производительность приложений. Будем учиться ⚡️Замерять и анализировать нагрузку ⚡️Оптимизировать узкие места, не переписывая сервис с нуля ⚡️Грамотно использовать многопоточность и эффективно утилизировать доступные ресурсы ⚡️Ускорять все, что тормозит! Будем разбираться фундаментально, поэтому привязки к конкретному стеку и фреймворкам в программе не будет. Зато, например, будем разбираться с реактивным подходом и акторной моделью. Как всегда в Podlodka Crew все это на протяжении недели с необычными нескучными форматами сессий, и с живым комьюнити в Slack. До следующего понедельник действует early-bird скидка, а билеты и подробности уже доступны на сайте. Ждем на борту!

DataEng
4 402
Про таймауты и внешние API Хорошей практикой при работе с внешними сервисами я считаю явное указание таймаутов ожидания соединения и ответа от хоста. Такой подход поможет избежать проблем с "зависанием" соединения и, как следствие, блокировкой процесса (для блокирующих соединений). На моей памяти было 2 неприятных кейса. В далёком 2015 я использовал requests для работы с сервисом поиска и бронирования ЖД билетов в Казахстане, по-умолчанию в requests нет таймаута и ожидание может превратиться в бесконечность. Всё было хорошо до тех пор пока у внешнего сервиса не начались проблемы, и он перестал отвечать на запросы. Все worker-процессы ушли в бесконечное ожидание, и мой сервис перестал принимать новые соединения, сайт попросту сломался. Тогда мне потребовалось некоторое время, чтобы понять в чем проблема. Со второй проблемой я столкнулся неделю назад. Сейчас я разрабатываю веб-сервисы для автоматизации рекламных сетей, активно пользуюсь Facebook Ads. Для работы с маркетинговым сервисом Фейсбука существует библиотека facebook-python-business-sdk. Внимание! Под капотом она использует requests 😉 И у неё нет таймаута по умолчанию. Я наткнулся на те же грабли, когда ФБ стал подтормаживать. К слову, если вы как и я пользуетесь facebook-python-business-sdk, то таймаут можно установить через инициализацию API-класса: FacebookAdsApi.init(accesstoken=accesstoken, apiversion='v13.0', timeout=settings.FACEBOOKADSAPITIMEOUT) Не наступайте на грабли, ставьте таймауты 😉 Также по теме в ленте увидел пост про патчинг requests: https://adamj.eu/tech/2022/06/23/how-to-patch-requests-to-have-a-default-timeout/

DataEng
4 402
Хех, тут новый релиз Luigi нарисовался — https://github.com/spotify/luigi/releases/tag/3.1.0 В интернетах народ уже давно похоронил этот замечательный фреймворк, апеллирует народ в основном к тому, что, мол, давно не было обновлений. А обновлять то там особо нечего, он простой и работает без сбоев. У меня, например, Luigi вот уже много лет бэкапит все сайты и складывает на S3.

DataEng
4 402
Доклады с Airflow Summit 2022 подъехали: https://bit.ly/3mzyl9T

DataEng
4 402
Подготовил конспект статьи от Shopify о сетапе Airflow на 10 тысяч DAG'ов со 150 тысячами запусков в день. Сэкономит вам время на прочтении и поможет освежить в памяти в будущем. #briefly #airflow Airflow: scaling out recommendations by Shopify https://telegra.ph/Airflow-scaling-out-recommendations-by-Shopify-06-03 What's inside: — Cloud Storage vs Network File System. — Metadata retention policy. — Manifest file. — Consistent distribution of load. — Concurrency management. — Using different execution environments. Origin: Lessons Learned From Running Apache Airflow at Scale

DataEng
4 402
​​🔥Как изменится Spark и работа дата-инженера в новых реалиях? 📅Приглашаем 14 июня в 20:00 мск на бесплатный вебинар «Дата инженер и Spark в новых реалиях» 📚На вебинаре мы ответим на вопросы: ✔️ Как изменятся источники и получатели данных, объемы данных, языки для ETL, кластера, облака и IDE? ✔️ Насколько будет востребован дата-инженера на рынке и к чему нужно быть готовым? 💎А также обсудим open source технологии и примеры миграционных проектов. 👉🏻Регистрация на вебинар: https://otus.pw/ZUfD/

DataEng
4 402
​​📌 Интересно развиваться как инженер данных? 31 мая начинаются занятия на онлайн-курсе «Data Engineer» в OTUS. 🚀 Курс поможет разработчикам и администраторам СУБД научиться работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями. ✅ Через 3 месяца вы сможете использовать инструменты обработки данных, адаптировать датасеты и отвечать за архитектуру данных в компании. 💻 На курсе вас ждет интенсивная практика: примеры внедрений, разбор типичных ошибок и отработка навыков на виртуальных стендах Yandex.Cloud. 🔥 Пройдите вступительный тест, чтобы успеть записаться в группу

DataEng
4 402
Планируете переезд или остаётесь в России? Если вы разработчик и у вас есть минута времени, поделитесь планами в анонимном опросе. Там всего 7 вопросов. Ваши ответы помогут крупному IT-работодателю понять, в каких странах стоит открывать офисы и как условия нужны разработчикам.

DataEng
4 402
​​🚀 Готовы сделать первый шаг к карьере дата-инженера? 23 и 24 мая в 20:00 пройдет открытый интенсив Extract - Load с помощью SaaS-сервиса vs. Cобственное решение. Поиск баланса и дзен. Мероприятия проведет Артемий Козырь, Analytics Engineer в компании Wheely. ✅ На интенсиве мы рассмотрим следующие темы: ✔️ Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения. ✔️ Extract-Load через API-вызовы, обращения к СУБД и CDC — оптимальные способы реализации. ✔️ Автоматизация выгрузки, повторные попытки (retries), получение уведомлений в Slack (notifications) с помощью Airflow. ✔️ Накопление истории выгрузок и организация Data Lake в S3 перед DWH. 👉 Проходите вступительный тест и регистрируйтесь на вебинар

DataEng
4 402
​​🚀 Готовы сделать первый шаг к карьере дата-инженера? 23 и 24 мая в 20:00 пройдет открытый интенсив Extract - Load с помощью SaaS-сервиса vs. Cобственное решение. Поиск баланса и дзен. Мероприятия проведет Артемий Козырь, Analytics Engineer в компании Wheely. ✅ На интенсиве мы рассмотрим следующие темы: ✔️ Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения. ✔️ Extract-Load через API-вызовы, обращения к СУБД и CDC — оптимальные способы реализации. ✔️ Автоматизация выгрузки, повторные попытки (retries), получение уведомлений в Slack (notifications) с помощью Airflow. ✔️ Накопление истории выгрузок и организация Data Lake в S3 перед DWH. 👉 Проходите вступительный тест и регистрируйтесь на вебинар