DataEng
رفتن به کانال در Telegram
Data Engineering & Distributed Systems Contact @adilkhash
نمایش بیشتر4 409
مشترکین
اطلاعاتی وجود ندارد24 ساعت
-17 روز
+1330 روز
آرشیو پست ها
4 409
Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
4 409
Orchestrate LLMs and Agents with Apache Airflow®
Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.
4 409
Доклады с Airflow Summit 2025
Подъехали доклады с прошедшей не так давно конференции Airflow Summit 2025, много вкусного, будет что посмотреть по вечерам:
— Airflow at OpenAI
— Benchmarking the Performance of Dynamically Generated DAGs
— Airflow That Remembers: The Dag Versioning Era is here!
— DAGLint: Elevating Airflow DAG Quality Through Automated Linting
— Allegro's Airflow Journey: From On-Prem to Cloud Orchestration at Scale
— Deadline Alerts in Airflow 3.1
— Beyond Logs: Unlocking Airflow 3.0 Observability with OpenTelemetry Traces
— Introducing Apache Airflow® 3 – The Next Evolution in Orchestration
— Security made us do it: Airflow’s new Task Execution Architecture
— Unlocking Event-Driven Scheduling in Airflow 3
Полный список видео смотрите на Ютуб канале — Apache Airflow
4 409
Очередной подгон от Astronomer про лучшие практики построения ETL/ELT пайплайнов на базе Apache Airflow 3 — Best practices for ETL and ELT pipelines with Apache Airflow 3
Небольшая электронная книга на 50 страниц, удобно использовать как справочник.
4 409
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.
Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.
📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке
🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов
⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования
Хочешь получить бесплатную пробную версию на 30 дней?
👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой
Контакт: https://t.me/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
4 409
Apache Airflow 3.1.1
Вышел новый релиз Apache Airflow 3.1.1 очередным паком багфиксов — Airflow 3.1.1 (2025-10-27). Пофиксали очередную утечку памяти с remote logging connection cache.
Что-то 3-я версия Эйрфлоу богата на ошибки с утечками памяти. Бегу обновлять свой инстанс.
4 409
Построение пайплайнов dlt в Apache Airflow
dlt это python библиотека для загрузки данных из разных источников. Она из коробки поддерживает работу с REST API, SQL, облачными хранилища и т.д. В сети появился бесплатный курс как подружить dlt и Apache Airflow — Deploy dlt pipelines. Сейчас доступны материалы про Apache Airflow, но на подходе информация и про Prefect, Dagster, Kestra, Orchestra и Modal. Я неоднократно слышал про dlt, но ни разу не доводилось использовать. Сейчас у меня есть пара проектов, где необходимо забирать данные из Airtable. Планирую ознакомиться с курсом и попробовать переделать свой пайплайн.
4 409
Ребята из Qdrant запустили бесплатный семидневный курс про свою векторную базу данных: Qdrant Essentials
Меня в последнее время интересует тема векторного поиска и векторных БД, и Qdrant как раз неплохой кандидат на изучение и реализацию какого-нибудь проекта (спойлер: домашнего векторного поисковика). Курс прям как по заказу!
4 409
The Annual Airflow Survey
Если вы пользуетесь Apache Airflow, то давайте поможем сообществу собрать больше информации об использовании Airflow. До 20 ноября необходимо заполнить опросник на сайте взамен вы получите возможность пройти сертификацию по Airflow от Astronomer бесплатно (я сдавал их экзамен и он хороший). Опросник небольшой, замёт не более 10 минут вашего времени.
4 409
Airflow AI SDK
Нашел интересный реп от Astronomer с набором тасков для работы с большими языковыми моделями — airflow-ai-sdk.
Пакет предлагает набор декораторов:
— LLM tasks with @task.llm: Define tasks that call language models to process text — Agent tasks with @task.agent: Orchestrate multi-step AI reasoning with custom tools —Branching with @task.llm_branch: Change DAG control flow based on LLM output — Embedding tasks with @task.embed: Create vector embeddings from textПоддерживает работу с OpenAI, Anthropic, Gemini и другими через пакет pydantic-ai. С новым механизмом Human-in-the-Loop в Airflow 3.1 стало ещё удобнее контролировать процесс с помощью человека. Имхо, Airflow неплохо вписывается в эру ИИ мульти-агентов в качестве надёжного оркестратора.
4 409
MCP сервер для Apache Airflow
Нашел репозиторий с готовым MCP сервером для Apache Airflow — mcp-server-apache-airflow
MCP или Model Context Protocol - это протокол, позволяющий большим языковым моделям взаимодействовать со сторонними сервисами, дергая их за "ручки". Например, используя этот MCP сервер для Airflow можно через ИИ-агента манипулировать дагами и не только.
4 409
Jetbrains DataGrip бесплатно для некоммерческих целей
Теперь JetBrains DataGrip можно использовать бесплатно в некоммерческих целях. Я уже давно пользуюсь продуктами JetBrains, мой фаворит безусловно PyCharm. Работая в компании Playirx, я регулярно использовал DataGrip и считаю его лучшей оболочкой для работы с базами данных. DataGrip пополнил линейку бесплатных продуктов (для некоммерческих целей) наряду с CLion, RustRover, WebStorm и RubyMine. Вполне возможно, что скоро мы увидим и Rider и GoLand в этом списке 🤞
4 409
Data Engineering Design Patterns 🔥
В сети бесплатно раздают электронную копию книги Data Engineering Design Patterns. Я её ещё не читал. На книжных сайтах у неё неплохой рейтинг. Если вдруг искали что почитать по теме, то думаю стоит приглядеться. Ну а чтобы вам не нужно было заполнять форму, я сразу прикрепил pdf с книгой к сообщению.
4 409
Как я чищу метаданные Apache Airflow 3.x
В блоге Apache Airflow есть скрипт для периодической чистки метаданных в БД Apache Airflow. Но начиная с Airflow 3.0 невозможно обращаться к БД напрямую (через модели SQLAlchemy), в связи с этим скрипт не работает. Даже вызов shell команды
airflow db clean через BashOperator выдаст ошибку по типу:
Could not parse SQLAlchemy URL from string 'airflow-db-not-allowed:///': source="airflow.task.hooks.airflow.providers.standard.hooks.subprocess.SubprocessHook"
RuntimeError: Direct database access via the ORM is not allowed in Airflow 3.0
Как решить? Я нашел выход запуска через старый добрый Cron:
0 0 * * * /home/airflow/.airflow/bin/airflow db clean --clean-before-timestamp "$(date -d '7 days ago' +'%Y-%m-%d %H:%M:%S')" --skip-archive -y
В полночь команда запускается и чистит все данные , оставляя только последние 7 дней. Но это работает на моём личном self-hosted Airflow, как быть с MWAA я пока не знаю, т.к. не обновлялся и не знаю как поведёт себя DAG.4 409
Apache Airflow 3 в Amazon Cloud
На Amazon стала доступна 3-я версия Apache Airflow: Introducing Apache Airflow 3 on Amazon MWAA: New features and capabilities
Но я бы пока не спешил бежать и обновляться, т.к. релиз спорный, а тем более вышла уже версия 3.1 (её ещё нет в Амазоне), в которой часть проблем как с движком так и с интерфейсом была исправлена. Постепенно всё же готовиться к переходу стоит начать. В этом поможет руководство по переходу со 2 на 3 от Amazon: Best practices for migrating from Apache Airflow 2.x to Apache Airflow 3.x on Amazon MWAA
Из неприятного. В тройке запретили прямой доступ к базе из рабочих нод (рабочих лошадок), т.е. как раньше использовать модели SQLAlchemy для чтения из базы метаданных не получится, теперь все только по REST API (который также изменился). Что это значит для вас? Например, если у вас был даг, чистящий XCom, логи и т.д., то он не будет больше работать.
4 409
Очередной подгон в виде бесплатной книги от Astronomer — Orchestrating dbt with Apache Airflow® using Cosmos 🚀
Неплохой вводный гайд по оркестрации dbt пайплайнов через Apache Airflow и пакет astronomer-cosmos. Я закончил свою работу с dbt, когда его возможно было запускать только через BashOperator, сейчас ситуация иная.
4 409
Последние года 4 я использовал Apache Airflow исключительно в облаке, преимущественно в Amazon — Amazon Managed Apache Airflow. И как обычно бывает, в облаках всё так или иначе между собой связано. Логи хранятся в Cloud Watch, воркеры запускаются в изолированной среде (Amazon Fargate). С июля месяца я стал активно использовать self-hosted Airflow на своих серверах (для своих личных целей), и в целях экономии храню всё в файлах. Так уж получилось, что задачу с регулярной "чисткой" я постоянно откладывал и вот настал час X, когда всё легко из-за исчерпания inodes в файловой системе. Для этого случая я написал DAG, который каждый день в полночь чистит папки со старыми логами, делюсь с вами вдруг он пригодится:
import os
import shutil
from datetime import datetime, timedelta
import pendulum
import structlog
from airflow.sdk import DAG, task
logger = structlog.get_logger(__name__)
@task
def cleanup_airflow_logs(days_to_keep):
log_base_path = os.environ.get("AIRFLOW_HOME", "/opt/airflow") + "/logs"
cutoff_date = datetime.now() - timedelta(days=days_to_keep)
for root, dirs, files in os.walk(log_base_path):
for dir_name in dirs:
dir_path = os.path.join(root, dir_name)
try:
if os.path.getmtime(dir_path) < cutoff_date.timestamp():
logger.info(f"Deleting old log directory: {dir_path}")
shutil.rmtree(dir_path)
except Exception as e:
logger.error(f"Error deleting directory {dir_path}: {e}")
with DAG(
dag_id="airflow_log_cleanup_dag",
start_date=pendulum.datetime(2025, 10, 1, tz="Asia/Almaty"),
schedule="@daily", # Run daily at midnight
catchup=False,
default_args={
"owner": "airflow",
"retries": 2,
"retry_delay": timedelta(minutes=5),
},
max_active_runs=1,
) as dag:
cleanup_airflow_logs(days_to_keep=14)
Здесь учитывается стандартный шаблон именования логов и директорий, включающий дату и время. Я по привычке использую structlog для ведения логов.4 409
Repost from DevBrain
Python 3.14 уже здесь!
Пару часов назад вышел финальный релиз новой версии Python 3.14. Это, пожалуй, один из самых мощных релизов на моей памяти. Новая версия несёт в себе ряд крутых фич, а именно:
- полная поддержка Free-threaded Python
- T-strings, спорная фича, но на мой взгляд удобно иметь в стандартной библиотеке (синтаксис знакомых нам f-strings)
- zstd внутри стандартной либы, один из самых эффективных алгоритмов сжатия данных
- поддержка multiple interpreters из коробки
- uuid 6-8, на 40% быстрее
И многое другое, полный список изменений ловите по ссылке: https://pythoninsider.blogspot.com/2025/10/python-3140-final-is-here.html
4 409
Что происходит в LLM. Октябрь 2025
Несмотря на то, что LLM — главный хайп последних 2 лет, вокруг больших моделей остаётся много путаницы и заблуждений. Чем отличаются модели? Надо ли доучивать модель? Хостить или ходить по API? На что можно рассчитывать при построении агента или RAG-системы? Почему у кого-то работают RAG и агенты, а кто-то вовсе в них разочаровался?
Deepschool ответит на эти и другие вопросы на онлайн-лекции в четверг! За полтора часа вы получите актуальный срез индустрии вокруг LLM:
— актуальные модели и их свойства
— бенчмарки
— self-host VS API
— типы задач
— главные «болячки» ванильных решений
— и актуальные советы по их лечению
Спикер — Дмитрий Калашников, NLP Team Lead в Яндексе🔥
А ещё расскажут про курс «LLM», где объяснят теорию LLM, научат промптингу, дообучению, элайменту, построению RAG, агентских-систем и деплою — всё под кураторством опытных инженеров.
Всем участникам лекции подарят скидки на обучение 🎁
Подключайтесь в четверг, 9 октября в 18:30 МСК!
Регистрируйтесь по ссылке и приходите на лекцию в четверг!
4 409
Релиз Apache Airflow 3.1
Вышла новая версия Apache Airflow 3.1, в ней куча изменений и новых фич, бессмысленно пересказывать, бегите читать пост в блоге: https://airflow.apache.org/blog/airflow-3.1.0/
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
