DataEng
前往频道在 Telegram
4 401
订阅者
-124 小时
-17 天
+1230 天
帖子存档
4 401
Релиз Apache Airflow 3.1
Вышла новая версия Apache Airflow 3.1, в ней куча изменений и новых фич, бессмысленно пересказывать, бегите читать пост в блоге: https://airflow.apache.org/blog/airflow-3.1.0/
4 401
На Ютуб-канале CultRepo вышел большой документальный фильм про наш любимый язык программирования — Python.
Python: The Documentary | An origin story
Сам ещё не смотрел, но уже в предвкушении!
4 401
Инструменты для деплоя DL-моделей
Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. В этот четверг команда DeepSchool на открытой онлайн-лекции покажет, как выглядит путь модели после обучения!
Что вы узнаете на лекции:
- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс
Также мы расскажем о курсе, на котором вы сможете научиться самостоятельно создавать и деплоить DL-сервисы. Всем участникам лекции подарим скидки на обучение!🔥
🙋♂️Спикеры лекции:
— Дмитрий Раков — руководитель ML в НИИАС, делает percpetion-алгоритмы для беспилотных поездов
— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay
⏰Дата и время: 21 августа, чт, 18:00 мск
Регистрируйтесь по ссылке
4 401
Продвинутый SQL и PostgresSQL
Зашел на сайт Postgres Pro и был приятно удивлён выходом их новой книги — PostgreSQL. Профессиональный SQL, автор Евгений Моргунов. Книга доступна на сайте в электронном виде бесплатно (как и остальные). PostgreSQL. Профессиональный SQL является продолжением другой книги — PostgreSQL. Основы языка SQL, в ней поднимаются более продвинутые темы SQL такие как общие табличные выражения (CTE), агрегатные и оконные функции, пользовательские функции и процедуры. В общем, must read.
4 401
Repost from DevBrain
Ух, давненько я не писал в блог. Почти 2 года и ни одного поста за это время. Исправляюсь, держите: https://khashtamov.com/ru/django-orm-and-simplelazyobject/
Недавно столкнулся с задачей, где мне захотелось использовать "ленивые" вычисления и Django ORM. Что получилось, читайте в посте.
4 401
Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки?
Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив.
Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз.
→ Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH.
→ Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.
→ Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL.
→ Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы.
→ Линейный рост затрат вместо экспоненциального при масштабировании.
→ Не нужно содержать отдельные команды под DWH и Data Lake.
→ Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций.
→ Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI.
Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов:
👉Оставляйте заявку
Будем рядом на всех этапах пилота и поможем довести MVP до результата.
4 401
Apache Airflow 3.0.3
Вышла минорная версия Apache Airflow — 3.0.3, в этой версии пофиксили множество багов: https://github.com/apache/airflow/releases/tag/3.0.3
Я уже поставил, полёт нормальный.
Но буквально на днях я нашел ещё один баг с утечкой памяти, но мне необходимо время чтобы его проверить и подтвердить (и возможно исправить ещё одним PR в мастер). К сожалению, релиз 3-й версии не очень радует, слишком много проблем + непривычный UI, ждём-с 3.1.
А вы уже поставили тройку? Как полёт?
Хотите запишу в YouTube скринкаст с комментариями об установке и настройке новой версии? Накидайте лайкосов и комментов под постом. 🔥🔥🔥
4 401
4 проблемы при решении задач с LLM
Работать с LLM непросто: модели часто галлюцинируют, игнорируют важные детали из контекста, не умеют работать с актуальной информацией или не доводят задачу до конца. А ещё всё сильно усложняется, когда нужно не просто сгенерировать ответ, а встроить модель в рабочую систему — с агентами, RAG и инфраструктурой.
Команда DeepSchool подготовила лекцию, на которой расскажут:
— как сделать чатбота, который уместно использует факты из диалога и ведёт себя как человек
— как научить агента выполнять комплексные задачи
— когда действительно стоит обновлять модель
— и какие фреймворки выбрать, чтобы не тратить время зря
Спикер — Илья Димов, Senior NLP Engineer в Яндексе расскажет, какие проблемы возникают при построении LLM приложений и как их исправить.
🗓 Лекция пройдёт в четверг, 19 июня в 19:00 мск!
Регистрируйтесь по ссылке и приходите, чтобы узнать решения своих проблем и задать вопросы!
4 401
Ранее я писал про релиз Airflow 3.0.2 в котором исправили утечку памяти, но на деле оказалось, что не полностью. Проблема была решена лишь частично, мои пайплайны продолжали периодически падать и съедать память. Посидев вечерок я локализовал проблему и написал фикс, который благополучно был принят в главную ветку Airflow.
Судя по всему релиз 3.0.3 не за горами.
4 401
Orchestrating Workflows for GenAI Applications
На платформе DeepLearning AI вышел новый курс про Apache Airflow от ребят из Astronomer — Orchestrating Workflows for GenAI Applications
Курс прикладной без лишней воды, рассчитан на тех, кто не знаком с Airflow. В курсе разбирают пример создания кастомного RAG с последующей загрузкой в векторную базу через призму работы с Airflow. Возможно кому-то будет полезным!
4 401
Apache Airflow 3.0.2
Буквально час назад вышла новая багфикс версия Apache Airflow 3.0.2. Я с недавнего времени начал использовать тройку на своих проектах и столкнулся с неприятным сюрпризом - утечкой памяти. Встроенный dag-processor плодил кучу тредов и открытых файлов из-за чего количество файл дескрипторов росло вместе с количеством потребляемой оперативной памяти. Важный апдейт. Обновился только что и пока наблюдаю решил ли релиз проблему, позже отпишусь в комментариях.
Ссылка на релиз: https://github.com/apache/airflow/releases/tag/3.0.2
4 401
⚡️Пошаговый план: как стать аналитиком данных в 2025
Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?
Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта
Что будет на вебинаре?
🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— обсудите, какие отклики работают, а какие сразу отправляют в корзину;
— изнанка найма: инсайдерский взгляд на процессы отбора
🟠Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях
🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру
😶Зарегистрироваться на бесплатный вебинар
4 401
Доклады с PyCon US 2025 🐍🐍🐍
Когда я был на PyCon US в 2016 году в Портленде, то записи докладов в сети появлялись в тот же день, но последние года 4 организаторы решили на этом зарабатывать, и записи с конференций появляются со значительной задержкой (несколько месяцев и больше). В этот раз ситуация немного лучше, и на официальном Ютуб канале уже доступны спонсорские доклады для просмотра:
— High-Performance Python: Faster Type Checking and Free Threaded Execution
— Building AI Applications the Pydantic Way
— Building Scalable AI Tool Servers with Model Context Protocol (MCP) and Heroku
— Evolving Django: What We Learned by Integrating MongoDB
— Accelerated Python: The Community and Ecosystem
Полный список можно посмотреть в плейлисте (сейчас доступно 11 докладов)
Я так понимаю, что все записи уже доступны, но скрыты от нежелательных глаз. Когда именно появятся все доклады неизвестно, но надеюсь в самое ближайшее время. В этот раз было много интересных тем.
4 401
Релиз Apache Airflow 2.11.0
Я уже не думал, что будут обновления для 2-й ветки Airflow, а тут релиз 2.11.0: https://github.com/apache/airflow/releases/tag/2.11.0
Причем это не какой-то релиз с багфиксами, там есть новые фишки:
— DeltaTriggerTimetable (trigger-based scheduling)
— Consistent timing metrics across all backends
— Более плавная подготовка к миграции на Airflow 3.0 (добавили команды
airflow config lint и airflow config update)4 401
The Practical Guide to Airflow 3 🚀
Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊
Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practical Guide to Airflow 3 за авторством Tamara Janina Fingerlin, Developer Advocate, Astronomer. Книга издательства Manning, доступна бесплатно в электронном формате. Книга заточена под новшества новой версии, и будет полезна как начинающим так и опытным дата инженерам, планирующим переход на тройку.
У меня пока не дошли руки потестировать новую версию, планирую это сделать на выходных. А вы уже попробовали?
4 401
Релиз Airflow 3.0
Час назад вышла мажорная версия Apache Airflow 3.0: https://github.com/apache/airflow/releases/tag/3.0.0
Помимо полностью обновлённого интерфейса там ещё куча разных ништяков:
— DAG Versioning (в сообществе долго ждали эту фичу, но мне она не особо нужна)
— Code agnostic execution (появятся т.н. TaskSDK под разные языки программирования, начнут с Go)
— Event-driven scheduling and Data Assets (под капотом всё те же триггеры, но механизм немного изменён)
Подробности читайте здесь.
4 401
Ахтунг! Про Apache Iceberg™
Как то не заметил, что легенда Tim Berglund вернулся в Confluent, и теперь снова вещает нам с экранов.
На этот раз Тим разбирает Apache Iceberg: Apache Iceberg™ | What It Is and Why Everyone’s Talking About It
А вы уже использовали его у себя?
4 401
На злобу дня
Трамп раскрыл тарифы на производительность популярных библиотек для анализа данных 😁
Так вот в чем кроется секрет успеха pandas 🐼
4 401
Курс AI Agents от Microsoft
Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.
4 401
Привет!
За два месяца ни одного нового поста. Признаться, мне стало неинтересно делиться ссылками на материал по теме и превращать канал в ссылкопомойку, но тем не менее я продолжаю активно читать и искать новые статьи/видео/лекции по темам:
— data engineering
— data processing
— distributed systems
— ml/ai engineering
У меня возникла идея сделать аналог hackernews только по нашей теме. Там мы вместе сможем делиться интересным материалом, обсуждать и коллективно оценивать его.
Я даже наговновайбкодил прототип 🤓, он сверху 🔝
Что скажете? Накидайте мнений в комментах.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
