ch
Feedback
DataEng

DataEng

前往频道在 Telegram

Data Engineering & Distributed Systems Contact @adilkhash

显示更多
4 401
订阅者
-124 小时
-17
+1230
帖子存档
DataEng
4 401
Релиз Apache Airflow 3.1 Вышла новая версия Apache Airflow 3.1, в ней куча изменений и новых фич, бессмысленно пересказывать, бегите читать пост в блоге: https://airflow.apache.org/blog/airflow-3.1.0/

DataEng
4 401
На Ютуб-канале CultRepo вышел большой документальный фильм про наш любимый язык программирования — Python. Python: The Documentary | An origin story Сам ещё не смотрел, но уже в предвкушении!

DataEng
4 401
Инструменты для деплоя DL-моделей Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать за
Инструменты для деплоя DL-моделей Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. В этот четверг команда DeepSchool на открытой онлайн-лекции покажет, как выглядит путь модели после обучения! Что вы узнаете на лекции: - когда стоит использовать Jupyter-ноутбуки, а когда нет - как подготовить репозиторий моделинга - варианты конвертации модели - как обернуть инференс в http-приложение - чем помогает Model Serving - как деплоят приложения и автоматизируют этот процесс Также мы расскажем о курсе, на котором вы сможете научиться самостоятельно создавать и деплоить DL-сервисы. Всем участникам лекции подарим скидки на обучение!🔥 🙋‍♂️Спикеры лекции: — Дмитрий Раков — руководитель ML в НИИАС, делает percpetion-алгоритмы для беспилотных поездов — Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay ⏰Дата и время: 21 августа, чт, 18:00 мск Регистрируйтесь по ссылке

DataEng
4 401
Продвинутый SQL и PostgresSQL Зашел на сайт Postgres Pro и был приятно удивлён выходом их новой книги — PostgreSQL. Профессиональный SQL, автор Евгений Моргунов. Книга доступна на сайте в электронном виде бесплатно (как и остальные). PostgreSQL. Профессиональный SQL является продолжением другой книги — PostgreSQL. Основы языка SQL, в ней поднимаются более продвинутые темы SQL такие как общие табличные выражения (CTE), агрегатные и оконные функции, пользовательские функции и процедуры. В общем, must read.

DataEng
4 401
Repost from DevBrain
Ух, давненько я не писал в блог. Почти 2 года и ни одного поста за это время. Исправляюсь, держите: https://khashtamov.com/ru/django-orm-and-simplelazyobject/ Недавно столкнулся с задачей, где мне захотелось использовать "ленивые" вычисления и Django ORM. Что получилось, читайте в посте.

DataEng
4 401
Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки? Нужно использовать КХД на архитектуре Lakehouse. 74% западных
Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки? Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив. Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз. → Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH. → Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH. → Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL. → Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы. → Линейный рост затрат вместо экспоненциального при масштабировании. → Не нужно содержать отдельные команды под DWH и Data Lake. → Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций. → Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI. Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов: 👉Оставляйте заявку Будем рядом на всех этапах пилота и поможем довести MVP до результата.

DataEng
4 401
Apache Airflow 3.0.3 Вышла минорная версия Apache Airflow — 3.0.3, в этой версии пофиксили множество багов: https://github.com/apache/airflow/releases/tag/3.0.3 Я уже поставил, полёт нормальный. Но буквально на днях я нашел ещё один баг с утечкой памяти, но мне необходимо время чтобы его проверить и подтвердить (и возможно исправить ещё одним PR в мастер). К сожалению, релиз 3-й версии не очень радует, слишком много проблем + непривычный UI, ждём-с 3.1. А вы уже поставили тройку? Как полёт? Хотите запишу в YouTube скринкаст с комментариями об установке и настройке новой версии? Накидайте лайкосов и комментов под постом. 🔥🔥🔥

DataEng
4 401
4 проблемы при решении задач с LLM Работать с LLM непросто: модели часто галлюцинируют, игнорируют важные детали из контекста, не умеют работать с актуальной информацией или не доводят задачу до конца. А ещё всё сильно усложняется, когда нужно не просто сгенерировать ответ, а встроить модель в рабочую систему — с агентами, RAG и инфраструктурой. Команда DeepSchool подготовила лекцию, на которой расскажут: — как сделать чатбота, который уместно использует факты из диалога и ведёт себя как человек — как научить агента выполнять комплексные задачи — когда действительно стоит обновлять модель — и какие фреймворки выбрать, чтобы не тратить время зря Спикер — Илья Димов, Senior NLP Engineer в Яндексе расскажет, какие проблемы возникают при построении LLM приложений и как их исправить. 🗓 Лекция пройдёт в четверг, 19 июня в 19:00 мск! Регистрируйтесь по ссылке и приходите, чтобы узнать решения своих проблем и задать вопросы!

DataEng
4 401
Ранее я писал про релиз Airflow 3.0.2 в котором исправили утечку памяти, но на деле оказалось, что не полностью. Проблема была решена лишь частично, мои пайплайны продолжали периодически падать и съедать память. Посидев вечерок я локализовал проблему и написал фикс, который благополучно был принят в главную ветку Airflow. Судя по всему релиз 3.0.3 не за горами.

DataEng
4 401
Orchestrating Workflows for GenAI Applications На платформе DeepLearning AI вышел новый курс про Apache Airflow от ребят из Astronomer — Orchestrating Workflows for GenAI Applications Курс прикладной без лишней воды, рассчитан на тех, кто не знаком с Airflow. В курсе разбирают пример создания кастомного RAG с последующей загрузкой в векторную базу через призму работы с Airflow. Возможно кому-то будет полезным!

DataEng
4 401
Apache Airflow 3.0.2 Буквально час назад вышла новая багфикс версия Apache Airflow 3.0.2. Я с недавнего времени начал использовать тройку на своих проектах и столкнулся с неприятным сюрпризом - утечкой памяти. Встроенный dag-processor плодил кучу тредов и открытых файлов из-за чего количество файл дескрипторов росло вместе с количеством потребляемой оперативной памяти. Важный апдейт. Обновился только что и пока наблюдаю решил ли релиз проблему, позже отпишусь в комментариях. Ссылка на релиз: https://github.com/apache/airflow/releases/tag/3.0.2

DataEng
4 401
⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимает
⚡️Пошаговый план: как стать аналитиком данных в 2025 Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет? Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта Что будет на вебинаре? 🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня; 🟠 Лайфхаки трудоустройства: — покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание; — обсудите, какие отклики работают, а какие сразу отправляют в корзину; — изнанка найма: инсайдерский взгляд на процессы отбора 🟠Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях 🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру 😶Зарегистрироваться на бесплатный вебинар

DataEng
4 401
Доклады с PyCon US 2025 🐍🐍🐍 Когда я был на PyCon US в 2016 году в Портленде, то записи докладов в сети появлялись в тот же день, но последние года 4 организаторы решили на этом зарабатывать, и записи с конференций появляются со значительной задержкой (несколько месяцев и больше). В этот раз ситуация немного лучше, и на официальном Ютуб канале уже доступны спонсорские доклады для просмотра: — High-Performance Python: Faster Type Checking and Free Threaded ExecutionBuilding AI Applications the Pydantic WayBuilding Scalable AI Tool Servers with Model Context Protocol (MCP) and HerokuEvolving Django: What We Learned by Integrating MongoDBAccelerated Python: The Community and Ecosystem Полный список можно посмотреть в плейлисте (сейчас доступно 11 докладов) Я так понимаю, что все записи уже доступны, но скрыты от нежелательных глаз. Когда именно появятся все доклады неизвестно, но надеюсь в самое ближайшее время. В этот раз было много интересных тем.

DataEng
4 401
Релиз Apache Airflow 2.11.0 Я уже не думал, что будут обновления для 2-й ветки Airflow, а тут релиз 2.11.0: https://github.com/apache/airflow/releases/tag/2.11.0 Причем это не какой-то релиз с багфиксами, там есть новые фишки: — DeltaTriggerTimetable (trigger-based scheduling) — Consistent timing metrics across all backends — Более плавная подготовка к миграции на Airflow 3.0 (добавили команды airflow config lint и airflow config update)

DataEng
4 401
The Practical Guide to Airflow 3 🚀 Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊 Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practical Guide to Airflow 3 за авторством Tamara Janina Fingerlin, Developer Advocate, Astronomer. Книга издательства Manning, доступна бесплатно в электронном формате. Книга заточена под новшества новой версии, и будет полезна как начинающим так и опытным дата инженерам, планирующим переход на тройку. У меня пока не дошли руки потестировать новую версию, планирую это сделать на выходных. А вы уже попробовали?

DataEng
4 401
Релиз Airflow 3.0 Час назад вышла мажорная версия Apache Airflow 3.0: https://github.com/apache/airflow/releases/tag/3.0.0 Помимо полностью обновлённого интерфейса там ещё куча разных ништяков: — DAG Versioning (в сообществе долго ждали эту фичу, но мне она не особо нужна) — Code agnostic execution (появятся т.н. TaskSDK под разные языки программирования, начнут с Go) — Event-driven scheduling and Data Assets (под капотом всё те же триггеры, но механизм немного изменён) Подробности читайте здесь.

DataEng
4 401
Ахтунг! Про Apache Iceberg™ Как то не заметил, что легенда Tim Berglund вернулся в Confluent, и теперь снова вещает нам с экранов. На этот раз Тим разбирает Apache Iceberg: Apache Iceberg™ | What It Is and Why Everyone’s Talking About It А вы уже использовали его у себя?

DataEng
4 401
На злобу дня Трамп раскрыл тарифы на производительность популярных библиотек для анализа данных 😁 Так вот в чем кроется секр
На злобу дня Трамп раскрыл тарифы на производительность популярных библиотек для анализа данных 😁 Так вот в чем кроется секрет успеха pandas 🐼

DataEng
4 401
Курс AI Agents от Microsoft Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/ Помимо текстового материала есть и видео лекции на Ютубе.

DataEng
4 401
Привет! За два месяца ни одного нового поста. Признаться, мне стало неинтересно делиться ссылками на материал по теме и превр
Привет! За два месяца ни одного нового поста. Признаться, мне стало неинтересно делиться ссылками на материал по теме и превращать канал в ссылкопомойку, но тем не менее я продолжаю активно читать и искать новые статьи/видео/лекции по темам: — data engineering — data processing — distributed systems — ml/ai engineering У меня возникла идея сделать аналог hackernews только по нашей теме. Там мы вместе сможем делиться интересным материалом, обсуждать и коллективно оценивать его. Я даже наговновайбкодил прототип 🤓, он сверху 🔝 Что скажете? Накидайте мнений в комментах.