DataEng
رفتن به کانال در Telegram
Data Engineering & Distributed Systems Contact @adilkhash
نمایش بیشتر4 401
مشترکین
-124 ساعت
-17 روز
+1230 روز
آرشیو پست ها
4 400
Deep Dive into LLMs like ChatGPT
На канале Andrej Karpathy вышло 3-х часовое видео с разбором как работают LLM модели на примере ChatGPT. Более того, чуть больше года назад он уже выпускал часовой ролик Intro to Large Language Models, который уже набрал более 2.5 миллионов просмотров!
4 400
AI Agent Course
На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
4 400
The Ultimate Guide to Apache Airflow® DAGs
E-book от ребят из Astronomer про Apache Airflow. 135 страниц концентрированной информации "без воды". Рекомендую! Заходит как справочник в самый раз 👍🏻
4 400
Организовали с ребятами подборку ламповых каналов про дата инжиниринг 💡
https://t.me/addlist/a1B07iwrPxUxNWIy
Подписывайтесь 😎
4 400
Яндекс Игры пришли к нам с запросом:
SELECT *
FROM subscribers
WHERE channel_name = 'dataeng'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2
AND fit = true;
Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.
ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.
Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.
Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md14 400
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
4 400
Python 3.13
Состоялся релиз Python 3.13: https://www.python.org/downloads/release/python-3130/
4 400
Postgres Hacking 101 by Andrey Borodin
Серия из 5 видео о том как написать патч для PostgreSQL. Контент годный, но просмотров очень мало.
— Walk-through of implementing simple Postgres patch. From sources to CI
— Postgres Hacking 101: Benchmarking a Patch
— Postgres Hacking 101: Buffer Page and its API
— Postgres Hacking 101: drop of caches (flushing shared buffers)
— Postgres Hacking 101: detailed buffers statistics in EXPLAIN BUFFERS
4 400
Релиз PostgreSQL 17
Уже и доклад есть на Ютубе о новшествах: https://www.youtube.com/watch?v=peLXtGorl8A
4 400
Building and scaling Notion’s data lake
В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
4 400
В блоге базы данных ClickHouse вышел интересный пост, направленный на PostgreSQL юзеров, в нём показаны ключевые различия между моделированием данных в ClickHouse и PostgreSQL: https://clickhouse.com/blog/postgres-to-clickhouse-data-modeling-tips
4 400
Нашел в Ютубе двухчасовой доклад про индексы в PostgreSQL: Индексы в PostgreSQL. Как понять, что создавать
4 400
Нашел в сети пост мини-книгу от небезызвестной Chip Huyen: Building A Generative AI Platform
Пожалуй, это одно из самых подробных руководств про построение Generative AI платформ своими руками, или как сейчас говорят RAG in Production.
4 400
Гайд по промпт-инжинирингу от ребят из Anthropic: AI prompt engineering: A deep dive
Также в описании видео есть ссылка на их же мануал: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
4 400
DuckCon #5
Плейлист с докладами из прошедшей конференции DuckCon #5:
— DuckDB – Overview and latest developments
— MotherDuck: Taking flight with interactive analytics
— Outliers are all you need
— Quack attack: Bringing DuckDB to the dart side
— A duck for your dashboard: Performant data apps in the browser with DuckDB
— Delighting users with RESTful APIs and DuckDB
— Aerodynamic data models: Flying fast at scale with DuckDB
— Double glazing: Two years of windowing improvements
— dbverse: Composable database libraries for larger-than-memory scientific analytics
— A quack at building scalable data pipelines with DuckDB
4 400
3-х часовой мастер-класс про LLM от Sebastian Raschka: Building LLMs from the Ground Up: A 3-hour Coding Workshop
4 400
Бот-помощник для дата инженера 🤖
Частенько возникает необходимость расшифровать расписание crontab-выражения на человеческий язык, поэтому запили телеграм-бота: CrontabDescriptionBot
Отправьте ему cron-строку и он вернёт вам расписание. Пользуйтесь!
Под капотом он работает на лямбдах, поэтому оплачивать хостинг мне не надо, и поэтому всегда будет работать.
4 400
В сети появился интересный проект — SlateDB. Это встроенное хранилище на базе LSM Tree, но все данные хранятся на Object Storage сервисах (Amazon S3, Google Cloud Storage, minIO и т.д.). Проект написан на Rust, и пока не существует биндингов на другие языки. SlateDB активно разрабатывается и пока не рекомендуется к использованию в продакшене.
Судя по всему, проект появился в результате прохождения мини-курса Mini-LSM.
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
