Agentic Engineer

الذهاب إلى القناة على Telegram

Data Engineering Technologies. SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc. Boost channel - https://t.me/boost/data_engi

617

المشتركون

لا توجد بيانات24 ساعات

-17 أيام

+530 أيام

158

عرض المشاهدات

~ 9924 ساعات

~ 11248 ساعات

25.69%

معدل المشاركة

~ 2

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

617

🧈 Как молочное лобби заставляло красить маргарин в розовый В 1880-х годах американские производители молока столкнулись с опасным конкурентом — маргарином. Он стоил дешевле масла и позволял использовать жиры, которые прежде считались отходами. Особенно популярным заменитель стал среди семей, не способных регулярно покупать настоящее сливочное масло. Молочная промышленность объявила маргарин подделкой. Отчасти претензии были справедливы: некоторые торговцы действительно выдавали окрашенный продукт за масло. Но вместо обязательной маркировки фермерские объединения потребовали практически уничтожить конкурента. В 1886 году Конгресс принял Закон об олеомаргарине. Производителям и продавцам понадобились лицензии, а каждый фунт товара обложили налогом в два цента. Один конгрессмен прямо заявил, что хотел бы установить настолько высокий сбор, чтобы производство «поддельного масла» исчезло совсем. Некоторым штатам этого показалось мало. Вермонт, Южная Дакота и Нью-Гэмпшир обязали изготовителей красить маргарин в ярко-розовый цвет. Формально покупателя защищали от обмана. Фактически продукт делали настолько отталкивающим, чтобы его никто не захотел приобретать. Закон Нью-Гэмпшира 1891 года требовал не только крупной надписи «олеомаргарин», но и розовой окраски самого продукта. Нарушителю грозили штраф до $100 или тюрьма на срок до 60 дней. На этом и попался торговый агент Коллинз. Он продал десятифунтовую упаковку маргарина компании Swift & Co. Товар был правильно подписан и соответствовал федеральным требованиям. Единственным преступлением оказался цвет: маргарин выглядел как масло, а не как десерт из мясного жира. Коллинза оштрафовали на $100. Дело дошло до Верховного суда США. 23 мая 1898 года суд отменил приговор. Судьи назвали требование скрытым запретом: розовый краситель превращал нормальный пищевой продукт в практически непродаваемый. В решении ехидно заметили: если властям позволить выбирать цвет, они с тем же успехом смогут потребовать синий, красный или чёрный маргарин — либо вещество с отвратительным запахом. Молочное лобби проиграло бой, но не войну. В 1902 году Конгресс установил налог в десять центов на фунт жёлтого маргарина и всего четверть цента — на неокрашенный. Разница получилась сорокакратной. Производители начали продавать белый маргарин вместе с капсулами красителя. Покупатели разминали пакет вручную, превращая содержимое в привычную жёлтую массу. Особенно забавно, что сами изготовители масла тоже использовали красители, чтобы его цвет не менялся вместе с рационом коров. Так государство не позволило промышленности продавать розовый маргарин — и заставило миллионы покупателей самостоятельно делать его жёлтым. Пруфы: 🔘история закона 1886 года 🔘решение Верховного суда США 🔘Смитсоновский институт 🔘исследование налоговой войны вокруг маргарина #историябизнеса #историяеды #маргарин #потребительскоеправо #экономическаяистория @data_engi

617

Trino наконец получил нормальный PIVOT В Trino 483 появился оператор PIVOT, превращающий значения строк в столбцы. Больше не нужно вручную собирать отчёт через десятки конструкций sum(CASE WHEN ...). Поддерживаются несколько агрегатов, многомерные ключи и итоги через ROLLUP, CUBE и GROUPING SETS. Для инженеров это означает короче SQL-модели и меньше ошибок в отчётных преобразованиях. Ограничение: набор будущих столбцов нужно заранее перечислить в IN — динамического PIVOT пока нет. #trino #sql #dataengineering #analytics #datatransformation #queryengine @data_engi

617

#dev #memes #agentic @data_engi

617

Flink SQL научился превращать обычный поток в CDC и обратно В Apache Flink 2.3 появились функции FROM_CHANGELOG и TO_CHANGELOG. Первая превращает поток строк с кодами операций в динамическую таблицу с INSERT, UPDATE и DELETE. Вторая делает обратное — переводит обновляемую таблицу в append-only журнал событий. Для инженеров это означает, что нестандартные CDC-форматы, аудит и запись в append-only хранилища теперь можно собирать на SQL, без перехода к DataStream API. Но текущей версии нужны полные пары UPDATE_BEFORE и UPDATE_AFTER, иначе состояние может получиться неверным. #apacheflink #flinksql #cdc #streamprocessing #dataengineering #datapipelines @data_engi

617

⚓ Как корабль провалил проверку ещё у причала — и всё равно вышел в море В 1625 году шведский король Густав II Адольф заказал военный корабль «Васа». Швеция воевала с Речью Посполитой, поэтому флоту требовалась плавучая демонстрация силы. Около 400 человек построили судно длиной 69 метров и массой примерно 1200 тонн. На двух закрытых артиллерийских палубах разместили 64 пушки. Корабль получился величественным, богато украшенным — и слишком высоким для своей ширины. Перед первым плаванием капитан Сёфринг Ханссон устроил простейшую проверку остойчивости. Тридцать моряков начали перебегать по верхней палубе от одного борта к другому. После третьего перехода вице-адмирал Клас Флеминг приказал остановиться: корабль раскачивался настолько сильно, что мог опрокинуться прямо у причала. Результат испытания был предельно понятен. Но теоретически рассчитывать остойчивость кораблей в XVII веке ещё не умели. Исправление потребовало бы серьёзной переделки, король ждал судно для войны, а размеры корпуса были утверждены им лично. «Васу» решили отправить в плавание. 10 августа 1628 года на борт поднялись около 150 моряков и гостей. Орудийные порты оставили открытыми: корабль должен был дать торжественный салют перед собравшимися жителями Стокгольма и иностранными послами. Примерно через двадцать минут после отплытия порыв ветра накренил судно. Сначала оно медленно выпрямилось. Второй порыв оказался сильнее: нижние пушечные порты ушли под воду, и море хлынуло на артиллерийскую палубу. «Васа» затонула, пройдя около 1300 метров. До берега оставалось всего 120 метров, но не менее 30 человек, оказавшихся внутри корпуса, погибли. Капитана немедленно арестовали. Расследование установило, что команда была трезвой, пушки закреплены правильно, а корабль построен по утверждённым размерам. Главный кораблестроитель Хенрик Хюбертссон к тому времени уже умер. Король находился за границей. Виновного так и не нашли, и никто не был наказан. Через 333 года, 24 апреля 1961-го, «Васу» подняли со дна. Благодаря холодной солоноватой воде сохранилось около 98% её первоначальных деталей. Сегодня вокруг корабля построен отдельный музей. «Васа» затонула не потому, что её не проверили. Она затонула потому, что проверка дала неудобный для графика результат. Т.е. тесты не прошли, но релиз решили выкатить. 🤷‍♀️ Пруфы: 🔘Музей "Васа" - характеристики и причины катастрофы 🔘материалы расследования 🔘реконструкция гибели корабля #историятехники #инженерныеошибки #васа #кораблекрушение #историяшвеции @data_engi

617

В Сан-Франциско робот-гувернёр начал убирать квартиры Стартап Tau Robotics запустил закрытое тестирование: гуманоидный робот пылесосит, выносит мусор и протирает поверхности за $30 в час. Пока роботом управляют AI и человек-оператор. План — сначала оставить человеку только контроль безопасности, а затем убрать его совсем. Робот ещё не полностью автономен, но уже выходит на рынок услуг. Следующий шаг — чтобы он сам выбрал, что сначала: кухня или бардак в гостиной. #robotics #humanoidrobots #physicalai #automation @data_engi

617

🖼️ PostgreSQL 19 сможет сжимать таблицы почти без простоя В ядре PostgreSQL появился REPACK (CONCURRENTLY). Команда переписывает таблицу и индексы, удаляет место от мёртвых строк и возвращает его операционной системе. Во время копирования таблица остаётся доступной: изменения перехватываются через логическое декодирование. Монопольная блокировка нужна только для короткой финальной подмены файлов — в отличие от VACUUM FULL, который держит её всю операцию. Для инженеров это означает меньше окон обслуживания и внешних инструментов. Но потребуются дополнительное место на диске и таблица с первичным ключом либо REPLICA IDENTITY. #postgresql #database #dataengineering #vacuum #reliability #infrastructure @data_engi

617

😵‍💫 США заподозрили роботы-пылесосы в шпионаже FCC внесла иностранные автономные роботы, включая новые модели роботов-пылесосов, в список устройств, представляющих угрозу нацбезопасности. Причина — камеры, датчики, интернет и возможность удалённо управлять устройством. Уже проданные пылесосы запрет не затрагивает, но новые модели могут не получить разрешение на продажу в США. Пылесос просто хотел собрать пыль, а оказался подозреваемым по делу о кибершпионаже. Пруфы: 🔘Wired 🔘Tom’s Hardware #robotics #cybersecurity #smarthome #technology @data_engi

617

🖼️ PostgreSQL 19 закрыл старую дыру логической репликации Раньше строки с serial и identity реплицировались, а значения стоящих за ними sequence — нет. После переключения на подписчика nextval() мог вернуться назад и упереться в уже занятый ключ. 🖼️ В PostgreSQL 19 появились публикации FOR ALL SEQUENCES и команда REFRESH SEQUENCES. Отдельный процесс переносит текущие значения и проверяет совпадение настроек последовательностей. Важная оговорка: синхронизация не непрерывная. Перед миграцией или переключением узлов команду придётся запускать повторно — зато без самодельных скриптов с setval(). #postgresql #logicalreplication #cdc #dataengineering #datamigration #highavailability @data_engi

617

🍺 Как спор о птице превратил пивоварню Guinness в издателя мировых рекордов В ноябре 1951 года управляющий пивоварней Guinness Хью Бивер отправился на охоту в ирландском графстве Уэксфорд. Охотники промахнулись по золотистой ржанке и заспорили: не самая ли это быстрая промысловая птица Европы? Ответ решили найти в справочниках. Но оказалось, что ни один из них такие вопросы не разбирает. Бивер понял: подобные споры каждый вечер возникают в тысячах британских и ирландских пабов. Значит, Guinness может выпустить книгу, которая будет заканчивать их раньше, чем участники перейдут от доводов к кружкам. В 1954 году сотрудник пивоварни и знаменитый бегун Крис Чатауэй познакомил Бивера с близнецами Норрисом и Россом Макуиртерами. Братья содержали лондонское агентство, снабжавшее газеты точными фактами и статистикой. 📕 Guinness заказала им сборник рекордов. Макуиртеры писали его тринадцать с половиной недель, работая примерно по 90 часов в неделю. Они рассылали запросы астрономам, врачам, зоологам, инженерам и спортивным организациям, сверяя каждый показатель с профильными специалистами. 📗 В 1955 году появилась зелёная книга объёмом 198 страниц. Переплёт даже рекламировали как устойчивый к воде и пиву — справочник изначально предназначался для суровой среды британского бара. Первый тираж составил 50 000 экземпляров. Часть раздали как рекламные подарки Guinness, остальные поступили в продажу. К Рождеству книга стала британским бестселлером, а первый выпуск пришлось допечатывать ещё трижды. Дальше рекламный сувенир начал жить собственной жизнью. К 1964 году продали миллион книг. В 1974-м «Книга рекордов Guinness» сама установила рекорд: при общем тираже 23 950 000 экземпляров её признали самой продаваемой защищённой авторским правом книгой в истории. Но у этой истории есть особенно забавный факт. Вопрос, ради которого всё началось, в первых книгах так и не разобрали: издание учитывало мировые рекорды, а не первенство птиц внутри Европы. По современным данным Guinness, наиболее вероятный ответ — краснозобый крохаль, способный лететь со скоростью около 130 км/ч. Так Guinness создала мировую систему проверки фактов, чтобы завершать споры в пабах. И первым делом оставила незавершённым тот спор, ради которого появилась. Пруфы: 🔘история создания книги 🔘архив изданий 🔘Смитсоновский институт 🔘данные о самой быстрой промысловой птице #историябизнеса #книгарекордов #guinness #историярекламы #необычныефакты @data_engi

617

DuckDB ускорил чтение CSV из S3 почти в 20 раз 31 июля разработчики DuckDB представили асинхронное чтение Parquet и CSV, которое станет стандартным в DuckDB 2.0. В тесте TPC-H запрос к CSV-файлу размером 80,9 ГБ в S3 ускорился с 878 до 45 секунд. Для Parquet время сократилось с 8,23 до 2,84 секунды. Отдельный пул I/O-потоков и управляемый памятью read-ahead позволяют не блокировать вычислительные потоки на сетевых запросах. Для инженеров это означает заметно более эффективные запросы к удалённым озёрам данных без предварительной загрузки файлов. Источник: DuckDB — Asynchronous I/O #duckdb #dataengineering #asynchronousio #s3 #parquet #datalake @data_engi

617

Iceberg защитил каталог от двойных коммитов В Apache Iceberg 1.11 REST Catalog получил поддержку стандартного заголовка Idempotency-Key для изменяющих операций. Теперь повторный запрос после сетевого тайм-аута — создание таблицы, удаление или коммит — гарантированно не выполнится дважды. Раньше клиент мог не получить ответ и повторить уже успешно завершённую операцию, создавая лишние снимки или повреждая состояние каталога. Для тебя, как инженера, это важный шаг к нормальной семантике повторных попыток: сбой сети больше не должен превращаться в сбой данных. #apacheiceberg #lakehouse #dataengineering #idempotency #dataintegrity #reliability #restapi @data_engi

617

🤖 Google научила Gemini управлять всем гуманоидным роботом Google DeepMind представила Gemini Robotics 2 — модель, которая управляет не только руками, но и всем телом робота. На демонстрации Apollo 2 ходил, наклонялся, находил предметы на полке, завязывал пакеты и откручивал лампочки. Это шаг от роботов, выполняющих отдельные запрограммированные движения, к универсальным физическим агентам. Пока речь идёт о демонстрациях, а не о массовой автономной эксплуатации, но направление очевидно: Google пытается создать универсальный программный слой для разных роботов. The Verge #physicalai #robotics #artificialintelligence #humanoids #roboticsai @data_engi

617

#dev #memes #promptengineer #data_engi

617

Flink выкинул Hadoop из пути к S3 В Apache Flink 2.3 появился flink-s3-fs-native — новый файловый плагин для S3, написанный специально для Flink и не зависящий от Hadoop. В тестах среднее время создания чекпоинта сократилось с 90,1 до 48,8 секунды, а на небольших состояниях ускорение доходило до 4,5 раза. Заодно проект перешёл с устаревшего AWS SDK v1 на v2 и уменьшил дерево зависимостей. Для потоковых систем это означает более быстрое восстановление после сбоев, меньше данных для повторной обработки и более короткие задержки при exactly-once записи. Пока плагин экспериментальный и подключается вручную. #apacheflink #dataengineering #streamprocessing #s3 #checkpoints #reliability #infrastructure @data_engi

617

#dev #memes #de #sql #bigdata #datalake #nosql #dwh @data_engi

617

🤖 Разработчик «мозгов» для роботов может получить оценку $3 млрд Generalist AI ведёт переговоры о новом раунде финансирования. Если сделка состоится, компанию оценят примерно в $3 млрд — всего через месяц после раунда на $400 млн при оценке $2 млрд. Generalist не производит роботов. Она делает универсальные модели, которые должны работать на разных машинах — от фабричных манипуляторов до домашних роботов. Роботы ещё не научились стабильно складывать бельё, а их «мозги» уже дорожают быстрее, чем квартиры. Пока это переговоры, а не закрытая сделка. #robotics #physicalai #artificialintelligence #startups @data_engi

617

Kafka позаимствовала cordon у Kubernetes В Apache Kafka 4.3 появилась возможность запретить размещение новых партиций на выбранном диске или брокере, не отключая его. Для этого добавили настройку cordoned.log.dirs. Если указать конкретный каталог, Kafka перестанет класть туда новые реплики. Если поставить *, весь брокер исключается из новых назначений, продолжая обслуживать существующие данные. Это упрощает замену дисков и вывод брокеров из кластера: больше не нужно переносить партиции, пока Kafka параллельно создаёт там новые. Apache Kafka 4.3 #apachekafka #dataengineering #streaming #distributedSystems #infrastructure #kubernetes

617

Две реализации Iceberg проверяют друг друга на 10 000 тестах Разработчики Apache Comet превратили почти 10 000 тестов Iceberg для Spark в систему дифференциального тестирования. Один запрос выполняется двумя путями: через эталонную Java-реализацию и через Iceberg Rust/DataFusion. Если результаты расходятся — где-то спряталась ошибка. Такой подход уже выявил дефекты не только в молодой Rust-версии, но и в зрелой Java-реализации. Для инженеров здесь важна сама практика: независимые движки могут служить взаимными «оракулами» корректности и находить ошибки, которые обычные тесты годами не замечают. #apacheiceberg #dataquality #differentialtesting #dataengineering #datafusion #reliability @data_engi