ch
Feedback
Архитектор Данных

Архитектор Данных

前往频道在 Telegram

Алексей, архитектор данных из ВК. Большие данные и облака. Для связи @alexbelozersky

显示更多
1 807
订阅者
+124 小时
无数据7
+3230

数据加载中...

吸引订阅者
六月 '26
六月 '26
+57
在2个频道中
五月 '26
+27
在0个频道中
Get PRO
四月 '26
+296
在8个频道中
Get PRO
三月 '26
+62
在3个频道中
Get PRO
二月 '26
+192
在5个频道中
Get PRO
一月 '26
+156
在4个频道中
Get PRO
十二月 '25
+82
在5个频道中
Get PRO
十一月 '25
+143
在7个频道中
Get PRO
十月 '25
+106
在4个频道中
Get PRO
九月 '25
+190
在3个频道中
Get PRO
八月 '25
+252
在10个频道中
Get PRO
七月 '25
+89
在3个频道中
Get PRO
六月 '25
+36
在1个频道中
Get PRO
五月 '25
+24
在1个频道中
Get PRO
四月 '25
+166
在2个频道中
Get PRO
三月 '250
在1个频道中
Get PRO
二月 '250
在0个频道中
Get PRO
一月 '25
+102
在1个频道中
日期
订阅者增长
提及
频道
23 六月+8
22 六月+1
21 六月0
20 六月+1
19 六月0
18 六月0
17 六月0
16 六月+3
15 六月0
14 六月+2
13 六月+2
12 六月0
11 六月+1
10 六月+7
09 六月+1
08 六月+7
07 六月+3
06 六月+1
05 六月+1
04 六月+13
03 六月+1
02 六月+1
01 六月+4
频道帖子
Тренд на отказ от ETL провозглашенный датабриксом реален. Реальностью его сделали 2 вещи 1) Появление лейка с упрощенной транзакционной моделью, квази-acid. В первую очередь это Iceberg и похожие на него технологии. 2) Распространение агентов. И внезапно выяснилось, что под 98% микросервисов вполне можно подложить стораж с ограниченной транзакционной машиной. И нагрузки там большой не будет - ну 5, ну 50 tps - это уже вполне в зоне, где тот же s3 стораж справится. С некоторым кешем, разумеется. С другой стороны - возможность подключить агента напрямую к данным (именно к данным, а не к самому сервису) это ценно. Потому что агент может сам обходить данные нескольких сервисов, взаимно обогащать их по своему усмотрению без того, чтобы разработчики сервисов делали ему отдельные ручки и оборачивали их в MCP. Уходит важнейшее узкое место любых агентных историй. Поэтому да, в транзакциях мало ценности, а в лайв-подключении агентов - много. Нас ждет LTAP.

2
Databricks объявил конец эпохи пайплайнов. На Data + AI Summit 2026 компания представила новую архитектуру LTAP (Lake Transac
Databricks объявил конец эпохи пайплайнов. На Data + AI Summit 2026 компания представила новую архитектуру LTAP (Lake Transactional/Analytical Processing), которая должна объединить транзакционные системы, аналитику, стриминг и AI на одной копии данных. Идея радикальная: приложения, BI-системы и AI-агенты работают с одним источником данных напрямую, без CDC, ETL и бесконечных репликаций между OLTP и аналитическими хранилищами. Последние двадцать лет типичная архитектура выглядела примерно так: PostgreSQL → CDC → Kafka → ETL → Data Warehouse → BI → AI Каждый новый слой добавлял задержки, повышал стоимость владения и создавал новые точки отказа. Особенно болезненно это стало с появлением AI-агентов, которым нужны актуальные данные в реальном времени, а не копия пятиминутной давности. Ответ Databricks — хранить операционные и аналитические данные в одном месте. В основе подхода лежит Lakebase, PostgreSQL-совместимая система, работающая поверх объектного хранилища и интегрированная с Lakehouse. Компания называет это первым LTAP-подходом, который должен заменить как традиционные ETL-процессы, так и многочисленные реплики баз данных. Конечно, заявления о «смерти пайплайнов» стоит воспринимать осторожно. Интеграции между компаниями, обмен данными с внешними системами, специализированные стриминговые сценарии и гибридные архитектуры никуда не денутся. Но сам тренд выглядит очень интересным. Если раньше индустрия спорила, что лучше — Data Lake или Data Warehouse, то теперь главный вопрос звучит иначе: Нужно ли вообще перемещать данные между системами, если все сервисы, аналитика и AI могут работать поверх одной копии данных? Похоже, именно вокруг этого вопроса и будет строиться следующая большая битва в мире Data Engineering. @tldr_data
443
3
Лучшее вложение Инвестиции работают по принципу - страдай сейчас, расслабляйся потом. Пока лучшая инвестиция которую я видел в кругу своих знакомых - это сертификат 100 баллов по профилю ЕГЭ. Особенно если это ЕГЭ 2007-2010 годов. Всегда можно подзаработать.
782
4
Кто чем занят, а я подловил Клода на задаче расположения 4 городов на поверхности Земли, так чтобы они были максимально удале+3
Кто чем занят, а я подловил Клода на задаче расположения 4 городов на поверхности Земли, так чтобы они были максимально удаленными. Сначала сказал, что будут вершины тетраэдра, но это неверно!
811
5
От таких картинок мне физически больно (
От таких картинок мне физически больно (
843
6
Пойду скажу своим аналитикам, что если будут косячить, переведу их в ИИ-Гулаг
702
7
TechCrunch: AI команду Meты сравнили с Гулаг Сложно представить такие статьи на наших ресурсах. Что где-то бунт, где-то что-т
TechCrunch: AI команду Meты сравнили с Гулаг Сложно представить такие статьи на наших ресурсах. Что где-то бунт, где-то что-то криво, или какой-то косяк в процессах вроде Амазона и выпущенного письма раньше времени. У нас инфляция 2 процента и безработицы нет. Ладно. Не хочу флеймить. Просто моментное размышление. Теперь к Meta. В чем весь цимес. Сотрудников без права отказаться перевели в новый отдел Apllied AI. 6 500 инженеров и продактов. Людей, которые делали продукты, перевели на поддержку ИИ. Теперь они генерят пазлы и задачи по программированию для обучения ИИ. Ты был инженером продукта, а теперь делаешь задачки для модели. Сами сотрудники называют себя призывниками, пишут что такая работа убивает душу, и это буквально гулаг. На этой неделе кто-то сорвал презентацию для сотрудников. Ворвался с матерной тирадой и попросил передать руководителю Meta AI, что тот a piece of sh*t. Такие дела. Народ обсуждает, что ИИ заменит инженеров. Но пока инженеров ставят на лейбелинг и гловоломки. Хотя, возможно, это нужный промежуточный шаг. Просто организовать его, возможно, стоит не как микроскопом по гвоздям. 🔥 — невыносимая тяжесть бытия в Meta 👍 — а как вы хотели, без обучения AI невозможен 💜 — а может будет как с Metaverse
671
8
Вдогонку. Мой главный вопрос к старичку Airflow это то, что он стал слишком сложный. С каждым мажорным релизом он становится еще сложнее. Вот в единичке и двойке были всем известные проблемы с шедулером - зависает, собака. Так давайте его в тройке распилим на несколько подсервисов. И еще даг процессор унесем отдельно чтоб один тяжело написанный даг файл не унес с собой в могилу весь сервис. В моменте это даже нормальные решения. Но то что в итоге получилось это то ли 7, то ли 9 сервисов, которые надо размещать, управлять, за которыми надо следить. Потом во все это залетают Vault для кредов, keycloak для аутентификаций, эластика или s3 для логов, сложные github/gitlab CI-CD для управления кредами. Потом все это надо повторить на нескольких QA-Test средах. Отдельное приключение - управление сложными питонячьими окружениями во всем этом. Некоторые “умельцы» добавляют в это месиво еще своей сложности - например для синхронизации нескольких команд, которые на разных стадиях обслуживают один пайп данных. Для чего делают свои оркестраторы поверх этого оркестратора. Дата инженерам не то чтобы комфортно, у ДевОпсов вскипает мозг от того, сколько всего надо сделать, чтобы весь этот жуткий зоопарк завелся. И тут ты понимаешь, что все это нужно чтобы фактически запустить умный крон с граф интерфейсом. Траблшутнуть что-то по логам, поправить и перезапустить упавшее под-деревце из твоего куста. И твой проект не такой уж сложный, чтобы это все оправдать. Да и за мис по SLA или DQ не то чтобы отвезут в лес в пакете. Тогда зачем этот мудреный комбайн? Решено, делаю свой оркестратор!
733
9
Порой замечаю у людей адский хейт к airflow Для меня это удобный инструмент, правда мне обычно нужно от него десятка три dbt run / dbt test да пара-тройка кастомных интеграций. А какое у вас отношение? И если не старичок, то кто?
676
10
Тем временем Антропик и СпейсЭкс уверенно продает свой лимонные плантации в народ Компанию Маска говорят, даже по-братски уже включили в индексы. Это загоняет триллионы индексных фондов от нефтяных шейхов и американских пенсионеров в компанию по безумной оценке. Это как если бы я продал канал Архитектора Данных за 2 миллиарда рублей и обязал всех купить его часть.
936
11
Anthropic привлёк $65 млрд рамках финансирования серии H при оценке после получения инвестиций в $965 млрд. В феврале было объявлено о привлечении $30 млрд в G-раунде и post-money оценке в $380 млрд. То есть свыше половины триллиона баксов стоимости создано менее, чем за полгода. И многие реально умные, успешные, уважаемые люди, которые привлекают десятки миллионов долларов в Долине — у меня живые примеры есть, с кем я общаюсь — вообще нисколечко не считают, что в США ИИ-пузырь. История повторяется? Или консерваторы зациклились на выявлении паттернов и просто не желают признавать то, как быстро меняется мир? В скором будущем узнаем. https://www.anthropic.com/news/series-h
740
12
Друзья, всем замечательных длинных выходных! Киньте копеечку закиньте бустиков плз, я тогда реакции более веселые поставлю.
1
13
Меняю профессию! Теперь я вайб-садовод. Вы со своими старыми подходами не понимаете, мир изменился, ИИ трансформация сжирает
Меняю профессию! Теперь я вайб-садовод. Вы со своими старыми подходами не понимаете, мир изменился, ИИ трансформация сжирает целые старые отрасли! Мой продукт - нейро лимон 🍋 - инновационное производство с глубоким внедрением Искусственных Интеллектов во все процессы. С помощью ИИ Агентов КлодГПТ я делаю все: определяю режим полива, потребности в свете, поддержке, режим вноса удобрений. И вот результат - продукт вырос по основной метрике на +80% всего за 1,5 месяца! Это успех. Сейчас я активно думаю над масштабированием сразу на уровень плантации и с помощью ИИ агентов подбираю подходящую площадку для производства. В то де время другие мои КлодГПТ агенты исследуют возможности в соседних нишах. Наиболее перспективными считаются персик-тех и мандарин-тех. Если вы инвестор - это уникальная возможность вложиться в самое передовое лимон-тех предприятие в России. Вот мой яндекс кошелек. А пока - подписывайтесь на мои каналы, любой может стать, вайб-растениеводом. Я готов предоставить уникальную технологию, промпты и скрипты для вайб-садоводинга. Не сиди на диване, ты упускаешь все шансы стать преуспевающим владельцем нейро-плантации. Не нужно никаких знаний, только грамотное применение ИИ-Агентов. Завтра все ниши будут заняты, поэтому подписывайся прямо сейчас.
1 018
14
Сайт Open Meta Data (open-metadata.org) заблокирован РКН. IP 75.2.60.5 Продолжи фразу: Сегодня ты управляешь своими данными, а завтра …
1 163
15
ICE and Ornn plan to launch futures based on Ornn’s Compute Price Index, which tracks live-traded spot prices for GPU compute across major hardware types. *** Очень крутая концепция, фьючерсы на вычислительную мощность. Превращение ее в сырье, полезно для конкуренции.
1 013
16
Блин, я такое только на крипте видал. Ну и у ВК/МЕЙЛРУ А тут вполне респектабельная Астра попала под такие топоры
Блин, я такое только на крипте видал. Ну и у ВК/МЕЙЛРУ А тут вполне респектабельная Астра попала под такие топоры
1 245
17
В Postgres есть CREATE MATERIALIZED VIEW В Clickhouse тоже есть CREATE MATERIALIZED VIEW Между ними крайне мало общего. Супер разные вещи назвали одинаковым словом дабы запутать добрых христиан. С этим и со многим другим начнем разбираться 11 июня на курсе по Кликхаусу.
1 224
18
О быстрых оптимизациях в Clcikhouse Пришел заказчик жаловаться на медленный отчет в суперсете. Говорит, больше 2 минут обновляется любой чих. Apache Superset, кто не знает, тот пример максимально ленивого BI, который на каждый фильтр, на каждое обновление страницы на каждый график отправляет live-запросы в БД. Но данные висят на Clickhouse, так что 2 минут быть точно не должно. Начинаю разбираться. Витрина - заказы за все время жизни компании, 550 млн строк, солидно. Но 1) Витрина оформлена через джойны на два справочника. А-ля схема звезда. 2) Пол-ярда записей лежат одной таблицей (!) без партиций, с сортировкой по id заказа (!!) То есть на каждый апдейт или взятый фильтр, базу отправляется 10-15 запросов, в которых база вынуждена вычитывать 550 млн записей и налету джойнить их 2 раза. 5,5 млрд чтений + 5,5 млрд джойнов на один апдейт страницы одним пользователем! Делаем честную плоскую витрину, режем на партиции, сортировка по дню. Время от фильтра до отчета падает до меньше 2-5 секунд. Это большая разница. Это разница между возможностью и невозможностью работать с предоставленной информацией в режиме лайв. Например на звонке или встрече. Мораль. Да какая уж тут мораль - если ввязался в российский бомже-стек аналитики, то придется знать, как работает Superset и какие лучшие практики построения витрин в кликхаусе. Еще и DBT какой рядом иметь, чтобы процесс добавления колонок в плоскую витрину (заказчик попросил еще 2-22 разреза данных) занимал минуты, а не дни. Еще много там такого выковыривать, на полгода хватит.
1 859
19
Last call Наливаем чай и начинаем!
243
20
Всем привет! Напоминаю что в 19:00 сегодня обсуждаем Кликхаус и его особенности. Ссылка будет в чате
1 241