ar
Feedback
Архитектор Данных

Архитектор Данных

الذهاب إلى القناة على Telegram

Алексей, архитектор данных из ВК. Большие данные и облака. Для связи @alexbelozersky

إظهار المزيد
1 813
المشتركون
+1324 ساعات
+117 أيام
+4630 أيام
أرشيف المشاركات
Любите такие картинки? Архитектура в каточках для самых маленьких.
Любите такие картинки? Архитектура в каточках для самых маленьких.

Занятный график. Люди очень любят круглые числа. Пробежать марафон за 3:59 сильно лучше чем за 4:01. С похожим эффектом мучал
Занятный график. Люди очень любят круглые числа. Пробежать марафон за 3:59 сильно лучше чем за 4:01. С похожим эффектом мучался в ритейле, когда считал ценовую эрозию. Это когда старый телефон стоит сильно дешевле нового, неадекватно дешевле если смотреть строго на характеристики. Так вот, она тоже дискретная, и никак не хочет ложиться на модель обесценения вида -20% на айфонN-1 при выходе айфонN. Обесценивается он лесенками 89900 -> 64900 и тому подобное, что ломает модели расчета. 🫠

Delete Vectors - Iceberg v3 Описание - выше Таймкоды: 01:00 - Текущие механизмы удаления данных в Iceberg v2 03:48 - Разные типы deleteфайлов - Partition Scope vs. File Scope 06:43 - Презентуем Delete Vectors в Iceberg v3 10:11 - Delete Manifests 12:00 - Плюсы нового подхода 13:00 - Пример работы механизма для v2 и v3 18:25 - Вопросы из зала

Delete Vectors - фича Iceberg v.3 Продолжим традицию разборов и перезаливов хороших докладов с Iceberg Summit. Это англоязычные видео, к которым я добавил русские таймкоды, так что можно посмотреть самую суть, отфильтровав маркетинговый буллшит. Одна из больших проблем формата айсберг - раздувание хранилища очень большим количеством (миллионами!) delete файлов. Delete файлы в айсберге версии 2 - это Паркеты/ОРКи, в которых содержится информация о том, что некоторые строки (или некоторые условия-предикаты) из основных дата-файлов читать не нужно. По сути каждая операция на DELETE/UPDATE/MERGE создает их в огромном количестве. В результате таблицы превращаются в нечитаемое месиво, а операции поддержки занимают часы. В Iceberg v3 предложено решение этой проблемы: специальные файлы Delete Vectors, которые материализуются в puffin файлы в хранилище айсберга, и в которых плотно и компактно упакованы удаления. Таким образом, в формате айсберг становится 5 (!) типов файлов JSON - для корневых метаданных AVRO - для манифестов STATS - для статистики PARQUET/ORC - для собственно данных PUFFIN - для удалений Это все еще одна таблица! Докладчик - Антон Окольничий, доклад на английском —————————————————————————- Посмотреть с таймкодами - ВК Видео Предыдущие перезаливы в плейлисте на ВК Попишитесь на канал с Видео - и получать уведомления о начале стримов. На следующей неделе очень интересный стрим о примении ИИ - не пропустите! Предыдущий разбор видео на канале - Владимир Озеров о перспективах Айсберга.

Многие спрашивают, хочу прокомментировать новость со своей стороны. Мердж произошел на уровне компании. Продукт и разработка Cedrus становятся частью VK Tech. Технически - комбинация движка Cedrus + облачного VK S3 точно одна из топовых на российском рынке данных. С точки зрения движка - у Cedrus есть очень серьезные заявки на успех в виде • Собственный Iceberg REST каталог с кастомным ускорением лукапов и своим RBAC • Ускоренный по сравнению с ванилью движок Trino. Можно почитать например в статье. • Распределенный коннектор Greenplum/Arenadata • Мониторинги, алерты и прочий гигиенический минимум хорошего сервиса С точки зрения хранения данных S3 дает • Все стандартные функции базового S3 API • Неплохая скорость за счет метаданных на тарантуле • Отсутствие оплаты за количество запросов GET/PUT/DELETE (а в йасберге много запросов) Конечно, всем этим технологиями есть куда стремиться, но из того что есть в наличии и из того, что можно взять и использовать вот прямо сейчас (в облаке запуск за неделю - легко!) это однозначно топ решение. Продуктово нужно время чтобы подружить продукты (кнопка "сделать хорошо"). Но проектно уже можно уверенно обсуждать и стартовать проекты.

CedrusData присоединяется к направлению дата-сервисов VK Tech Теперь в едином решении: *️⃣VK Data Platform — lakehouse-платфо
CedrusData присоединяется к направлению дата-сервисов VK Tech Теперь в едином решении: *️⃣VK Data Platform — lakehouse-платформа *️⃣S3-совместимое хранилище VK Object Storage *️⃣Экосистема Tarantool, включая колоночную базу Tarantool Column Store *️⃣Высокопроизводительный массивно-параллельный SQL-движок CedrusData Engine *️⃣Каталог метаданных CedrusData Catalog с поддержкой Iceberg Зачем? Мы интегрируем наши технологии для создания единой точки доступа ко всем данным без дублирования, снижения затрат на инфраструктуру и ускорения аналитики.

Резервная площадка Как-то и забылось, что сегодня якобы последний день Помпеи Телеграма. Если вдруг (но это вряд ли), то резервная площадка тут: https://sponsr.ru/data/ Решил что буду использовать ее, раз уж удалось занять такой красивый токен 😇 Посты будут бесплатные как и здесь. Подписываться не нужно, можно нажать "Отслеживать". Но если по какой-то неведомой причине вы решите подписаться, то мы сможем провести приватный стрим или я поделюсь лонгридами-долгостроями. Я сам подписан на несколько проектов на спонсре, и из удобного (внезапно) открыл для себя, что посты авторов приходят в том числе на почту. И оказалось неожиданно удобно читать лонгриды именно в почте! Подсознательно воспринимаешь телегу и соцсети во фрейме клипового мышления, а почту - как серьезное и деловое. Олд-фэшн! Отдельно для гурманов, у меня есть кое-как активные ВК-Видео и Линкед-Ин.

Готовлю вебинар по Кликхаусу Будет примерно через 3 недели - в 20-х числа апреля. Основные темы: ⚛️ внутренняя архитектура Клика 💻 место в большой архитектуре данных 🔨 совместная работа с S3, Iceberg ❓классические ошибки новичка Накидайте в комментах интересные темы и вопросы. Постараемся все осветить!

И ведь поддержка начислит, потому что в качестве поддержки сейчас тоже везде ЛЛМ.

Клиент спросил у ЛЛМ промокод, ввел его (ничего не произошло) и теперь требует через поддержку начислить ему бонусы.

Это данные 2024 года - задолго до. Каждый установленный VPN это минус ВК в пользу Инсты, минус ВКВидео/Рутуб в пользу ЮТ, мин
Это данные 2024 года - задолго до. Каждый установленный VPN это минус ВК в пользу Инсты, минус ВКВидео/Рутуб в пользу ЮТ, минус Алиса/Гигачат в пользу ОпенАИ и Клода. А кто загоняет народ в VPN, не подскажете? Чьими руками и усилиями это делается?

Какие ЛЛМ и ИИ вы используете
Anonymous voting

Премьер говорит, что российские ЛЛМ у нас обгоняют по популярности иностранные аналоги. По этому поводу - опрос

О типовом Потенциальному клиенту, как даме, надо постоянно говорить, что он уникальный и его ситуация и стек ни на что не похожи. Даже если понимаешь, что видел это все двести раз, и у всех все одинаковое. И проблемы и методы их решения. То же самое с потенциальным работодателем. Никогда не говорите - да у вас все типовое, мне понятно, я эти симптомы видел сто раз. Нет, у вас интересная особая ситуация, но я/мы обязательно все продумаем, разберемся и сделаем в лучшем виде.

Запись вчерашнего стрима выложил в плейлист Архитекторских посиделок: https://vkvideo.ru/playlist/-228742675_6 Тайм-коды будут чуть позже Еще раз спасибо всем, кто смотрел в онлайне.

Repost from CDO Channel
Вчера не смотрел на часы два часа подряд. Это большая редкость. Был в прямом эфире с Алексеем Белозерским на канале Архитекто
Вчера не смотрел на часы два часа подряд. Это большая редкость. Был в прямом эфире с Алексеем Белозерским на канале Архитектор Данных - говорили про вайбкодинг. Для тех, кто слышит термин впервые: его придумал Андрей Карпатий (Andrej Karpathy), сооснователь OpenAI, примерно год назад. Вайбкодинг - это когда ты описываешь задачу на человеческом языке, а ИИ берёт на себя генерацию и правку кода вместо ручного набора. Во время эфира обещал поделиться ссылками - держу слово. Первое и главное: интерактивная карта вайбкодинга. Пользуясь случаем, хочу поблагодарить Александра Сташенко, который ее придумал. Это тот самый ИИ-коуч, который когда-то сделал для меня ИИ-совет директоров. Ещё два инструмента, которые упоминал: - openspec.dev - это подход к системному вайбкодингу - superpowers - скиллы от Claude для вайбкодинга Запись эфира ищите на канале Архитектор Данных 🙏

Через 2 часа начинаем трансляцию по ссылке: https://vkvideo.ru/live-228742675_456239037 Прихватите ручки и блокноты - все указывает на интересный стрим!

Всем привет! Напоминаю про сегодняшний стрим в 19:00 Обсуждаем вайб-кодинг в инжиниринге данных и в целом! Поставил в телеграме напоминание, стрим будет на платформе, ссылку пришлю позже! Всем вайба и подключайтесь сегодня вечером!

Полковник СВР о запрете телеграма. Видно, как понимающего и заслуженного человека трясет от маразма происходящего.

Есть ли в вашем продукте кнопка "To Excel"?
Есть ли в вашем продукте кнопка "To Excel"?