en
Feedback
Архитектор Данных

Архитектор Данных

Open in Telegram

Алексей, архитектор данных из ВК. Большие данные и облака. Для связи @alexbelozersky

Show more
1 817
Subscribers
-124 hours
+177 days
+5230 days
Posts Archive
То есть 15 таких теремков за год раздали. Их много таких на самом деле 🤑

Repost from Банкста
Суммарное вознаграждение топ-менеджменту в 15 крупнейших банковских группах в 2025 года превысило 63 млрд рублей @banksta

Все на острове богаты, изоб нет, одни палаты! Раньше каждый отец семейства строил себе избу, в которой жил. Ну или вместе с родственниками, соседями и общиной. Жили скромно, изба-пятистенок это 2 квадрата длиной с бревно - ну сколько там метров? Минус сени и большая печка, получится метров 40 на семью человек 8. Это примерный аналог кода в небольшой компании. Бояре да князья могли себе позволить терем, но и там потолки низкие и места не сказать чтобы много. Это аналог энтерпрайз софта для богатых корпораций. Сейчас эра индустриального домостроения. Никого не удивишь 90-100 метрами на семью из 3-4 человек. А корпорации живут в небоскребах с верхушками в облаках. Примерно то же с софтом может сделать доступ к дешевому индустриальному коду. Переселимся из изб не в палаты, а в монолитные коробки. Не будет такого, что у всех палаты, а будет так, что у кого-то человейник в бывших полях, а у кого-то крафтовый домик как на видео. Просто на других технологиях сделанные. Ничего не изменится и в распределении ценности рабочих, которые строят эти дома. Строитель избы и разнорабочий на стройке простой многоэтажки это примерно одно. Равно как и архитектор домика с видео и мастер деревянного зодчества, строивший княжеский терем - это одно. Просто инструменты в их руках слегка разные. Единственное что пугает, это скорость перехода. Нет поколений, чтобы деревянных дел мастеру адаптироваться, есть годы или даже кварталы

Вниманию CTO и всем, кто строит платформы данных. Когда нужно переходить на Lakehouse? Как начать изучать этого зверя на практике, с готовым инфраструктурным сетапом? Всё расскажем и покажем на вебинаре в пятницу, 10-го апреля, 18:00 MSK. Как сделать платформу под аналитику? На малом объеме как ни делай, оно делается. При росте объемов данных постгреc тормозит, кликхаусы теряют консистентность, хадупы - старые динозавры из 2000-ных, а аналиткии постоянно хотят запрашивать больше, загружать быстрее, гонять более сложные алгоритмы. 10 аналитиков на 10 ТБ со средней сложностью запроса 1 за год превращаются в 20 аналитиков с 50 ТБ данных со сложностью в 2 = рост нагрузки в 2*5*2 в 20 раз. Всё начинает ломаться, тормозить, бизнес недоволен. Лейкхаус 🤩 использует современные подходы к масштабированию, отдельно хранения и отдельно компьюта 🤩 хранит данные на недорогом S3 🤩 организует облако данных, где каждый видит изменения каждого другого мгновенно, без многодневных перекладок из А в Б. Но чтобы построить лейкхаус нужно много знать. Клауды помогают, но и в них без фундаментальных знаний никак. На вебинаре в пятницу Алексей Белозерский покажет как: 🤩 не страдать от ограничений СУБД 🤩 построить модерн дата стэк на современной платформе 🤩 о каких особенностях нужно подумать и что учесть для работы на лейкхаусе Чтобы попасть на вебинар, напишите “вебинар lakehouse” в наш community-аккаунт, @devhands_community. Приходите, приводите друзей и коллег.

По поводу архитектур данных и как обоснованно выбрать то или другое решение для именно ваших задач в пятницу будет открытый митап. Записываемся по ссылке, открыто обсудим, как строить платформы для данных в 2026 году. Далее репост:

Имхо удачный слайд про плюсы и минусы КХД vs. DLH
Имхо удачный слайд про плюсы и минусы КХД vs. DLH

Циклопический (кино)зал площадки Мосфильма на АренаДей 2026.
+3
Циклопический (кино)зал площадки Мосфильма на АренаДей 2026.

Это гениальное. Пайплайн для авто обоснования перформанс ревью. Пока ты сидишь и не пользуешься такими технологиями потому чт
Это гениальное. Пайплайн для авто обоснования перформанс ревью. Пока ты сидишь и не пользуешься такими технологиями потому что "нечестно", кто-то уже сделал пайплайн для обоснования твоего увольнения.

Анонс! Уже очень скоро в очередном выпуске «Разговоров на Архитекторском» нас снова ждут уникальная тема и уникальный гости!
Анонс! Уже очень скоро в очередном выпуске «Разговоров на Архитекторском» нас снова ждут уникальная тема и уникальный гости! На SnowBase можно встретить удивительных людей из неожиданных (для себя) отраслей человеческой мысли. Вот и мне повезло познакомиться с такой интересной темой как нейроимпланты. Ее-то мы и обсудим на 4-м выпуске «Разговоров»! Гости - Директор по Науке Андрей Демчинский и Директор по Развитию Никита Булдаков из компании Нейроимпланты Элвис. Мы конечно же поговорим про интерфейсы человек-компьютер, о том, когда мы сможем управлять дронами и машиной силой мысли. Затронем и такие «житейские» темы как применение современных ИИ в медтехнике. В Четверг 9-го апреля в 18:00 настраивайте ваши приемники на нашу волну! В комментариях задавайте вопросы про миры Призрака в Доспехах и Бегущего по Лезвию. Ссылка для подключения будет в день стрима. Или напишите + в комменты - отправлю лично!

GPU съели людей
GPU съели людей

Вот откуда на самом деле тяга всех (или хоть кого-то) заменить на ИИ и роботов. За мясных агентов надо платить соцвзносы, за кремниевых нет.

Repost from Proeconomics
Компании во Франции нужно потратить 95 тыс. евро, чтобы выплатить сотруднику чистую зарплату в размере 39 тыс. евро. Можете с
Компании во Франции нужно потратить 95 тыс. евро, чтобы выплатить сотруднику чистую зарплату в размере 39 тыс. евро. Можете себе представить, какой стимул будет заменить офисные рабочие места во Франции искусственным интеллектом? Страны с такой высокой социальной нагрузкой на труд будут первые кандидаты на внедрение ИИ.

Продукт Тесея - корабль наоборот Есть корабль Тесея, знаменитый мысленный эксперимент греческих философов. А я подумал, что е
Продукт Тесея - корабль наоборот Есть корабль Тесея, знаменитый мысленный эксперимент греческих философов. А я подумал, что есть продукт Тесея. Это как корабль только с нюансом. Сначала мы запланировали классный и функциональный продукт. В нем все хорошо: крутые фичи, классный дизайн, продуманная архитектура, продукт-маркет фит. А потом пошло-поехало. Тут уберем, тут зашорткатим, эта штука на MVP, здесь заглушка - потом доделаем. Как в корабле Тесея мы меняем одну досочку за другой на гнилую или б/у-шную. И когда все досочки, канаты, парус и якорь заменены на свои «аналоги», то что получилось в итоге - является ли продуктом?

Любите такие картинки? Архитектура в каточках для самых маленьких.
Любите такие картинки? Архитектура в каточках для самых маленьких.

Занятный график. Люди очень любят круглые числа. Пробежать марафон за 3:59 сильно лучше чем за 4:01. С похожим эффектом мучал
Занятный график. Люди очень любят круглые числа. Пробежать марафон за 3:59 сильно лучше чем за 4:01. С похожим эффектом мучался в ритейле, когда считал ценовую эрозию. Это когда старый телефон стоит сильно дешевле нового, неадекватно дешевле если смотреть строго на характеристики. Так вот, она тоже дискретная, и никак не хочет ложиться на модель обесценения вида -20% на айфонN-1 при выходе айфонN. Обесценивается он лесенками 89900 -> 64900 и тому подобное, что ломает модели расчета. 🫠

Delete Vectors - Iceberg v3 Описание - выше Таймкоды: 01:00 - Текущие механизмы удаления данных в Iceberg v2 03:48 - Разные типы deleteфайлов - Partition Scope vs. File Scope 06:43 - Презентуем Delete Vectors в Iceberg v3 10:11 - Delete Manifests 12:00 - Плюсы нового подхода 13:00 - Пример работы механизма для v2 и v3 18:25 - Вопросы из зала

Delete Vectors - фича Iceberg v.3 Продолжим традицию разборов и перезаливов хороших докладов с Iceberg Summit. Это англоязычные видео, к которым я добавил русские таймкоды, так что можно посмотреть самую суть, отфильтровав маркетинговый буллшит. Одна из больших проблем формата айсберг - раздувание хранилища очень большим количеством (миллионами!) delete файлов. Delete файлы в айсберге версии 2 - это Паркеты/ОРКи, в которых содержится информация о том, что некоторые строки (или некоторые условия-предикаты) из основных дата-файлов читать не нужно. По сути каждая операция на DELETE/UPDATE/MERGE создает их в огромном количестве. В результате таблицы превращаются в нечитаемое месиво, а операции поддержки занимают часы. В Iceberg v3 предложено решение этой проблемы: специальные файлы Delete Vectors, которые материализуются в puffin файлы в хранилище айсберга, и в которых плотно и компактно упакованы удаления. Таким образом, в формате айсберг становится 5 (!) типов файлов JSON - для корневых метаданных AVRO - для манифестов STATS - для статистики PARQUET/ORC - для собственно данных PUFFIN - для удалений Это все еще одна таблица! Докладчик - Антон Окольничий, доклад на английском —————————————————————————- Посмотреть с таймкодами - ВК Видео Предыдущие перезаливы в плейлисте на ВК Попишитесь на канал с Видео - и получать уведомления о начале стримов. На следующей неделе очень интересный стрим о примении ИИ - не пропустите! Предыдущий разбор видео на канале - Владимир Озеров о перспективах Айсберга.

Многие спрашивают, хочу прокомментировать новость со своей стороны. Мердж произошел на уровне компании. Продукт и разработка Cedrus становятся частью VK Tech. Технически - комбинация движка Cedrus + облачного VK S3 точно одна из топовых на российском рынке данных. С точки зрения движка - у Cedrus есть очень серьезные заявки на успех в виде • Собственный Iceberg REST каталог с кастомным ускорением лукапов и своим RBAC • Ускоренный по сравнению с ванилью движок Trino. Можно почитать например в статье. • Распределенный коннектор Greenplum/Arenadata • Мониторинги, алерты и прочий гигиенический минимум хорошего сервиса С точки зрения хранения данных S3 дает • Все стандартные функции базового S3 API • Неплохая скорость за счет метаданных на тарантуле • Отсутствие оплаты за количество запросов GET/PUT/DELETE (а в йасберге много запросов) Конечно, всем этим технологиями есть куда стремиться, но из того что есть в наличии и из того, что можно взять и использовать вот прямо сейчас (в облаке запуск за неделю - легко!) это однозначно топ решение. Продуктово нужно время чтобы подружить продукты (кнопка "сделать хорошо"). Но проектно уже можно уверенно обсуждать и стартовать проекты.

CedrusData присоединяется к направлению дата-сервисов VK Tech Теперь в едином решении: *️⃣VK Data Platform — lakehouse-платфо
CedrusData присоединяется к направлению дата-сервисов VK Tech Теперь в едином решении: *️⃣VK Data Platform — lakehouse-платформа *️⃣S3-совместимое хранилище VK Object Storage *️⃣Экосистема Tarantool, включая колоночную базу Tarantool Column Store *️⃣Высокопроизводительный массивно-параллельный SQL-движок CedrusData Engine *️⃣Каталог метаданных CedrusData Catalog с поддержкой Iceberg Зачем? Мы интегрируем наши технологии для создания единой точки доступа ко всем данным без дублирования, снижения затрат на инфраструктуру и ускорения аналитики.

Резервная площадка Как-то и забылось, что сегодня якобы последний день Помпеи Телеграма. Если вдруг (но это вряд ли), то резервная площадка тут: https://sponsr.ru/data/ Решил что буду использовать ее, раз уж удалось занять такой красивый токен 😇 Посты будут бесплатные как и здесь. Подписываться не нужно, можно нажать "Отслеживать". Но если по какой-то неведомой причине вы решите подписаться, то мы сможем провести приватный стрим или я поделюсь лонгридами-долгостроями. Я сам подписан на несколько проектов на спонсре, и из удобного (внезапно) открыл для себя, что посты авторов приходят в том числе на почту. И оказалось неожиданно удобно читать лонгриды именно в почте! Подсознательно воспринимаешь телегу и соцсети во фрейме клипового мышления, а почту - как серьезное и деловое. Олд-фэшн! Отдельно для гурманов, у меня есть кое-как активные ВК-Видео и Линкед-Ин.