ar
Feedback
Архитектор Данных

Архитектор Данных

الذهاب إلى القناة على Telegram

Алексей, архитектор данных из ВК. Большие данные и облака. Для связи @alexbelozersky

إظهار المزيد
1 815
المشتركون
+124 ساعات
+187 أيام
+5230 أيام
أرشيف المشاركات
Контент в 2025
Anonymous voting

Нейросети и Китайские комнаты Есть известный мысленный эксперимент - «Китайская комната». Представим себе ящик, и в нем сидит человек. На вход подаются карточки с фразами на китайском, который сам человек не знает. Но у него есть подробная инструкция, как ему отвечать. Если на вход карточки 1, 50, 100500800, то на выход - 3, 180, 666666. И так система в целом общается с внешним миром. Инструкция максимально детальная и до какой-то степени релевантная. Постоянно обновляется. Можно ли сказать, что этот человек говорит по-китайски и является носителем китайского языка? Можно ли считать студента, задрочившего все билеты, знатоком предмета? Можно ли школьника, заточенного под идеальную сдачу ЕГЭ и сдавшего на 100, считать освоившим школьную программу? Интересный ответ был предложен в романе «Ложная Слепота» Уотсом. Давайте разделим интеллект и разум. Китайская комната обладает интеллектом, но не разумом. Правда, если начать копать в этом вопросе, то выяснится, что и человек-то не слишком разумен. Я же считаю, что китайская комната не есть интеллект, хотя может быть полезным бизнес-инструментом с кучей оговорок и нюансов. Очень умный попугай не есть эксперт по всем вопросам. Интеллект это способность решать нестандартные задачи нестандартным способом. И вообще, может ли компьютер сочинить симфонию?

Анонс - Data Lake[House] В начале февраля буду презентовать Cloud Trino. Это первый кирпичик в технологии Data Lake / Data LakeHouse. В комплекте идет Iceberg Catalog, который впоследствии может быть подключен к кластерам Trino, Spark, Clickhouse. В итоге будет возможно работать с одним датасетом несколькими сервисами одновременно. Сделали ETL на Спарке, и эти данные сразу же увидели аналитики и BI, подключенные к Трино. Это пока что в будущем. Пока же первый шаг - кластер Trino + k8s + Iceberg Catalog + S3 Bucket. Все сервисы один-к-одному, то есть нельзя будет подключиться 2 кластерами Трино+Трино или Трино+Спарк к одному бакету. В комменты обязательно накидайте вопросы по данному набору технологий, которые хотели бы подсветить. Следите за анонсами, чтобы не пропустить.

Про собесы и увольнения Однажды меня попросили на ТЗ нарисовать схему расположения графа в реляционной БД. Я написал 8 способов. Рассмотрел случаи простых, направленных, взвешенных графов. Расписал преимущества и недостатки каждого метода. Написал эффективные запросы по различным обходам графов с учетом особенностей различных БД - знал тогда про Oracle (там LEVEL) и Postgres (WITH RECURSIVE). Одним словом, постарался, потому что считал позицию хорошей. В Банк. Это был Сбер. И это было самая убогая днище позиция за все мои 12 лет. На ней я с руки запускал скрипты по прогрузкам данных в утро, когда у меня родился ребенок. Потому что никакой инфраструктуры не было и никто не понимал, зачем она вообще нужна. Никто из 40 аналитиков в «гильдии» БЮ. Второй собес был у меня в СберМаркет на позицию руководителя операционной аналитики. Тяжелая должность, но лид лидов, команда 25 человек, правда с наполненностью 50%. Все было неплохо, но потом я увидел менеджера-заказчика аналитики, его повадки, и сбежал как от огня. В третий раз столкнулся с зелеными где-то год тому назад. На финальном собесе вдруг осознал, что не видел никого из команды и не видел будущего непосредственного руководителя. Хотя оффер уже есть. Все это время получал максимально расплывчатые формулировки о том, что собственно делать надо. Хотя оффер есть. Вывод. Выводы в том, что есть на свете специфичные организации со специфичными порядками и специфичным менеджментом. Потом стоит ли удивляться, что после очередных вывертов начальства, когда кто-то очередной доуправлялся, вас пачками отправят на мороз, не особо разбираясь. Руководствуясь принципами, сколько дней кто посещает офис.

Repost from VK Team
🎄 Любителям DS и ML — Data Ёлка! Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и
🎄 Любителям DS и ML — Data Ёлка! Это мини-конференция сообщества Open Data Science, которая в этом году пройдёт в офисе VK и онлайн в VK Видео. Обсудим главные события и тренды отрасли за год, разберём лучшие решения с VK RecSys Challenge, пообщаемся на афтепати, наградим гостей за лучшие вопросы и новогодние костюмы. 🗓 18 января, 12:00 (сбор гостей с 11:00). 🖥 Онлайн в VK Видео — смотрите трансляцию в сообществе VK Team ВКонтакте. 📍 Москва, БЦ Skylight — Ленинградский проспект, 39, строение 79. На входе надо будет показать подтверждение участия и паспорт. Приглашение придёт на email после регистрации. Встретимся у ёлки! 💙

Милые прикольчики кликхауса. Postres (и любая нормальная БД) кинет ошибку SQL Error [22003]: ERROR: integer out of range
Милые прикольчики кликхауса. Postres (и любая нормальная БД) кинет ошибку SQL Error [22003]: ERROR: integer out of range

Блиц-обзор возможностей и "милых прикольчиков" кластерного Clickhouse. Прочитано студентам ФКН ВШЭ практически экспромтом. Не судите строго. #Clickhouse #webinar

Всем привет! Врываясь в будни - все еще ищу крутых DBA и DE себе в команду. https://team.vk.company/vacancy/39575/ Будет много консалтинга по Postgres, Greenplum. Дальше - Trino+Spark+Iceberg Озера данных и Лейкхаусы. У нас уникальная в российских облаках команда Big Data Services. Занимаемся сложными Data проектами на переднем крае технологий. 10к СУБД уже крутятся, прирастают х2 год-к-году и ждут вас! Откликайтесь на портале или пишите @alexbelozersky

Отчетность Хорошо когда есть такие "дашборды руководителя" или "дашборды инвестора". На самом деле, это не требует каких-то сверх-усилий, но в таких картинках содержится заметная часть ответа на вопрос "Зачем я вам, олухам, деньги плачу". За красоту, начальник, красоту и точность!

Зачем нужна аналитика В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем пол
Зачем нужна аналитика В наши неспокойные времена любому из нас полезно уметь объяснить, зачем мы нужны работодателю и чем полезны для его бизнеса. Актуально это и для аналитики данных, которая, на первый взгляд, не кажется бизнес-критичной функцией. Краткая памятка, зачем нужна и чем полезна аналитика данных. 📰📰📰📰📰📰 Отчетность Первое, что приходит в голову, когда говорим про аналитику данных. Собственнику и топам полезно знать в деталях, какой перформанс имеет компания и отдельные ее подразделения. Еще полезнее, когда отчетность доступна не в экселе по запросу через 1-2 дня, а в любой момент в закладке в браузере. Что требуется для отчетности: – Понимание ключевых метрик бизнеса. Знать, куда и на что смотреть. – Процессы по сбору и презентации данных. Хранилище данных и BI. – Мониторинг качества данных. Смотрим на реальное положение вещей и верим в то, что видим. 📈📈📈📈📈📈 Оптимизация процессов Перформанс сотрудников на местах заметно растет, если снабдить их релевантными и своевременными данными по их бизнес-процессам. Работать по наитию и на опыте хорошо, но еще лучше если экспертиза и опыт сотрудников дополняются актуальной картиной положения дел в удобной форме. Кроме того, всегда есть риск, что «я всегда так делаю» в какой-то момент сломается, и бизнес потеряет деньги. Важно не упустить этот момент. Требуется: – Доменная аналитика в вашей области деятельности – Аналитики, способные говорить на одном языке со специалистами в области – Система мотивации, поощряющая сотрудников пользоваться данными для закрытия их KPI. Высокие цели + инструменты их достигнуть. 💰💰💰💰💰💰 Данные как актив Tesla стоит столько, сколько она стоит во многом потому что у них самый большой датасет для автопилота. У них есть данные, как ведет себя автомобиль, и что видят его камеры-сенсоры в разных странах, в разное время года и дня, в городе и селе, на трассе и на проселке, в пустыне и на крайнем севере. Как только мир понял, что авто будущего это не только электро- но еще и автопилотная, ценность накопленных за 10 лет данных забустила цену компании. Другой пример. Стартап по ДНК-тестам кошек. Была идея продукта, который принимает мазок изо рта любимого питомца и выдает хозяину набор рекомендаций по здоровью – все как у людей. Сам продукт на окупаемость не вышел. Но стартап продали очень дорого, так как только у них (!) есть большая БД ДНК домашних кошек. Данные могут дорого стоить. Данные могут растить вашу ценность и капитализацию вашей компании. Подумайте, какие данные могут быть значимыми в вашей отрасли. Какие тренды есть у вас и какие датасеты понадобятся вам и вашим партнерам завтра. А хранить данные не слишком дорого. Например в облачном S3.

Пишет человек, искренне поверивший в магические ЛЛМ и пытавшийся внедрить в свои процессы. В аналитике внедряемость около нуля. Все потому что любой ИИ современного извода заточен на воспроизводимость уже известного. В то время как хороший аналитик работает как раз с новыми вопросами, которых никто раньше не задавал. Я могу представить решение задачи вида «покажи мне объем продаж за месяц по категориям. А теперь по магазинам». Да и то это возможно в ситуации когда витрины данных подчиняются шаблонам. То это это ИИ-ассистент в BI конструкторе битрикса, к примеру. Или ИИ-помогай в зуме, которому можно задать простые вопросы. Но вопрос вида «как изменятся продажи, если я повышу расходы на рекламу на 50%» останется без ответа. И инсайты о том, что еще потребуется расширить склад, ИИ не найдет. Хороший аналитик отвечает на вопросы, заданные впервые. Хороший аналитик больше работает с людьми, чем с данными. Никакой ИИ ему не угроза.

Repost from Spydell_finance
Общее впечатление от работы с LLM за последние два года Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния. Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM. Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»? Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов. Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора. На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным. LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо. 🔘Вариативность выходных результатов может быть полезна не в расчетах, а в «мозговых штурмах», где как раз требуется расширение границы допустимых векторов и траекторий результатов. Условно говоря, в выработке направлений и идей для исследований. 🔘LLM очень полезны для неструктурированных массивов данных, для категоризации/каталогизации неструктурированных наборов данных в разных форматах. 🔘LLM могут быть применимы для генерации отчетов по шаблонам. 🔘LLM более, чем полезны для формирования гранд нарратива в огромных массивах текстовой информации. Например, анализ новостного потока и вычленение основной концепции, которую пытаются продвинуть СМИ. Нарративы «экономика прекрасна, а будет еще лучше» и «ИИ спасет мир», которые я часто публиковал во второй половине 2024 в контексте тональности западных СМИ были получены частично с использованием ГИИ. Попытка оценить тональность и «болевые точки» корпоративного сектора через анализ пресс-конференций по итогам корпоративных отчетов, это же применимо к анализу комментариев общественности. Это в теории. На практике ограничения контекстного окна, блокировка поисковых роботов ГИИ в ведущих СМИ и высокая стоимость обработки токенов не позволяют использовать этот ресурс на полную мощность. Автоматический анализ новостного потока – хорошая идея и уже технически реализуема, но на практике пока нет. Как экспертная система ГИИ очень слаб. Проверял в направлениях, в которых имею высокую квалификацию. На запрос о факторах роста рынка или причины возникновения инфляции, - LLM создадут весьма примитивную блеватню на уровне среднестатистических новостных экстрактов, что совершенно не соответствует уровню Spydell_finance. Сейчас все LLM генерируют низкое качество «экспертного контента», где требуется понимание причинно-следственных связей в условиях противоречивой среды с недостатком входных данных и многоуровневой конструкции параметров. Писать материалы в канале уровня Spydell_finance с помощью ГИИ не получится еще очень долго. Где применимы LLM в научной среде? Очень ограниченные локальные задачи с точки зрения помощи в программировании, решении математических и статистических задач, помощь в адаптации информационных комплексов на уровне проводника по мануалам. Еще неплохой потенциал есть в умном поиске информации в сети, хотя сейчас реализация на 4 из 10. Инструмент полезный, но на чудеса пока не тянет, хотя потенциал очень серьезный. Я указал не все применения, а только в рамках собственных рабочих задач.

Примерно поэтому я ИИ-скептик в своей профессии. Репост:

photo content

Примеры DBT репозиториев Интересный [DBT + Airflow + Clickhouse] репозиторий, застывший в миграции с кастомных ДАГов на DBT. Проект по оценке пользовательских аудиторий крипто-токенов и аналитики аудиторий крипто-проектов. В проекте я участвовал как консультант. Закрыт в 2023 году. 😞😞😞😞😞😞😞😞😞 https://github.com/superdao-inc/airflow-dags Здесь можно найти остатки самописного SQL бойлерплейта и оценить, как переход на DBT сильно облегчает разработку. Также есть кликхаусификация DBT-моделей и несколько специфичных фишек, актуальных именно для Clickhouse. К примеру, вот такая моделька, в которой Clickhouse валится в огромном (3 TB) Group BY запросе, так как ему не хватает RAM. Решение - разбить запрос на чанки по адресам, каждый из которых меньше по размерам, чем весь массив эфириумных транзакций. В DBT модель встроен проброс массива первых букв кошельков, который формируется циклом в Airflow DAG. Или вот такой Generic Test, который проверяет, что в текстовом поле не абы что, а эфириумный адрес-хэш. Есть и макросы-шаблоны запросов, которые после применяются в нескольких моделях для разных эфириумных сеток. Одним словом, рекомендую сделать dbt docs generate и походить по разным моделькам, макросам и тестам. Стартаперский творческий беспорядок прилагается. 🤪🤪🤪🤪🤪🤪🤪🤪🤪 Мой учебный репозиторий [DBT + Airflow + Greenplum] https://github.com/alex-belozersky/dataplatform Сейчас в процессе добавления в него интеграции DBT + Trino + Iceberg. Поставьте GitHub звезду, если интересно 😏😏😏😏😏😏😏😏😏 #DBT #GitHub

Запись 1 дня вебинара по DBT совместно с @rockyourdata VK Видео

Все гениальное просто. #DBT
Все гениальное просто. #DBT

DBT – Шуруповерт из мира данных Продолжая метафору со сборкой мебели. Есть облачные PaaS как готовые наборы мебели а-ля Ikea Paks и кастомные решения для платформ данных а-ля мебель на заказ под размеры и требования заказчика. Где-то рядом должны быть инструменты для сборки и наладки мебели. На роль шуруповерта, облегчая каждодневный труд мастера, отлично подходит DBT. Скажут, наши деды успешно справлялись и без шуруповертов. Некоторые добавят, что рукой и отверткой оно как-то вернее и проще. Но едва ли кто-то будет отрицать, что в руках умелого мастера простой аккумуляторный инсрумент сильно ускоряет работу и упрощает труд. При этом намного важнее чтО крутится, а не чем крутится. Кратко возможности DBT разбирали чуть раньше. Также был вебинар-воркшоп. + Видео на ВК 5 и 6 января подключайтесь на стрим с Димой Аношиным в канале @rockyourdata. Совместно мы расскажем о построении платформ данных на базе DBT и о возможностях VK CLOUD для облачных PaaS решений.

По какой модели предоставляется Cloud S3?
Anonymous voting

SaaS - Software as a Service. Тут проще всего, как ни странно. Не приложение на десктопе/планшете/телефоне а сервис в браузере. Или одно + другое бесшовно. Онлайн документами все пользуемся – вот типичный пример SaaS. Может быть чем угодно еще. PowerBI Cloud. DBT Cloud, CRM (например, Bitrix). #Cloud #SaaS@analyticsfromzero