ch
Feedback
Data Nature 🕊

Data Nature 🕊

前往频道在 Telegram

Канал о жизни BI аналитики и инфо-дизайна в корп реалиях с фокусом на работающих практиках управления. Веду как летопись полезного для себя и людей с такими же неврозами. александр бараков @alexbarakov datanature.ru data-nature.com (рекламу не размещаю)

显示更多
6 113
订阅者
+324 小时
+57
+2330
吸引订阅者
六月 '26
六月 '26
+38
在1个频道中
五月 '26
+63
在0个频道中
Get PRO
四月 '26
+46
在0个频道中
Get PRO
三月 '26
+83
在1个频道中
Get PRO
二月 '26
+124
在1个频道中
Get PRO
一月 '26
+150
在3个频道中
Get PRO
十二月 '25
+73
在1个频道中
Get PRO
十一月 '25
+90
在1个频道中
Get PRO
十月 '25
+99
在2个频道中
Get PRO
九月 '25
+98
在2个频道中
Get PRO
八月 '25
+130
在4个频道中
Get PRO
七月 '25
+129
在3个频道中
Get PRO
六月 '25
+168
在4个频道中
Get PRO
五月 '25
+115
在1个频道中
Get PRO
四月 '25
+128
在2个频道中
Get PRO
三月 '25
+128
在1个频道中
Get PRO
二月 '25
+143
在0个频道中
Get PRO
一月 '25
+141
在0个频道中
Get PRO
十二月 '24
+251
在2个频道中
Get PRO
十一月 '24
+276
在3个频道中
Get PRO
十月 '24
+139
在4个频道中
Get PRO
九月 '24
+129
在1个频道中
Get PRO
八月 '24
+243
在4个频道中
Get PRO
七月 '24
+108
在4个频道中
Get PRO
六月 '24
+103
在1个频道中
Get PRO
五月 '24
+199
在5个频道中
Get PRO
四月 '24
+146
在5个频道中
Get PRO
三月 '24
+134
在3个频道中
Get PRO
二月 '24
+92
在6个频道中
Get PRO
一月 '24
+86
在2个频道中
Get PRO
十二月 '23
+83
在1个频道中
Get PRO
十一月 '23
+85
在3个频道中
Get PRO
十月 '23
+170
在6个频道中
Get PRO
九月 '23
+223
在0个频道中
Get PRO
八月 '23
+169
在0个频道中
Get PRO
七月 '23
+185
在0个频道中
Get PRO
六月 '23
+122
在0个频道中
Get PRO
五月 '23
+553
在0个频道中
Get PRO
四月 '23
+78
在0个频道中
Get PRO
三月 '23
+412
在0个频道中
Get PRO
二月 '23
+315
在0个频道中
Get PRO
一月 '23
+305
在0个频道中
Get PRO
十二月 '22
+46
在0个频道中
Get PRO
十一月 '22
+243
在0个频道中
Get PRO
十月 '22
+91
在0个频道中
Get PRO
九月 '22
+21
在0个频道中
Get PRO
八月 '22
+77
在0个频道中
Get PRO
七月 '22
+50
在0个频道中
Get PRO
六月 '22
+118
在0个频道中
Get PRO
五月 '22
+16
在0个频道中
Get PRO
四月 '22
+27
在0个频道中
Get PRO
三月 '22
+53
在0个频道中
Get PRO
二月 '22
+148
在0个频道中
Get PRO
一月 '22
+237
在0个频道中
Get PRO
十二月 '21
+618
在0个频道中
日期
订阅者增长
提及
频道
17 六月0
16 六月+4
15 六月+5
14 六月0
13 六月+4
12 六月+2
11 六月0
10 六月+1
09 六月+5
08 六月+4
07 六月0
06 六月+1
05 六月0
04 六月+5
03 六月+1
02 六月+3
01 六月+3
频道帖子
Насмотренность на гавернанс данных дает мрачный образ будущего для гавернанса контекста. Сегодня в тех компаниях строятся пла
+1
Насмотренность на гавернанс данных дает мрачный образ будущего для гавернанса контекста. Сегодня в тех компаниях строятся планы: Соберем весь контекст, свяжем все знания компании в context/knowledge graph. Сделаем AI понимающим бизнес. Десять лет назад примерно так же выглядели обещания от Data Governance: Соберем все метаданные. Построим каталог. Назначим владельцев. Опишем определения. Наступит порядок. Пока у меня есть только вопросы и гипотезы. Делюсь чтобы собрать мнений. 1. Больше контекста = выше качество AI? В кейсе Anthropic агент получил доступ к большому корпусу SQL, дашбордов и аналитических артефактов. Качество почти не выросло. Во многих ошибочных ответах нужная информация находилась внутри доступного корпуса. Проблема была в выборе правильной сущности. Ценность создавал не объем контекста, а уменьшение пространства выбора. Большая часть рынка сегодня инвестирует в: knowledge graph; semantic layer; metadata; context. Anthropic пишет что после определенного уровня зрелости дополнительные знания дают меньший эффект, чем качественные процедуры, зашитые в skills: какие источники когда использовать, в каком порядке, с какими проверками и уточнениями. 2. Можно ли через AI собирать, создавать, валидировать контекст Компании? DataHub исходит, что значительная часть контекста уже существует, просто разбросана по системам. Тут AI явно может помочь с Context Mining — поиском отсутствующего контекста. Anthropic говорит, что самого важного слоя - бизнес-контекста - в системах нет: почему метрика считается именно так; почему существует исключение; почему доверяют именно этому источнику; почему было принято именно такое решение. Такой контекст нужно создавать человеку. Распределенная ответственность за валидацию контекста выглядит одним из главных рисков. То, из-за чего не взлетает DG — человеческий фактор. Тут AI уже умеет: находить противоречия; находить устаревший контекст; выявлять пробелы; сравнивать версии; запускать проверки, evals. Возможно, мы движемся от модели: AI → Human → Approved к модели: AI → AI Review → Human для конфликтов. Но не факт. 3. Что вообще тащить в Context Layer? На первый взгляд хочется построить новую систему и собрать туда все. Сделать еще одну устаревающую копию реальности. Кажется, Context Layer не должен управлять контекстом. Скорее собирать связи о разном контексте из мастер-систем без дублирования (накидал матрицу на фото) ...и добавлять критичную инфу про: Trust; Certification; Freshness; Canonicality; Completeness. 4. Кто такой Context Engineer? Если контекст становится стратегическим активом, кто-то им должен управлять. «Context Engineer» расщепляется на две роли: (1) Context engineering — собирает контекст под конкретного агента: skills, retrieval, tools, evals. Чинит ошибки. Ближе к Analytics Engineer / BI. (2) Context manager — владеет доменным слоем контекста. Эволюция Data Governance / Steward роли. Откуда только этим людям взять capacity на это? Другие задачи никто не снимал. А эффективность от AI массово не наступила.

2
Эфир Visiology Cortex про их next gen BI прототип вызвал тут обсуждение в закрытых чатах и резонирует с тем, как мы строим свой BI тулинг в Авито. Начну с предложения всем посмотреть, Иван с командой хорошо копает в продуктовые гипотезы, дает часто независимую аналитику. Ищут новые сценарии в BI и делятся. Кто посмотрел - давайте обсудим (тут нет правильных ответов). Закину свои мысли подробнее, с переходом в душноту: 15:05 Иван начал с того, что разложил базу про основные AI+BI группы юзкейсов. Тут все по делу: - вайбкодинг в BI стоит своих токенов, годится для ресерча, прототипа, администрирования, но для прода все еще много правдоподобно ошибается, требует реворка/ревью. Ценность межуется с потерями. Всем пробовать. - чат с базой данных (Text2SQL) работает, но точность сильно зависит от семантического слоя и системы управления контекстом, которые никто в реальной жизни (пока) не построил. - ИИ помощники в BI, тупо полезные встроенные тулы, которые где то сильно (код), где то не сильно (визуал) ускоряют разработчика. Потом начинается демо. Красивое вендорское демо - смелое, с предположениями, иногда далекими от жизни: 32:19 cortex визы, новое поколение self service аналитики в понимании visiology. Вопрос - почему юзера с бизнес-вопросом отправляют конструировать (пусть и с агентом) подключение? В это пойдет casual explorer а их обычно 5-7%. Кажется правильнее исходить, что качественные сорсы/квери уже размечены для агента аналитиками/BI. Наоборот надо предотвращать тут создание новых сорсов, коннектов неаналитиком. Первый кусочек продуктового легаси и идеализма. Из области для атоса (юзера) это слишком много, для графа де ла фер (биайщика) слишком мало. - Далее флоу ведет к генерации метрик. Первый вопрос зачем их давать так свободно генерить, а не брать из сертифицированного стора ? (жесткий риск утраты так долго выстраиваемой версии блять правды) Второй вопрос - как решена в генерации проблема правдоподобных и скрытых ошибок в логике? Ребята стильно обошли семантического слона в комнате, о котором вели речь в начале ролика. Третий вопрос — зачем генерить визы и заставлять в них вникать, когда можно сразу ответить на вопрос. При этом выдача набора виджетов фактоида, динамикой и основными разрезами сам по себе хорошая фича. Но кажется нужна по спец запросу или уже для креатора. - Потом клац - на этом "сорсе" с "метриками" селфсервис юзер создал "деш". Тот же наброс — пушим в старое, не? Такое осядет мусором на сервере. Если только в личный сендбокс без шаринга если приспичило. Сама по себе генерация дешей на базовом виздвижке и доработкой стандартными средствами — это хорошо. Но мы в Авито вероятно от этого пока откажется - слишком дорого, оставим агенту весь JS и не будем мучить всех сборкой дешей на бедной drag-n-drop библиотеке чартов. С UI чата - ожидание от неаналитика в создание визов руками уходит, а профики будут ваять с агентом на JS. - Короче не хватило встроенного гавернанса - иначе ai-driven серфсервис это немного про обезьяну с грантатой - засрет все BI-слопом и положит dwh кверями. 43:53 - Аватар. Не до конца понял. Пока выглядит как простой rules-based алертинг. Проблема всех алертов была и останется - в массовом false positive срабатывании чекеров. Поэтому все дайджесты инсайтов в итоге или отключают или пускают через проверку кожаным. - в плохом выявлении причин событий автоматикой. Тут возврат к системе управления контекстом + агенты судьи. Без этого все тлен (с этом впрочем возможно тоже)). 47:07 - Лаборатория - норм, переупаковка Клода в контуре BI системы. Вопрос - зачем отдельный чат в cortex визы, тут есть mcp dwh/BI и можно его сделать стартовым. Плюс его в мессенджер высадить. Каждая 10 цифра будет фейком, но для self service может и норм. «Не могли этого не сделать. Must have для BI системы» Звучит как продуктовые чемоданы без ручек, которые стоит бросить, раз уже делаем next gen. А вообще крутые эксперименты. Диалог с чатом в левой части экрана — значит все серьезно. AI-first. Понимаю что пост — душнота страшная, но таков путь. Актуалочка.
1 698
3
Простой тест: спроси коллегу, кто у вас в компании самый сильный BI. Если назвали тебя — пора откликаться на вакансии в Авито
Простой тест: спроси коллегу, кто у вас в компании самый сильный BI. Если назвали тебя — пора откликаться на вакансии в Авито. Если серьёзно — мы ищем сильных BI на senior и middle. Нам важно: — Автономность и самоменеджмент. Не разжевываем. — End-to-end. Берешь проблему бизнеса и деливеришь результат. — Диапазон. Свободно ходишь от кода и системного анализа к бизнес-логике и визуалу. И обратно. Что получишь кроме зп: масштаб проектов, сильное BI-комьюнити и стек с AI блекджеком. Откликаться мне в личку @alexbarakov или на сайте. Синьорной позиции нет на сайте, но она есть. Больше про BI в Авито — по тегу #AvitoBI в наших каналах.
2 141
4
AI-first data-cтратегии сейчас писать не лучшее время. Никто не понимает ничего кроме вектора. Для работы сделал компромиссны+1
AI-first data-cтратегии сейчас писать не лучшее время. Никто не понимает ничего кроме вектора. Для работы сделал компромиссный сценарий для ориентира. В основе - и наш опыт в Авито и наблюдения/разговоры с мировым техом. Сценарий на 100% неточен и завтра устареет. Но мыслей много и надо записать, что есть "на сейчас": 1. Измеримого эффекта сейчас нет никакого. Пока. Большинство жжет токены, получает локальные эффекты, но не масштабирует пилоты. AI добавляют в устоявшиеся процессы. И AI усложняет систему и вносит в процессы хаос. Без новой AI-native инфраструктуры и процессов идет деградация качества, боттлнеки в review, затраты на реворк, блоки с персдатой. Нужен переход к новой модели работы "AI генерирует - человек проверяет", а это очень дорогая и требовательная система. 2. Изменения в BI понятны примерно (см прикидка на картинке) В пропорции задач будет падать доля разработки BI дашбордов и витрин, доля ad-hoc. Расти: разработка core моделей данных, semantic layer и governance. Новый класс задач - создание и поддержка агентных систем. Экономия будет, но ограниченная и неравномерная и не сразу. Суммарный extra capacity пусть будет: ~ +0.3– 0.6 FTE на 1 BI разработчика к 28 году. И это при скорее бесткейс - частичное ускорение отдельных задач с сильной зависимостью от роста зрелости. Реально есть ускорение - в создании витрин, пайплайнов, написании кода, создании чекеров и документации, ресерчах. Причем больше AI ≠ лучше результат. В разработке оптимум ~30–50% AI-кода (не только наше ощущение). Дальше растёт число ошибок. Похоже это не временное ограничение, а некий предел. Ускорение компенсируется новым оверхедом: human-review, коммуникации с бизнесом, debugging, governance. С дешами тоже пока рано говорить об ускорении. Визы АI делает норм, но для продовых дешей объем реворка сопоставим с ускорением. Вот количество задач упадет - AI based apps заменят те деши, которые делались под разовую аналитическую задачу. 3. Синьоры вайбкодят лучше, получают больше эффекта (не только наш вывод). Новый подход повышает плотность решений и требует высокой итеративности и разборчивости и аутпутам, чтобы получить продовой результат. Мидлы чаще останавливаются и принимают результат ниже качеством, пропускают ошибки. Вайбкодинг нужен таки как отдельных хард (или софт, пофиг). 4. Самый большой эффект — не в ускорении, а в новых до этого не решавшихся задачах: считать 100% вместо 10%, проверять всё, а не выборку, документировать всё, а не частично. То, что раньше не делали из-за ресурса. 5. Главные пререквизиты — semantic layer (как слой метрик и разрезов), trusted сore слой витрин под ним (включая логическую и концептуальную модель) и доменная база знаний сверху (фьюшоты). Без них: text-to-SQL угадывает, делает правдоподобные ошибки, генерит rework, теряется построенная годами консистентность метрик и доверие пользователей. 6. Governance остается и становится важнее AI ускоряет генерацию и валидацию меты, но не помогает с принятием решений, ответственностью. Human-in-the-loop остаётся. Плюсом AI увеличивает объемы контента, генерит AI slop, что требует большего ресурса на его разбор (сертификацию и архивацию). Добавляется гавернанс контекста и скиллов. 7. Основные "стены" в которые все врезаются: bottleneck в review, рост ошибок при росте доли AI-контента, низкий эффект из за недобора в governance, semantic layer, графах знаний и контекста. 8. «Как в любой масштабной трансформации - будущее наступает неравномерно». Если в вашей компании нет волны вайбкода вы вероятно не видите, как сильно меняется профессия работы с данными. Но переживать не имеет смысла, ведь это вне нашего контроля. Можно включаться активнее, можно пока спокойно заниматься работой над AI ready архитектурой и следить. Пока рождаются новые процессы и есть пока только иллюзия ценности AI. Когда начнутся необратимые вещи — все узнаете и успеете.
0
5
Здоровое питание вашего AI аналитика Прикопаем тут еще одну скучную «невидимую» тему, на которую потратил много "мыслетоплива
Здоровое питание вашего AI аналитика Прикопаем тут еще одну скучную «невидимую» тему, на которую потратил много "мыслетоплива". Речь про core-слой сертифицированных витрин. И инженеры и аналитики избегают этой темы. В нем мало низковисящих фруктов, нет готовых подходов, сложно покрыть себя славой. Но он решает сутевую проблему - хаоса витрин и низкого переиспользования. Бич мультидоменных платформ с кросс юзаджем. Поэтому весь прошлый год продавал внутри идею. В итоге скорее продавил, чем продал. В конкуренции с другими инициативами за бюджет - нужен эффект с деньгами. Цели кор-слоя понятийно правильные — быстрее находить, делать меньше джойнов, ускорять расчеты, сокращать количество объектов, экономить инфру. Досчитываем метрики уже параллельно с внедрением. О чем речь. Кор слой это витрины с заявленным статусом доверия certified. — удобные для адхоков (шарокие) и создания других витрин (3НФ) — с покрытием качеством и гарантией (ownership, SLA, DQ-checks, meta) — c продвижением - reuse вместо «соберу ка еще одну витрину» Можно воспринимать как основу или как часть семантического слоя (смотря как широко брать). Ну и из заголовка вы поняли - кор слой - основная часть рациона AI аналитика, вместе с доменным контекстом. Всем нужно думать о здоровом питании. В Авито проект делается смешанным ресурсом платформенным DWH и BI в доменах. Дима Мележиков, лид BI из домена Маркетинга, ворвался в проектную команду, надел шапочку продакта и потащил, под прессингом доменных биай задач. Опасный тип. Читайте его статью на хабре (дайте лайков) про прогресс прошлого года. С того момента снова перебрали подход и продолжаем экспериментировать. Прикручиваем туда: — AI generated DQ checks — AI generated описание витрин — Автоматический health scoring в каталоге У Димы будет доклад на Aha-26. Что сделаем к маю — расскажет. Что не успеем — приукрасит 🙂 Кто решал такую задачу - отзовитесь поболтать. Вот кстати близкий кейс Airbnb. Женя Ермаков еще помнится вскользь рассказывал про схожий проект common data marts в яндекс такси. Давно это было.
0