Data Nature 🕊

رفتن به کانال در Telegram

Канал о жизни BI аналитики и инфо-дизайна в корп реалиях с фокусом на работающих практиках управления. Веду как летопись полезного для себя и людей с такими же неврозами. александр бараков @alexbarakov datanature.ru data-nature.com (рекламу не размещаю)

نمایش بیشتر

روسيا95 853 فناوری و برنامه‌ها16 592

6 157

مشترکین

-224 ساعت

+17 روز

+3330 روز

4 278

نمایش های پست

~ 2 90724 ساعت

~ 2 76448 ساعت

69.48%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

6 156

AI не готовность - пост о том, как препарируем доменные данные и контекст в Авито Антропик напомнил всем кто забыл, что Text2sql бесполезен, если он не шарит в данных домена. Мы догадывались. Одна из тестируемых тут идей - AI-ready score в целях тимлидов доменов. Это булевые проверки условно трех групп: - Роли и в домене (BI-партнёр, Куратор метрик, AI-чемпион). Скучный компонент, но без гавернанс-людей никак; - Разметка каноничных объектов. Смотрим, что доля трафика через сертифицированные здоровые витрины, деши и метрики не ниже таргета. - База знаний домена - 11 типов контекста в репозитории: FAQ с ловушками, глоссарий, lineage, примеры text2sql, eval-кейсы, деревья метрик и др. Генерация этого контекста - это тоже скилл, встроенный в работу - решил задачу -> закинул агентом PR в базу контекста. Автогенерённые объекты засчитываются только после ревью. Всё это пока про покрытие. Качество сразу после: golden sets по типовым задачам + трейсы от AI-дежурных дают базу для тюнинга Будет понято, какие эвалы фейк, какие знания - балласт. AI-дежурные и ассистенты это морковка спереди, рост доли их успешно отвеченных эдхоков в чатах - мотивация вкладываться дальше в контекст. Замеры в этой части пошарю позднее. Если интересно включится - все еще есть вакансии в BI

6 156

ахахахах, картинка угар, сори, не мог не запостить 🤨 🎙Через месяц проведем программу «Разработка BI+AI стратегии» — ежегодные живые воркшопы для BI/Data лидеров. 📅 5–28 августа • 11 дней по 2,5 часа в 18.00 AI-стратегии сейчас писать не лучшее время — никто не понимает ничего, кроме вектора и горизонта пары месяцев. Но и развивать BI без ИИ нет смысла. Тот случай, когда программа нужна мне самому. Нужно обстучать весь этот поток гипотез, переопылиться. Старые темы теперь с "ИИ": – Self-Service, Reporting Factory и теперь Agentic BI: что ИИ каннибализирует, а где сертифицированный репортинг остается; – Карго-культы в AI во всех дата-платформах страны: самолёты летающие и соломенные «AI-ассистенты»; – Data и content management: сертификация, health score, архивация — как не утонуть в собственных витринах и отчётах c приходом AI-слопа; – Почему text-to-SQL демо работает, а в проде врёт — и причём тут semantic layer, core-витрины и доменный контекст; – Вайбкодинг в BI-команде: почему это уже обязательный тулинг и «как знать меру»; – Core слой витрин как «здоровое питание» AI-аналитика вместо фастфуда из 6000 витрин низкого качества; – Дата-каталоги и глоссарии наконец взлетят — но не для людей, а для AI-агентов; – Метрики BI и какие новые шансы посчитать таки time-to-insight, Saved FTE и проч Все это и прочее в режиме живых обсуждений, разборов кейсов друг друга — участников и топ-компаний. Апдейт контента примерно 50% vs прошлый год. Заходите. Мест немного. 👉 https://biconsult.ru/bi-strategy-barakov/

6 156

Насмотренность на гавернанс данных дает мрачный образ будущего для гавернанса контекста. Сегодня в тех компаниях строятся планы: Соберем весь контекст, свяжем все знания компании в context/knowledge graph. Сделаем AI понимающим бизнес. Десять лет назад примерно так же выглядели обещания от Data Governance: Соберем все метаданные. Построим каталог. Назначим владельцев. Опишем определения. Наступит порядок. Пока у меня есть только вопросы и гипотезы. Делюсь чтобы собрать мнений. 1. Больше контекста = выше качество AI? В кейсе Anthropic агент получил доступ к большому корпусу SQL, дашбордов и аналитических артефактов. Качество почти не выросло. Во многих ошибочных ответах нужная информация находилась внутри доступного корпуса. Проблема была в выборе правильной сущности. Ценность создавал не объем контекста, а уменьшение пространства выбора. Большая часть рынка сегодня инвестирует в: knowledge graph; semantic layer; metadata; context. Anthropic пишет что после определенного уровня зрелости дополнительные знания дают меньший эффект, чем качественные процедуры, зашитые в skills: какие источники когда использовать, в каком порядке, с какими проверками и уточнениями. 2. Можно ли через AI собирать, создавать, валидировать контекст Компании? DataHub исходит, что значительная часть контекста уже существует, просто разбросана по системам. Тут AI явно может помочь с Context Mining — поиском отсутствующего контекста. Anthropic говорит, что самого важного слоя - бизнес-контекста - в системах нет: почему метрика считается именно так; почему существует исключение; почему доверяют именно этому источнику; почему было принято именно такое решение. Такой контекст нужно создавать человеку. Распределенная ответственность за валидацию контекста выглядит одним из главных рисков. То, из-за чего не взлетает DG — человеческий фактор. Тут AI уже умеет: находить противоречия; находить устаревший контекст; выявлять пробелы; сравнивать версии; запускать проверки, evals. Возможно, мы движемся от модели: AI → Human → Approved к модели: AI → AI Review → Human для конфликтов. Но не факт. 3. Что вообще тащить в Context Layer? На первый взгляд хочется построить новую систему и собрать туда все. Сделать еще одну устаревающую копию реальности. Кажется, Context Layer не должен управлять контекстом. Скорее собирать связи о разном контексте из мастер-систем без дублирования (накидал матрицу на фото) ...и добавлять критичную инфу про: Trust; Certification; Freshness; Canonicality; Completeness. 4. Кто такой Context Engineer? Если контекст становится стратегическим активом, кто-то им должен управлять. «Context Engineer» расщепляется на две роли: (1) Context engineering — собирает контекст под конкретного агента: skills, retrieval, tools, evals. Чинит ошибки. Ближе к Analytics Engineer / BI. (2) Context manager — владеет доменным слоем контекста. Эволюция Data Governance / Steward роли. Откуда только этим людям взять capacity на это? Другие задачи никто не снимал. А эффективность от AI массово не наступила.

6 156

Эфир Visiology Cortex про их next gen BI прототип вызвал тут обсуждение в закрытых чатах и резонирует с тем, как мы строим свой BI тулинг в Авито. Начну с предложения всем посмотреть, Иван с командой хорошо копает в продуктовые гипотезы, дает часто независимую аналитику. Ищут новые сценарии в BI и делятся. Кто посмотрел - давайте обсудим (тут нет правильных ответов). Закину свои мысли подробнее, с переходом в душноту: 15:05 Иван начал с того, что разложил базу про основные AI+BI группы юзкейсов. Тут все по делу: - вайбкодинг в BI стоит своих токенов, годится для ресерча, прототипа, администрирования, но для прода все еще много правдоподобно ошибается, требует реворка/ревью. Ценность межуется с потерями. Всем пробовать. - чат с базой данных (Text2SQL) работает, но точность сильно зависит от семантического слоя и системы управления контекстом, которые никто в реальной жизни (пока) не построил. - ИИ помощники в BI, тупо полезные встроенные тулы, которые где то сильно (код), где то не сильно (визуал) ускоряют разработчика. Потом начинается демо. Красивое вендорское демо - смелое, с предположениями, иногда далекими от жизни: 32:19 cortex визы, новое поколение self service аналитики в понимании visiology. Вопрос - почему юзера с бизнес-вопросом отправляют конструировать (пусть и с агентом) подключение? В это пойдет casual explorer а их обычно 5-7%. Кажется правильнее исходить, что качественные сорсы/квери уже размечены для агента аналитиками/BI. Наоборот надо предотвращать тут создание новых сорсов, коннектов неаналитиком. Первый кусочек продуктового легаси и идеализма. Из области для атоса (юзера) это слишком много, для графа де ла фер (биайщика) слишком мало. - Далее флоу ведет к генерации метрик. Первый вопрос зачем их давать так свободно генерить, а не брать из сертифицированного стора ? (жесткий риск утраты так долго выстраиваемой версии блять правды) Второй вопрос - как решена в генерации проблема правдоподобных и скрытых ошибок в логике? Ребята стильно обошли семантического слона в комнате, о котором вели речь в начале ролика. Третий вопрос — зачем генерить визы и заставлять в них вникать, когда можно сразу ответить на вопрос. При этом выдача набора виджетов фактоида, динамикой и основными разрезами сам по себе хорошая фича. Но кажется нужна по спец запросу или уже для креатора. - Потом клац - на этом "сорсе" с "метриками" селфсервис юзер создал "деш". Тот же наброс — пушим в старое, не? Такое осядет мусором на сервере. Если только в личный сендбокс без шаринга если приспичило. Сама по себе генерация дешей на базовом виздвижке и доработкой стандартными средствами — это хорошо. Но мы в Авито вероятно от этого пока откажется - слишком дорого, оставим агенту весь JS и не будем мучить всех сборкой дешей на бедной drag-n-drop библиотеке чартов. С UI чата - ожидание от неаналитика в создание визов руками уходит, а профики будут ваять с агентом на JS. - Короче не хватило встроенного гавернанса - иначе ai-driven серфсервис это немного про обезьяну с грантатой - засрет все BI-слопом и положит dwh кверями. 43:53 - Аватар. Не до конца понял. Пока выглядит как простой rules-based алертинг. Проблема всех алертов была и останется - в массовом false positive срабатывании чекеров. Поэтому все дайджесты инсайтов в итоге или отключают или пускают через проверку кожаным. - в плохом выявлении причин событий автоматикой. Тут возврат к системе управления контекстом + агенты судьи. Без этого все тлен (с этом впрочем возможно тоже)). 47:07 - Лаборатория - норм, переупаковка Клода в контуре BI системы. Вопрос - зачем отдельный чат в cortex визы, тут есть mcp dwh/BI и можно его сделать стартовым. Плюс его в мессенджер высадить. Каждая 10 цифра будет фейком, но для self service может и норм.

«Не могли этого не сделать. Must have для BI системы»

Звучит как продуктовые чемоданы без ручек, которые стоит бросить, раз уже делаем next gen. А вообще крутые эксперименты. Диалог с чатом в левой части экрана — значит все серьезно. AI-first. Понимаю что пост — душнота страшная, но таков путь. Актуалочка.

6 156

Простой тест: спроси коллегу, кто у вас в компании самый сильный BI. Если назвали тебя — пора откликаться на вакансии в Авито. Если серьёзно — мы ищем сильных BI на senior и middle. Нам важно: — Автономность и самоменеджмент. Не разжевываем. — End-to-end. Берешь проблему бизнеса и деливеришь результат. — Диапазон. Свободно ходишь от кода и системного анализа к бизнес-логике и визуалу. И обратно. Что получишь кроме зп: масштаб проектов, сильное BI-комьюнити и стек с AI блекджеком. Откликаться мне в личку @alexbarakov или на сайте. Синьорной позиции нет на сайте, но она есть. Больше про BI в Авито — по тегу #AvitoBI в наших каналах.

6 156

AI-first data-cтратегии сейчас писать не лучшее время. Никто не понимает ничего кроме вектора. Для работы сделал компромиссный сценарий для ориентира. В основе - и наш опыт в Авито и наблюдения/разговоры с мировым техом. Сценарий на 100% неточен и завтра устареет. Но мыслей много и надо записать, что есть "на сейчас": 1. Измеримого эффекта сейчас нет никакого. Пока. Большинство жжет токены, получает локальные эффекты, но не масштабирует пилоты. AI добавляют в устоявшиеся процессы. И AI усложняет систему и вносит в процессы хаос. Без новой AI-native инфраструктуры и процессов идет деградация качества, боттлнеки в review, затраты на реворк, блоки с персдатой. Нужен переход к новой модели работы "AI генерирует - человек проверяет", а это очень дорогая и требовательная система. 2. Изменения в BI понятны примерно (см прикидка на картинке) В пропорции задач будет падать доля разработки BI дашбордов и витрин, доля ad-hoc. Расти: разработка core моделей данных, semantic layer и governance. Новый класс задач - создание и поддержка агентных систем. Экономия будет, но ограниченная и неравномерная и не сразу. Суммарный extra capacity пусть будет: ~ +0.3– 0.6 FTE на 1 BI разработчика к 28 году. И это при скорее бесткейс - частичное ускорение отдельных задач с сильной зависимостью от роста зрелости. Реально есть ускорение - в создании витрин, пайплайнов, написании кода, создании чекеров и документации, ресерчах. Причем больше AI ≠ лучше результат. В разработке оптимум ~30–50% AI-кода (не только наше ощущение). Дальше растёт число ошибок. Похоже это не временное ограничение, а некий предел. Ускорение компенсируется новым оверхедом: human-review, коммуникации с бизнесом, debugging, governance. С дешами тоже пока рано говорить об ускорении. Визы АI делает норм, но для продовых дешей объем реворка сопоставим с ускорением. Вот количество задач упадет - AI based apps заменят те деши, которые делались под разовую аналитическую задачу. 3. Синьоры вайбкодят лучше, получают больше эффекта (не только наш вывод). Новый подход повышает плотность решений и требует высокой итеративности и разборчивости и аутпутам, чтобы получить продовой результат. Мидлы чаще останавливаются и принимают результат ниже качеством, пропускают ошибки. Вайбкодинг нужен таки как отдельных хард (или софт, пофиг). 4. Самый большой эффект — не в ускорении, а в новых до этого не решавшихся задачах: считать 100% вместо 10%, проверять всё, а не выборку, документировать всё, а не частично. То, что раньше не делали из-за ресурса. 5. Главные пререквизиты — semantic layer (как слой метрик и разрезов), trusted сore слой витрин под ним (включая логическую и концептуальную модель) и доменная база знаний сверху (фьюшоты). Без них: text-to-SQL угадывает, делает правдоподобные ошибки, генерит rework, теряется построенная годами консистентность метрик и доверие пользователей. 6. Governance остается и становится важнее AI ускоряет генерацию и валидацию меты, но не помогает с принятием решений, ответственностью. Human-in-the-loop остаётся. Плюсом AI увеличивает объемы контента, генерит AI slop, что требует большего ресурса на его разбор (сертификацию и архивацию). Добавляется гавернанс контекста и скиллов. 7. Основные "стены" в которые все врезаются: bottleneck в review, рост ошибок при росте доли AI-контента, низкий эффект из за недобора в governance, semantic layer, графах знаний и контекста. 8. «Как в любой масштабной трансформации - будущее наступает неравномерно». Если в вашей компании нет волны вайбкода вы вероятно не видите, как сильно меняется профессия работы с данными. Но переживать не имеет смысла, ведь это вне нашего контроля. Можно включаться активнее, можно пока спокойно заниматься работой над AI ready архитектурой и следить. Пока рождаются новые процессы и есть пока только иллюзия ценности AI. Когда начнутся необратимые вещи — все узнаете и успеете.

6 156

Здоровое питание вашего AI аналитика Прикопаем тут еще одну скучную «невидимую» тему, на которую потратил много "мыслетоплива". Речь про core-слой сертифицированных витрин. И инженеры и аналитики избегают этой темы. В нем мало низковисящих фруктов, нет готовых подходов, сложно покрыть себя славой. Но он решает сутевую проблему - хаоса витрин и низкого переиспользования. Бич мультидоменных платформ с кросс юзаджем. Поэтому весь прошлый год продавал внутри идею. В итоге скорее продавил, чем продал. В конкуренции с другими инициативами за бюджет - нужен эффект с деньгами. Цели кор-слоя понятийно правильные — быстрее находить, делать меньше джойнов, ускорять расчеты, сокращать количество объектов, экономить инфру. Досчитываем метрики уже параллельно с внедрением. О чем речь. Кор слой это витрины с заявленным статусом доверия certified. — удобные для адхоков (шарокие) и создания других витрин (3НФ) — с покрытием качеством и гарантией (ownership, SLA, DQ-checks, meta) — c продвижением - reuse вместо «соберу ка еще одну витрину» Можно воспринимать как основу или как часть семантического слоя (смотря как широко брать). Ну и из заголовка вы поняли - кор слой - основная часть рациона AI аналитика, вместе с доменным контекстом. Всем нужно думать о здоровом питании. В Авито проект делается смешанным ресурсом платформенным DWH и BI в доменах. Дима Мележиков, лид BI из домена Маркетинга, ворвался в проектную команду, надел шапочку продакта и потащил, под прессингом доменных биай задач. Опасный тип. Читайте его статью на хабре (дайте лайков) про прогресс прошлого года. С того момента снова перебрали подход и продолжаем экспериментировать. Прикручиваем туда: — AI generated DQ checks — AI generated описание витрин — Автоматический health scoring в каталоге У Димы будет доклад на Aha-26. Что сделаем к маю — расскажет. Что не успеем — приукрасит 🙂 Кто решал такую задачу - отзовитесь поболтать. Вот кстати близкий кейс Airbnb. Женя Ермаков еще помнится вскользь рассказывал про схожий проект common data marts в яндекс такси. Давно это было.

6 156

Не знаю, его ли мы все ждали, но шифт на agentic analytics начался. Как минимум в бигтехе. Бигтехи техничны, гибки, управляемы и при деньгах. Когда компания дает добро на работу с условным Claude Code — начинается почти биология: За пару недель появляются MCP ко всем основным сервисам. Самоорганизуются vibe-coding сессии обмена опытом. Знания передаются на стихийных 1-1. Скиллы агентов множатся и шарятся. Мелькают сообщения, доки, код, деши, витрины, написанные агентами. Безопасники хлопают глазами и переглядываются. Но agentic приносит не только wow-эмоции. Он открывает довольно сложные вопросы. Опыт Amazon, на который весь бигтех смотрит как на фронтира, дает пищу для размышлений: - одним из первых озвучили жесткий AI-first на сырых инструментах - первыми обжигаются с кодгеном роняя прод на ~6 часов - вводят обязательный review AI кода синьорами Вектор это, правда, не отменяет. Какие наблюдения: - будет резко расти доля запросов к платформе. Агенты джойнят как угорелые и не всегда элегантно. Возможна деградация перфоманса от перегрузки инфры. Придется думать о фильтрации и семплировании агентских запросов, агентских квотах. - после стратегии «дикого запада» придет подсчет сожженных токенов. Многие сценарии могут просто не окупаться. Для сравнения с трудоемкостью операций «по-старому» пока не хватает данных. - риски доступа к проду. Агент уже может написать код, сделать push и сам же сделать review. Такие кейсы нужно ловить и блокировать (пока). Сейчас доступ агента = доступ пользователя. Но дальше придется думать о регистрации агентов, связанных с сотрудниками, и выдаче им отдельных доступов. Типа сервисных аккаунтов. Но с характером. Появится новый тип observability — мониторинг действий агентов: какие запросы генерируются, сколько токенов потрачено, какой код, что поменял. Такой observability тоже будет агентским. Хорошо ли это. - объем кода, дешей и др дата-артефактов вырастет на порядок. Тем кто выплыл из хаоса контента - нужно снова сделать вдох перед погружением. - и есть парадокс. Все ожидали: AI сократит потребность в инженерах и аналитиках. Пока происходит обратное. Вакансий в мире становится больше. Говорят, жажда легкого и доступного кода привела в инжиниринг компании, которые раньше покупали как SaaS ПО. - Рост AI замедляется стоимостью compute. Если стоимость AI > стоимость человека - автоматизация перестанет быть выгодной. Естественный экономический лимит. Реальный AI адопшн говорят будет тогда как с интернетом или электричеством - замедленным. Ну успокоили. В общем, ощущение, что дамбу открыли. И достаточно квартала, чтобы в погоне за эффективностью затопить всю долину. Надо продумывать Governance. Сразу. Нихрена не понятно, но очень интересно. (На фото - инженеры до изобретения autocad)

6 156

Прожарка дешей в Авито Пару лет назад писал что Ценность визуализации данных преувеличена (В основном Tableau, поскольку это их главная фишка). В ней нет ничего критически важного. Релевантность, своевременность аналитики и доверие к ней в разы важнее. 95% бизнес дашборда - BANs, бар-чарты и удобные таблицы. Надо просто набить руку делать базовые шаблоны без явных ошибок. Помогает если по-максимуму закрыть в BI туле опции делать откровенное уродство. Короче ничего с тех пор не изменилось) Но. ~~Душа просит красоты~~ некоторым из нас все равно хочется делать хороший визуал ) Женя Мичурин и Лера Смирнова рассказывают про наш подход к прожаркам дешей. Все как у всех - есть комьюнити жюри, методология, подготовка, эфир. Недавно добавили доработку деша автором с получением бейджа и "зачетом" на след калибровке по матрице компетенций. Важно - для любого разговора о визуализации бизнес данных в приличном обществе нужно проверять себя на два условия: 1) Упарываться и придираться стоит если (через AND): - это операционный деш (не аналитический, там скорость важнее) - у деша широкая аудитория бизнес-юзеров (UX окупается) - есть основания считать, что деш проживет долго, хотя бы 6 мес (система дешей как продукт) В остальных дашах - упоротый датавиз не отбивает инвестиций. 2) Есть спорные вопросы (вкусовщина). Есть объективные (все эксперты будут согласны). Грань тонкая, но ее надо чувствовать. Традиционный вопрос - ну а что там с AI? Собрал на коленке Dashboard Roasting Bot в нашей корп LLM (с anthropic под капотом). В контексте - мощный прожарочный промпт + наш BI стайл гайд с конфлюенса и записи прожарок. Перед оценкой бот запрашивает цель деша, аудиторию, регулярность использования. Результат на 8 из 10. Насыпает детально, развернуто, полезно. Цитирует стайлгайд и Lisa Charlotte Muth. Проверяет на цвета, адекватность layout'а. Дает толковые рекомендации. Ставит оценку по шкале. Точно можно его доучить в промпте - не лить воду, держаться строгих проверок. Закину в комменты пример деша и ответа. Вроде рабочая штука. След шаг - встроить прожарку в BI тул при публикации и в скоринг здоровья сертифицированных дешей. Кажется этого еще никто не делал) Торопитесь прожаривать короче, пока есть что прожаривать. Деши уйдут (нет), а вместе с ними и приятный треп про визуализацию. В тему два наших эфира с Ромой Буниным. Больше не будет - поляна сдана ИИ.) #АвитоBI

6 156

Снова стал ценить опечатки. Восторги о AI прогрессе имеют обратную сторону. AI slop (мусор из видео, картинок и текстов без смысла) раздражает. Чем больше AI контента, тем выше ценность настоящего, сделанного человеком. При том, что грань уже много где стала не различима. Это не про то, что "все выпрыгиваем из AI-поезда" - уже такая скорость, что лучше смотреть в окно и взять еще двойной виски. Видео в этом посте - не AI. Это группа shortparis и ее солист, чьих новых песен этому миру будет не хватать.

6 156

Вайбкодинг в матрице компетенций BI? Скорее обязательный тулинг, а не скилл. Дима на неделе зашарил матрицу компетенций BI Авито. Обычно матрица это просто табличка с ожиданиями от грейдов по софтам и хардам. Иногда форма самооценки как то, что постил Рома и переосмыслял я 3 года назад. Но в Авито матрица компетенция - вещь интегрированная в калибровки - два раза в год на ревью происходит "защита" всех BI, в том числе оценка проявлений компетенций. А проекты для хардов и синьорный "софтовый" проект имеют шаг пре-ревью составом тимлидов. Все это влияет на промо, премии и планы развития каждого в функции. Польза - Добиваемся ± выровненную единую оценку на BI в разных доменах, четкий планы развития. - Чтобы внедрять новое целевое поведение - условно продуктовый подход - можно начать с отражения его в матрице (не гарантия, но эффект стабильный) Минусы: После каждой калибровки все ощущают, что …многовато стало бюрократии. Когда матрица становится настолько важным инструментом - круг замыкается: - Нужно формализовывать четко, что именно требуется и какие пруфы приносить. Месяц до калибровок становится "погоней" за недостающими артефактами. - Чем детальнее формализуешь, тем больше противоречий, трактовок, поводов абьюзить формулировки, больше корнер-кейсов для обсуждения. Короче, это пример наверно наиболее зрелого подхода к инструменту матрицы компетенций из всех, что я видел, но будьте готовы платить за это издержками на "бюрократию". Оправдано при большой и децентрализованной BI функции. А ну и про вайбкодинг Как бы красиво не смотрелись AI генерация требований, дешей, их описаний и AI прожарки - это ~~баловство~~ не геймченджеры. Для BI dev - главный AI юзкейс в ускорении написания/ревью кода и отработки адхоков. И цивилизованное вайбкодинг-окружение c MCP-блекджеком заходит в базовый пакет эффективной работы - как когда то.. jira или git. Типа если не юзаешь - к тебе есть вопросы. Нас это ждет в ближайшее время. Но чекать в этом скилл - хз зачем. #АвитоBI

6 156

Наконец настало время сделать Обзор всего годного в авторских BI каналах Авито. 1️⃣ Дима Снигирев, тимлид Core BI, рассказывает про запуск найма стажеров в BI. Стажеров нанимаем редко, осталось 5 дней чтобы подать заявку. Отбор будет жесткий, но оно того стоит. Следите за каналом Димы - там скоро (уже вот вот) будет опубликована матрица компетенций BI Авито с рассказом. 2️⃣ Маша Аничкова, лид BI команды в Авито Товары, пишет инсайды про наши калибровки, берет интервью и дает идеи для подарков аналитикам на гендерные праздники. У Маши стильный канал - ирония, самоирония, лайфстайл и диапазон. Как Подушка на стул от геморроя - ее канал расслабляет. 3️⃣ Лера Смирнова, Старший BI-разработчик Авито, берется за ~~старое~~ ~~вечное~~ ~~переоцененное~~ датавиз в BI и раздает хорошее. Когда думаешь, что тема уже раскрыта, находятся те, кто ее освежают и вдохновляют других вникнуть в предмет. Наша с Настей коллекция must read статей Шарлотты в тему. 4️⃣ Даня Шевцов, отважный продакт BI системы Авито, пишет книгу из постов про все важное в своей профессии: много прикладного LLM, посты на развитие типа CLI для новичков, Букмарклеты. Дань, коричневый цвет в постах надо заменить - ведь главным цветом 2026 года по версии Pantone стал Облачный танцор. Читайте BI авторов Авито. Наши вакансии #АвитоBI

6 156

Data Governance заебал. Собственно, здоровое состояние любого, кто с ним плотно сталкивался. (..пора снова проводить курс) Нет сильных примеров оценки влияния на бизнес и способов "продать". Владельцы данных и Дата стюарды - в большинстве случаев невзлетающий пиздеж, который руинет все остальное. Бизнесу пофиг на DG (всегда было и будет) - бюджет дают разве что на каталог, где выгорает любой техлид за год. Качество данных - куча чекеров без процесса. И так происходит везде, во всех компаниях, во всех странах. Читаем LinkedIn - посты про DG это либо наивность и пафос, либо обесценивание и ирония (как мои). Есть еще терапевтические мемы, как в этом милом канале. Мемы не врут. Плюешь, возвращаешься к BI/DE/DS/AI проектам. Проходит время — и руткозы приводят обратно к data governance, к проблемам, которые не решаются. Еще эти AI-ассистенты добавляют суеты - "всем нужно качество, всем нужен оунершип". Последние годы я постил самое разное, пытаясь осмыслить и докапаться до сути или изобрести свои подходы: - Миро-гайд по теме Data Governance - Miro-борд с 80-ю схемами про DQ - Мини-исследование про Data Governance в big tech - Эфир про AI в дата манеджменте - Эфир про Data Governance Здравого Смысла - Эфир про то, почему Data Catalogs не взлетают? Провел больше 20 курсов, стратсессий компаний на эту тему. Каждый такой проект - это всегда ресерч. Узнать, кто что придумал рабочее в мире и России. Проводя каждый курс по DG - я говорил себе, что он будет последний. Прошло больше года с последнего. Время снова наступить на все мозоли. Зачеледжить себя и обновить картину. На 95% будет тот же итог. Не стоит записываться, если ждете чуда. Я как всегда расскажу все что знаю, дам кучу шаблонов, преувеличу свои успехи, перескажу чужие идеи, присвою лучшие. Позову еще пару крутых ребят поговорить про их кейсы. Разберем ваши. Будет честный диалог, обмен опытом. Если вам ок - ссылка на запись на курс. Есть еще около 10 мест. Обычно подбирается классная компания.

6 156

Про сертификацию дешей в Авито пост За 10 лет тема сертификации в BI успела меня вдохновить и утомить несколько раз. Есть в этом что-то супер разумное - отделять «хороший» контент от «херового». Есть в этом что-то бюрократическое. Но в итоге в этом есть и что-то неизбежное. Как ни крути - других эффективных решений проблемы "хаоса отчетов" найти не особо получается. Важная тема короче. AI-кипеш придал ей еще новый импульс. Чем дальше прогружаешься в LLM+BI тем больше понимаешь, что деши немного подвинутся, но никуда не уйдут (сука). Будут обрастать связями с метриками и ноутбуками, AI фичами для адхокинга - но проблема нехватки слоя здоровых+рекомендованных объектов остается. В 25 году мы в Авито закрывали этот пробел. См. свежую статью об этом от Жени Мичурина- тимлида BI в Avito Jobs. Во многом мы переосмысляли фреймворк, уже проверенный в других компаниях. Движок на бекенде проверят факторы здоровья и отображает статус в хедере, а BI-партнеры ревьюют и размечают ключевые деши. Сама по себе сертификация не самоцель - конечно нас интересует больше пользы за меньшие усилия. Что мы при этом пробовали новое - Запилили в хедер деша прямо в BI системе. Твердый плюс оперсорс BI - можешь переверстать все под себя. Много сломали копий с Женей и Даней, вроде чистенько, но кнопка readme в итоге потерялась - зайдем на новый круг позже. - Затестировали AI-генерацию описания деша по шаблону. Ожидаемо неплохо. Но сущностную инфу - зачем деш реально и какие есть в нем нюансы логики - все равно писать автору. Ну и надо докрутить human-in-the-loop. Добавлять описания, которые вообще не проверял автор - стремно. Впрочем учитывая какой низкий процент их читает - может и ок) LLM пишет редми, и потом LLM же этот ридми читает для поиска - это так тупо, что аж хорошо. - Сделали Target audience — заполняемое автоматом и автором поле с целевыми группами (≠ группы имеющие доступ) для рекомендаций и индивидуальной сборки коллекций дешей для юзера. Впереди еще больше задач - Надо прокачать мотивацию авторов. Сертифицированные деши - получают приоритет в поиске, у агента, в очереди на обновление. Есть план сфокусировать фидбек-бота только на ключевых сертифицированных отчетах. Но нужно что то еще. - Сейчас в процессе нет главного компонента - автопроверки апстрима деша на наличие core слоя витрин. Тема в начале пути. Если ты DE с крутым опытом в этой теме - го к нам (пиши в лс) Короче еще много поводов продолжать развлекаться❤️ В тему старое видео Ромы Бунина с куском про сертификацию в Яндекс такси. Ну и нового года всем. Чтобы в нем было много нового и он сам был ..новым! 👍

6 156

В развитии BI функции как и в продукте тоже есть свой фича-паритет. Чтобы вырваться топ-1 нужно сначала выстроить "базовые вещи" современного BI проекта в компании. Так в 2025 мы в Авито активно «догоняли». В чем то это проще. Переосмысливаешь на ходу и делаешь лучше. А еще делаешь "проверку на AI" - убеждаешься не инжинирим ли мы то, что отомрет. Так мы например - запустили сбор фидбека и подсчет CSAT на BI объекты. Таня Быкова (BI тимлид в Авито Недвижимости), залидировала инициативу и написала пост про проект и его пользу. Что мы воспроизвели - Виджет-кнопка в деше (как фича в BI системе) для добровольной ОС от юзера - все бы хорошо, но очень низкая конверсия в ответы. И это не лечится - условный must have, без высокой ценности. - Часть про BI контент в ежеквартальных опросах платформы - дает хороший обзор статуса и динамики по 10 факторам оценки, при проваливании на домены - охватов уже маловато. Что мы добавили - "Фидбек-бот" - отправляет точечные запросы на фидбек пользователям про их топ-отчеты. Тот же набор из 10 факторов. Детальность до домена и отчета. Хорошая конверсия - за одну рассылку собрано в несколько раз больше ответов чем за год с кнопки в дешах. Важно не уронить частыми сообщениями, но при этом создать плотность ответов по ключевым дешам. "Проверка на AI"- какой тут ход мысли (накидывайте): - В нашем образе будущего - деши останутся, но их юзкейсы ужмутся, количество сократится. AI "отвечалка" (сколько было...) и "чартилка" (построй мне.. , покажи динамику...) канибализируют (хоть бы уже) ручные адхоки и "аналитические деши", которые юзер использовал для ответа на вопросы. - Фокус сместится на развитие дата-инфры, но будут оставаться деши-продукты - эдакие мастер-приложения для чистого репортинга, мониторинга устойчивых бизнес-сценариев, обзора показателей (то для чего даши придумывались). Деш - как shared mental model процесса/бизнеса. - Такие деши должны потерять монументальность. Ускорится итеративность продуктовых изменений - автоанализ юзаджа элементов деша (чартов, фильтров.. ) и фидбеки юзера дадут генерацию "прожарки" - предложений улучшений, и редфлаги для отправки деша на сертификационное ревью. - Далее видимо автооптимизация через as-a-code архитектуру и автокастомизация аппа под юзера - если в этом будет смысл. Еще про фидбеки на BI-контент писал 2 года назад. Про NPS BI в статье Ромы про метрики BI #АвитоBI

6 156

Иван Вахмянин из Visiology поделился первыми результатами их обновленного анализа вакансий специалистов по BI на HeadHunter (см картинку за 24 год). Ребята выгрузили весь массив вакансий с 2021 года, обогатили данные и пропустили их через LLM, чтобы по описаниям и тегам определить, под какую платформу ищут человека. Попросил датасет - делюсь инсайдами про 25й (неполный год) - Power BI продолжает оставаться безусловным лидером (а шуму то было) — почти 50% всех вакансий связаны с ним (хотя доля начала снижаться, до 2023 она только росла за счет частичного замещения Qlik и Tableau). - С клика тоже массово никто не слезает. Сидят ровно - видимо не обновляются но и не платят поддержку - Superset впервые обогнал Tableau в 2024, и по предварительным данным за 2025 год снова идет небольшой спад доли. В итоге примерно сейчас на одном уровне в Tableau. - Наблюдается рост числа вакансий по DataLens, Visiology и FineBI, ну и в целом суммарная доля "замещающих" BI платформ продолжает расти. Но вместе они дают только 5% вакансий - «Тяжёлый» корпоративный западный BI — IBM Cognos, Oracle BI и другие — теряет позиции прямо очень сильно. Пытался сделать выборку компаний, перешедших в 24-25 с одного тула на другой, понять популярные перетоки. Но лидера не видно «все переходят на разное». Вопрос, на который было бы неплохо ответить - как меняется доля компаний, которые делают свой биай (на базе опенсорса). За месяц узнал о трех больших кейсах (2 банка из топ 10 и телеком) когда решали закрывать свой инхаус продукт. Но и тут везде разная мотивация и тулы. Кажется это отдельный ресерч. Иван завтра обещал дать свою аналитику этих данных на своей конференции ViRush - бесплатной вендор-пати про биай в кластере Ломоносова. Он всех зовет #добровольнаяреклама Похожую аналитику дает опрос Ромы

6 156

Рубрика - типа шарю за ИИ. Закину вам два топика 1️⃣ Джунов перестают нанимать... на ожиданиях. Generative AI as Seniority-Biased Technological Change - Свежее исследование Гарварда о том как внедрение GenAI влияет на найм работников разного опыта. В основе исследования - 62 млн резюме и 200 млн вакансий в США (2015–2025) в LinkedIn и не только. - 285 тыс компаний, из которых 10,5 тыс внедрили GenAI (якобы, определяли по вакансиям). Основные результаты После 2023 года (после релиза ChatGPT) компании-адоптеры GenAI показали −9–10% сокращение занятости junior-сотрудников в течение 6 кварталов после внедрения; Снижение связано не с увольнениями, а со снижением найма. Важно, что падение связано с ожиданием будущей автоматизации, а не с уже реализованной заменой: просто увольнения стоят дорого. Занятость senior-сотрудников не изменилась. Ограничения - Компании-адоптеры крупнее и технологичнее, поэтому результаты не обязательно применимы ко всей экономике. - Не учтён «теневой» ИИ-адопшен — использование ИИ сотрудниками без формальной интеграции. 2️⃣ В октябре пошел поток статей на тему AI пузыря - буквально от всех, например от инвестбанкиров (Goldman Sachs, Deutsche Bank), от бизнес школ (Ель, Гарвард). Все согласны, что рынок перегрет, прибыли нет, у всех дежавю времён доткомов. Вкачано уже столько денег что никакой ИИ не вернет. В статье Wired спросили учёных, изучающих технологические пузыри. Те дали ИИ оценку 8 из 8. Идеально надуто. 🎈 ▪️Неопределённость — никто не знает, как именно ИИ будет зарабатывать. ▪️Pure-play компании — тысячи стартапов, живущих только на слове «AI» в названии ▪️Заряженные инвесторы — миллиарды от людей и фондов, которые просто не хотят «пропустить поезд». ▪️Сильный нарратив — «ИИ изменит всё, автоматизирует всё, спасёт всё». Если коротко: Вопрос не в том есть или нет пузырь - он очевидно есть - вопрос сроков и сценария сдувания. Сдувание тех пузыря - не что-то обязательно страшное - будет коррекция на рынке, большинство стартапов исчезнет (не получив следующих раундов), сгорит много капитала. ИИ при этом никуда не денется, он продолжит развиваться, инфраструктура, сервисы, достижения останутся, но больше сконсолидируются у гигантов. Интернет пережил свой пузырь. Скоро очередь ИИ. (Прикольная аналогия что Nvidia - это фирма продававшая лопаты во время золотой лихорадки в америке) Вместо морали ИИ инициативы в компании, как и программы AI-ready - тоже такие себе "пузырики". Все признают, что защита ИИ инвестиции в большой корпорации сейчас - это прыжок веры руководства и страха опоздать. 95% пилотов фейлятся, а 5 процентов выглядят как нишевые решения с небольшим roi. Панельная дискуссия на конференции RT DataTalks 6.0 - как подтверждение. Кстати - озвученная идея сразу применять в компании практику чарджить косты на ИИ с бизнес-юнита - звучит адекватно. Мучительное отрезвление от паттерна ИИ ради ИИ после анализа P&L. Всем ИИ-позитива

6 156

😈 Провокация 1: Те, кто видел посты про опрос NewHR про рынок аналитиков в других каналах и не реагировал - я возвращаю вас к моральной дилемме - снова проигнорировать - типа другие ответят, а я почитаю - или воспарить над текучкой, потратить 20 мин, внести свой вклад в комьюнити и сделать исследование точнее. 🧐 Рационализация: Этот опрос возможно поможет лучше разобраться - Все ли еще деньги важнее задач - как меняется мотивация и зп - Какие карьерные треки работают между специализациями аналитиков - Как меняется пропорции типов задач, есть ли (вдруг) снижение доли адхоков (когда то же AI даст эффект) Прошлый раз было мало ответов биайщиков, и сейчас мало, но если будет больше в этот раз можно будет например поизучать такую картинку по BI и сравнить с собой. 😈 Провокация 2: Без ваших ответов мы - аналитики из авито опять станем лучшими. С вашими — тоже, просто это будет статистически значимее. Впрочем — нам и не нужны подтверждения 😎 Провокация — Рационализация — Провокация Не ту технику назвали бутербродом (кстати доказанный булшит - начинать негативный фидбек с похвалы, это выглядит неискренне) А опрос таки пройдите, у кого будет возможность. Ребята очень просили. Осталась неделя.

6 156

"Агенты еще минимум десятилетие не смогут никого заменить полноценно. Индустрия в погоне за инвестициями выдает "кашу" за работающие решения и завышает ожидания рынка, когда технологии еще не готовы для реальных задач. А главный риск - из-за ИИ автоматизации снизить нашу способность понимать мир"

После этого интервью Андрея Карпатого (сооснователя OpenAI) - агрессивная подача tableau на Dreamforce 2025 звучит особенно забавно. 15 лет назад всем продавали чудо селфсервиса, сейчас в таком же стиле - «явление Agentforce народу». Давит погоня конкурентов и инвесторы - в итоге сырой эксперимент с недоказанной ценностью выдают за новое поколение BI, в своем стиле заметая под ковер все подводные камни. И многие из нас тоже в этой гонке веры. Смесь интереса и страха отстать - пилим своих агентов или планируем. Понятно стало, что не нужно ждать отдачи в ближайшие годы. Это будет стоить компаниям кучу денег и никто не знает, где эта экономика сойдется. Это выбило большинство в роль наблюдателей - заниматься в своих компаниях спокойной (и тоже недешевой) подготовкой условий для AI агентов - внедрять семантические слои, слои метрик, голден/кор витрин и прочую годноту. Тестить более локальные юзкейсы ИИ чем дата-ассистент. Я попробовал обобщить, что такое Пререквизиты AI Дата Ассистента - предшествующие компоненты, без которых можно даже "не лезть". Получился такой документ с тремя скоупами: ① Подготовка ② MVP дата-агента ③ Продуктивная агентская среда Выглядит монструозно. По моей оценке: Подготовка - будет скромно стоить от 100 млн в год. С MVP уже уверенно от 150 млн руб в год. Но кажется ничего не притянуто. Дополните?

6 156

Делали с командой внутренний курс для BI в Авито - откапал свою типологию ролей в BI проектах 5-ти летней давности. Отряхнул и переписал из текущей точки, добавил логики. Короче - дополняйте какие роли или нюансы упущены. Ссылка на картинку Забавное открытие - вроде все уже сказано и открыто в профессии, но приходят в компанию новые поколения и говорить об каких-то вещах - есть смысл снова.