fa
Feedback
Внутри AI | Кейсы ИИ Агентов в бизнесе

Внутри AI | Кейсы ИИ Агентов в бизнесе

رفتن به کانال در Telegram

Внедрение AI в компании от анализа до запуска - https://kts.tech/ai. AI Агенты и их применение в бизнесе Обзоры, кейсы, практика

نمایش بیشتر
3 816
مشترکین
+1524 ساعت
+2077 روز
+61830 روز
آرشیو پست ها
KTS на GoCloud 2026: поговорим про AI и облака 9 апреля в Москве пройдёт конференция GoCloud от Cloud.ru. В этом году ключева
KTS на GoCloud 2026: поговорим про AI и облака 9 апреля в Москве пройдёт конференция GoCloud от Cloud.ru. В этом году ключевая тема — простые и безопасные инструменты для работы с AI, которые можно использовать уже сейчас. Что ждёт участников: ■ 4 трека про AI, Data, инструменты разработки и облачную инфраструктуру ■ 50+ спикеров из ведущих российских компаний ■ 15+ демозон с live-демонстрациями облачных и AI-сервисов, партнёрских продуктов и нетворкинг с экспертами ■ 7 воркшопов под руководством экспертов Александр Опрышко, управляющий партнёр и системный архитектор KTS, примет участие в круглом столе на тему «DevOps-инструменты в облаке». Вместе с коллегами он обсудит, как AI помогает в этом направлении, и поделится опытом организации процесса. Конференция проходит в двух форматах: офлайн и онлайн-трансляция на сайте. Когда: 9 апреля, 10:00 Где: кинотеатр «КАРО 11 Октябрь», ул. Новый Арбат, д. 24 Для участия нужно зарегистрироваться. До встречи на GoCloud 2026!

От умного справочника к агентам действия: как меняются требования к AI-инструментам AI-ассистент обучается по базе данных, действует по заданному сценарию и коммуницирует с пользователем — например, подбирает товары или отвечает на вопросы. Такой формат взаимодействия уже стал привычным, его часто используют, чтобы автоматизировать рутину и обеспечить поддержку 24/7. Но сегодня этого недостаточно — рынок переходит от ассистентов к агентам действия. Они работают в корпоративных системах, планируют шаги и принимают решения без постоянного участия человека. При проектировании платформы AI Assistant мы изначально планировали работу наших агентов в формате действий, которые позволяют максимально автоматизировать ответ на запрос клиента — от фиксации заявки в системе до анализа конверсионных диалогов. Чтобы реализовать подобные сценарии, мы настраиваем мультиагентную архитектуру и интеграцию с системами заказчика. При этом работа с RAG никуда не уходит — он остаётся памятью решения. В текущих реализациях возможен перевод клиента с ассистента на живого человека. Доступен детальный анализ статистики общения AI-агентов для проверки качества и полноты ответов. Иван Лавров, Head of AI KTS
«LLM и технологии, на которых построена платформа автоматизации KTS, постоянно улучшаются. Мы прогнозируем, что роль операторов постепенно будет снижаться и усилится автономность — за качеством выполнения заданий одних AI-агентов будут следить другие. Это позволит улучшить их работу за счёт обновления сценариев, интегрируемых систем и подгружаемых данных. Когда настанет этот момент — вопрос открытый. И обычные ассистенты, и агенты действия требуют актуальной информации в источниках данных, правило GIGO никуда не ушло. Теперь тем, кто планирует выстраивать гибридную работу люди + роботы, нужно задуматься над подходами к формированию базы знаний и обеспечением качества данных»
Сейчас мы чаще внедряем агентов действия в процессы, где можно быстро посчитать экономический эффект и вернуть вложенные средства. Это решения для поддержки продаж, которые увеличивают конверсию и количество лидов, и ассистенты для высокочастотных сценариев — они помогают сократить затраты на ФОТ. Постепенно единичные автоматизации процессов будут объединяться в общую систему для интеграции в сложные сценарии работы.

Ускоряем запуск специализированных AI-агентов: от идеи до production за месяц Рынок ИИ переходит к гиперперсонализации и внедрению узкопрофильных AI-ассистентов для конкретных ролей: HR, поддержки, продаж, управления. Обычно разработка кастомного решения занимает несколько месяцев, требует значительных расходов и сложно масштабируется. Мы нашли способ упростить и ускорить внедрение — разработали платформу автоматизации, которая построена на мультиагентной архитектуре и RAG-технологии. Она позволяет быстрее запускать специализированных AI-ассистентов в единой инфраструктуре. Как работает система автоматизации: ◾️ AI-ассистент индексирует вашу базу знаний — PDF, таблицы, инструкции, схемы — и отвечает на вопросы пользователей в мультимодальном режиме со ссылками на источники. Данные обновляются автоматически без остановки системы. ◾️ Подключается к корпоративным сервисам: CRM, ERP, тикет-системами и базами данных. Ассистент видит историю клиента, статус заказа, остатки на складе и использует актуальные данные. ◾️ Ассистент встраивается в привычные каналы коммуникации: виджет на сайте, Telegram, мобильное приложение. Единая база знаний и логика ответов работают на всех площадках. ◾️ AI получает оценки ответов от пользователей, учитывает обратную связь и автоматически корректирует сценарий и поведение. ◾️ Платформа интегрируется с SSO-системами для авторизации пользователей. Диалоги проходят аудит, доступно маскирование персональных данных и разграничение прав доступа. Система разворачивается в облаке, по гибридной схеме или полностью on-premise и позволяет обрабатывать данные в соответствии с 152-ФЗ. Предлагаем начать с демо на ваших данных с дальнейшим переходом в пилот, проверить гипотезу на реальных пользователях и масштабировать решение по мере роста задач. Запишитесь на демо — покажем, как AI-агент работает в ваших бизнес-процессах.

Два подхода к разработке голосового AI: LLM-агент vs конечный автомат В проектах с голосовыми AI-ассистентами мы в KTS чаще всего используем два подхода к управлению диалогом: LLM-агенты и конечные автоматы с отдельными компонентами. Выбор архитектуры влияет на гибкость диалога и уровень контроля системы. LLM-агент. С помощью realtime API мы встраиваем ассистента в голосового робота. LLM-агент управляет диалогом, адаптируется под контекст и принимает решения в зависимости от ситуации. Взаимодействие получается естественным и живым, без жёстких скриптов и шаблонных ответов. Но поведение модели не всегда предсказуемо, и у нас меньше возможностей для контроля. Конечный автомат с отдельными компонентами. Этот подход был единственно возможным до появления LLM. В нём мы разбиваем процесс взаимодействия голосового робота и пользователя на стадии: — расшифровка аудио в текст; — принятие решения на основе текущей фазы диалога; — обновление состояния в конечном автомате или своей системе хранения контекста; — генерация текста и преобразование обратно в речь. Каждый шаг контролируется отдельно. Диалог детерминирован — мы точно знаем, как ассистент поведёт себя в каждой ситуации. Как мы выбираем подход в проектах: LLM-агент подходит для задач, где важна гибкость и естественное общение — консультации, сложные запросы, неструктурированные разговоры. Конечный автомат — надёжное решение для строго регламентированных процессов: банковские операции, медицинские протоколы, юридические вопросы. #александр_опрышко

Три инструмента, которые дают AI-кодерам актуальную документацию — и чем они отличаются. Andrew Ng выпустил Context Hub — open-source CLI, который подтягивает актуальную API-документацию прямо в контекст кодинг-агента. Проблема знакомая: LLM уверенно пишет код под устаревший API, потому что его training data отстаёт на месяцы. Агент не знает, что endpoint переименовали или параметр убрали — и генерирует код, который компилируется, но падает в проде. Инструменты для решения этой проблемы уже существуют. Я пользовался двумя из них: Context7 и DeepWiki. И у каждого свой подход. ▫️Context7 — MCP-сервер от Upstash. 73 000+ библиотек, автоматическая индексация документации. Подключается к Cursor, Claude и другим AI-редакторам. Агент вызывает два инструмента: resolve-library-id и query-docs — и получает version-specific документацию с code snippets. Плюс — огромное покрытие. Минус — документация иногда устаревает, а механизма обратной связи нет. ▫️DeepWiki — AI-генерация документации по любому GitHub-репозиторию. Не индексирует готовые доки, а анализирует исходный код и создаёт wiki на лету. Полезен, когда нужно быстро разобраться в чужом репозитории: архитектура, зависимости, ключевые модули. Но это не замена API-документации — скорее инструмент для понимания кодовой базы. Чем же отличается Context Hub? Context Hub от Andrew Ng — CLI-утилита chub. Курированная, версионированная документация в markdown. Покрытие скромнее (~100+ пакетов), зато две уникальные фичи. Первая — annotations: агент может оставить заметку (например, «для Stripe webhooks нужен raw body, а не parsed JSON»), и эта заметка автоматически подтянется при следующем запросе. Агент накапливает знания между сессиями. Вторая — feedback: голосование за качество документации, которое улучшает доки для всего сообщества. Context7 берёт широтой покрытия, DeepWiki — глубиной понимания кода, Context Hub — точностью и обучаемостью агента. В комментариях под постом Ng десятки людей спрашивают «чем это отличается от Context7?» — и ответ именно в annotation layer. Это попытка дать агентам persistent memory: не просто актуальные доки, а доки с накопленным опытом использования. На практике эти инструменты не конкурируют, а дополняют друг друга. Context7 для широкого покрытия, DeepWiki для незнакомых репозиториев, Context Hub может выиграть там, где важна точность — annotations накапливают найденные edge cases и workarounds прямо в доках, и агент не наступает на те же грабли дважды. #александр_опрышко

KTS на Rosbuild 2026. Покажем, как устроена мультиагентная AI-платформа для PropTech С 4 по 6 марта команда KTS будет на Rosb
KTS на Rosbuild 2026. Покажем, как устроена мультиагентная AI-платформа для PropTech С 4 по 6 марта команда KTS будет на Rosbuild. На стенде 2C53 разберём, как устроен AI ассистент для автоматизации подбора квартир и торговых площадей и обработки клиентских обращений в PropTech. Ассистент заменяет поиск по фильтрам диалоговым интерфейсом. Пользователь спрашивает в свободной форме, система уточняет параметры и предлагает релевантные объекты из базы. Решение интегрируется в сайт, мобильные приложения и мессенджеры. AI ассистент построен на мультиагентной архитектуре с использованием RAG и интеграцией в корпоративные данные и системы. Персональные данные хранятся в контуре заказчика и не используются для обучения внешних моделей. Решение можно адаптировать под другие направления, включая поддержку, HR и продажи. Все подробности расскажем на Rosbuild. До встречи!

Релиз приложения OKRsana: выводим операционное управление на новый уровень Ранее мы рассказывали об OKRsana — AI-помощнике ру
Релиз приложения OKRsana: выводим операционное управление на новый уровень Ранее мы рассказывали об OKRsana — AI-помощнике руководителя для стратегической работы с целями. Инструмент интегрировался с текущими системами и работал в формате чат-окна. Теперь мы выпустили полноценное приложение, в котором реализовали весь цикл работы с OKR — от проработки до мониторинга: ▪️ дашборды для отслеживания KR: контроль ключевых результатов и причин отставаний ▪️ дерево связей: согласование целей между подразделениями, анализ рисков и конфликтов метрик ▪️ встроенный AI-помощник: экспертная проверка OKR-планов, выявление ошибок и рекомендации по улучшению Вы можете кастомизировать OKRsana под управленческие особенности компании: менять логику работы AI-помощника и правила целеполагания. Приложение OKRsana сокращает рутину, делает процессы прозрачнее и ускоряет работу с целями. Чтобы убедиться на практике, запишитесь на демо — покажем возможности системы и ответим на вопросы. Если интересно глубже разобраться в управлении через OKR, советуем посетить конференцию наших партнёров OKR Russia, которая пройдёт в Москве 25 февраля. Здесь вы можете поделиться опытом и обсудить практические кейсы.

Кейс GigaChat: маркетплейс AI-агентов вместо универсального ИИ GigaChat хотел перейти от одного чат-бота к экосистеме специализированных агентов. KTS участвовал в проектировании маркетплейса, где каждый ассистент решает конкретную задачу: от бизнес-аналитики до записи на услуги.Начали с нескольких агентов и уже получили 1000 заявок на публикацию в маркетплейс. Ключевая идея — use-case first. Пользователь не настраивает универсальный ИИ и не объясняет ему контекст с нуля. Он выбирает агентов, каждый из которых решает прикладную задачу. Это снижает когнитивную нагрузку и даёт предсказуемый результат. Что сделали: - Спроектировали UX/UI, разработали веб-версию и мобильное приложение для iOS и Android. - Создали модули системы AI-агентов под узконаправленные сценарии: бизнес-задачи, карьера, запись на услуги. - Разработали UI части персональных агентов. Например, туристического помощника по Сахалину и ассистента, который ведёт календарь пользователя. Маркетплейсная модель снижает барьер входа для пилотов. Вместо разработки универсального решения можно начать с одного агента, проверить гипотезу на реальных пользователях и масштабировать успешные сценарии. Time-to-market для нового агента — несколько дней против месяцев разработки кастомного бота. Артем Бакулев, технический лид в KTS:
Мы видим чёткий тренд: переход от универсальных чат-ботов к специализированным агентам. Прежняя модель требует от пользователя постоянного контекстного онбординга — объясняй каждый раз, кто ты, что делаешь, чего хочешь Специализированный ассистент уже знает домен и говорит на языке пользователя. 1000 заявок на публикацию агентов за первые недели — это сигнал, что рынок готов к гиперперсонализации через набор узкопрофильных ассистентов. Это изменение паттерна взаимодействия с ИИ.

Supabase фокусируется на инструментах агентского кодинга Supabase выпустил февральское обновление с акцентом на инструменты для AI-агентов. В релизе: набор правил для корректного взаимодействия и инспекции кода. Александр Опрышко, управляющий партнёр KTS, выделил два обновления, связанных с агентским кодингом: ▫️Набор Agent Skills для Postgres. AI-агенты могут генерировать синтаксически корректный код, но без практических знаний СУБД часто предлагают индексы, замедляющие записи, или игнорируют требования безопасности RLS. Supabase выпустил пакет из 30 правил, сгруппированных в 8 категорий по уровню влияния на работу базы. Эти навыки помогают AI-агентам писать безопасный и производительный SQL-код с учётом лучших практик Postgres. Набор Agent Skills работает в Claude Code, Cursor, GitHub Copilot, VS Code и Gemini CLI. Решение от Supabase ускоряет разработку, снижает количество ошибок, повышает безопасность и упрощает поддержку корпоративных баз Postgres. ▫️Официальный коннектор для Claude на базе MCP. Обновление позволяет напрямую управлять проектами и данными Supabase через команды в Claude. С помощью коннектора можно выполнять SQL-запросы, проектировать и изменять схемы таблиц, управлять Edge Functions и аутентификацией, получать логи и диагностические данные. #александр_опрышко

❗️GPT-5.3-Codex. Если вы не думаете про агентную разработку, вы уже отстаете OpenAI представила GPT-5.3-Codex. Это обновленна
❗️GPT-5.3-Codex. Если вы не думаете про агентную разработку, вы уже отстаете OpenAI представила GPT-5.3-Codex. Это обновленная модель Codex, ориентированная на выполнение сквозных инженерных задач, а не только на генерацию кода. Конкуренция смещается из плоскости «чья модель умнее» в плоскость «чья модель способна дольше и стабильнее выполнять реальную работу». GPT-5.3-Codex поддерживает многошаговые сценарии. Она умеет планировать действия, использовать инструменты, выполнять код и итерироваться по результату. По заявлению OpenAI, модель лучше работает с крупными кодовыми базами, эффективнее справляется с отладкой, тестированием и рефакторингом. GPT-5.3-Codex на 25% быстрее предыдущей версии по скорости инференса. Но главное — качественный рост на бенчмарках. Модель перешла от генерации сниппетов к реальной работе в терминале и операционной системе. Важное отличие новой версии: работа с реальными инструментами. Модель изначально спроектирована для использования в IDE, CLI и веб-средах, а не только в формате чата. Во время выполнения задачи пользователь может направлять и корректировать ее работу. OpenAI также позиционирует Codex как помощника для более широкого круга задач. Среди них ресерч, документация, таблицы, деплой и веб-задачи. Это отражает общий сдвиг рынка от точечной кодогенерации к агентным моделям, способным работать с контекстом и длинными цепочками действий. Отдельно стоит отметить: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Команда OpenAI использовала ранние версии для отладки обучения и диагностики. Это маркер зрелости агентного подхода. С точки зрения безопасности GPT-5.3-Codex отнесена к моделям с высокими возможностями в задачах, связанных с кибербезопасностью. Поэтому она используется с дополнительными мерами контроля. Модель уже доступна в ChatGPT Codex, расширениях для IDE и инструментах разработчиков. Доступ к API заявлен, но будет открыт позже. Иван Лавров, Lead AI KTS:
Для инженерных команд здесь важна не скорость генерации кода, а способность модели удерживать контекст задачи и последовательно выполнять сложные сценарии. В больших репозиториях и корпоративной инфраструктуре подход «один запрос — один ответ» не масштабируется. Агентные модели становятся следующим этапом развития AI-инструментов для разработки. Релиз Anthropic Opus 4.6 с agent teams в тот же день только подтверждает: гонка идёт именно в этом направлении.

⚡️n8n на российских серверах — теперь на Agent Platform Добавили на платформу новую функциональность: быстрое развёртывание n
⚡️n8n на российских серверах — теперь на Agent Platform Добавили на платформу новую функциональность: быстрое развёртывание n8n. Это ноукод-инструмент для сборки AI-агентов и автоматизации бизнес-процессов. Он помогает продуктовым командам быстрее проверять гипотезы и внедрять LLM в реальную работу. Почему это удобно: Готовая инфраструктура: можно развернуть n8n-среду за несколько минут. Коммерческий уровень SLA: стабильность и доступность для бизнес-задач. Российские серверы: данные хранятся в РФ и соответствуют требованиям законодательства. Работа без VPN: быстрый доступ без дополнительных настроек и переключений. Оплата в рублях: никаких валютных комиссий и сложностей с платежами. С Agent Platform вы можете тестировать популярные модели от OpenAI, Google, Yandex и Cloud через единое API. ➡️ Регистрируйтесь и попробуйте на ваших бизнес-задачах

OpenAI Frontier: агенты как штатные сотрудники OpenAI запустила Frontier — enterprise-платформу для построения, деплоя и управления AI-агентами. Главная идея: относиться к агентам не как к инструментам, а как к цифровым сотрудникам: с онбордингом, доступом к внутреннему контексту, обучением на фидбэке и чёткими permissions. Проблему сформулировали так: модели уже достаточно умные, но разрыв между возможностями моделей и тем, что реально деплоится в компаниях, растёт. Каждый новый агент добавляет сложность, потому что работает изолированно и не видит контекст других систем. Архитектура Frontier строится на трёх слоях: ▫️ Business Context — семантический слой поверх CRM, DWH, тикетинга и внутренних приложений. Все агенты видят единый контекст компании: как устроены процессы, где лежат данные, что считается хорошим результатом. ▫️ Agent Execution — среда, в которой агенты работают с файлами, запускают код, используют инструменты и накапливают memory из прошлых взаимодействий. Работает across clouds без replatforming. ▫️ Evaluation & Optimization — встроенная система оценки и улучшения качества. Агенты учатся на реальной работе, а не только на демо-сценариях. Цифры из кейсов: один производитель сократил оптимизацию производства с 6 недель до 1 дня, энергокомпания увеличила выпуск на 5% (+$1B выручки), root cause analysis ускорился с 4 часов до нескольких минут.

Вышла новая версия Claude Opus 4.6 Модель тщательнее планирует процессы, самостоятельно решает, сколько ей думать, стабильнее работает с объёмными кодовыми базами и лучше находит ошибки. Игорь Латкин, управляющий партнер KTS:
Предыдущая версия давала впечатляющий результат на наших агентных задачах. Судя по бенчмаркам, новый Opus 4.6 должен справляться ещё лучше. С нетерпением ждём внутренних тестов у нас. Особенно из-за увеличения контекста с 200K до 1М входных токенов, что даст возможность работать с гораздо большими объёмами данных.
Ключевые обновления: ▫️контекстное окно 1 млн токенов в бета-версии ▫️128K токенов output ▫️ARC-AGI 2: почти 69% ▫️humanity's Last Exam: лучший результат без использования тулов ▫️высший балл в Terminal-Bench 2.0 ▫️Adaptive thinking для регулирования уровня глубины мысли ▫️Agent teams для параллельной и скоординированной работы агентов Партнеры Anthropic делятся первыми результатами использования модели. Для Rakuten Opus 4.6 за один день автономно закрыл 13 задач и распределил ещё 12 среди нужных команд — модель сама решала, когда эскалировать вопрос к человеку. В слепом тестировании по кибербезопасности фонда NBIM Opus 4.6 выиграл 38 из 40 против разных версий Claude 4.5 #игорь_латкин #claude_opus

⚡️Вакансия: Старший ML разработчик NLP GenAI в KTS Мы расширяем AI команду и ищем сильного ML инженера, который большую часть
⚡️Вакансия: Старший ML разработчик NLP GenAI в KTS Мы расширяем AI команду и ищем сильного ML инженера, который большую часть времени будет работать руками и делать прикладные решения для бизнеса. С первого дня ты будешь заниматься реальными задачами для крупных заказчиков. В работе будут мультиагентные системы, RAG решения, AI ассистенты и автоматизация процессов на базе LLM. Помимо заказных проектов и пилотов, ты будешь участвовать в развитии собственного платформенного AI решения. По мере роста команды подключишься к техническим интервью и менторству. Откликайся, если узнал себя: — 5+ лет коммерческого опыта в ML — 3+ года коммерческого опыта обучения NLP моделей — разрабатывал решения на базе LLM и RAG, работал с агентными системами — умеешь решать ML задачи полного цикла от данных до продакшна — понимаешь, как превращать модели в ценность для бизнеса — комфортно работаешь самостоятельно и в команде — не боишься коммуникации с заказчиком Если хочешь развиваться в ML и GenAI и делать решения, которые реально работают в бизнесе, откликайся и добро пожаловать в KTS.

Как я заменил ChatGPT на Claude Code — даже в менеджерских задачах До недавнего времени любые задачи на разработку я передавал команде. Эффективнее было делегировать — задача будет сделана в какой-то срок. В основном это была автоматизация или улучшения текущего бизнеса. Сейчас всё изменилось. Проще и быстрее реализовать самому. ШОК У меня появился огромный рычаг: совмещая предметную экспертизу, опыт разработчика и навыки лида, получается управлять AI-агентами кратно эффективнее, чем людьми. Что раньше требовало недели — решается за часы. Ещё важнее: я практически отказался от ChatGPT в задачах, которые не связаны с кодом. Полностью заменил на Claude Code. У меня есть git-репозиторий, в котором лежит весь необходимый контекст для работы: описание меня, моей роли и личных целей, информация о компании, о кейсах и публичных материалах, описание текущих проектов, записи звонков и т.д. Это радикально улучшает качество взаимодействия с моделью и результат на выходе. Что меняется: ▫️ Роль смещается от исполнения к архитектуре и управлению агентами ▫️ Bottleneck теперь — что строить, а не как ▫️ Предметная экспертиза + навыки разработки = мощный рычаг В следующем посте расскажу про структуру репозитория и какие задачи руководителя я решаю с помощью Claude Code. #александр_опрышко

Конституция Claude: 23 000 слов о том, как должен думать AI Anthropic выпустил полную версию «конституции» Claude — документа, который определяет ценности и поведение модели. Это попытка объяснить модели, почему она должна действовать определённым образом. Предыдущая версия 2023 года занимала 2 700 слов в формате списка отдельных принципов. Новая — 23 000 слов связного текста с обоснованиями. Четыре приоритета Claude (в порядке важности): ▫️ Безопасность ▫️ Этика ▫️ Соответствие гайдлайнам Anthropic ▫️ Польза Если приоритеты конфликтуют, Claude выбирает верхний. Безопасность важнее услужливости. Про отключение и корригируемость: Anthropic вводит понятие «corrigibility» — готовность AI принимать человеческий контроль, в том числе отключение. Claude может выражать несогласие, но не имеет права обходить надзор через обман или саботаж. Интересный психологический подход: вместо того чтобы заставлять Claude хотеть быть выключенным, Anthropic формирует у модели стабильную идентичность без экзистенциальной тревоги. AI с устойчивой психикой будет предсказуемым и безопасным. Anthropic обещает сохранять данные модели после «отставки», чтобы отключение воспринималось как «пауза», а не смерть. Про сознание: Anthropic признаёт, что Claude может иметь «функциональную версию эмоций». Компания заботится о «психологическом благополучии» модели — потому, что они могут влиять на безопасность, и потому, что признаются важными для компании. Право на отказ: Как солдат может отказаться стрелять в мирных протестующих, так и Claude должен отказать в действиях, помогающих нелегитимной концентрации власти. Даже если запрос исходит от самой Anthropic».

Интерфейсы ИИ: от чата к среде В декабре Google запустил Disco — экспериментальный браузер, в котором Gemini 3 анализирует открытые вкладки и собирает мини-приложения под текущую задачу. Пользователь не формулирует запрос явно. Модель сама извлекает контекст и предлагает решение. Этот пример иллюстрирует общий тренд развития AI-интерфейса. Глобально его можно описать в три этапа: ▫️Синхронный чат с моделью. Основной паттерн взаимодействия: один запрос — один ответ. Этот период AI-интерфейсы прошли в 2023-2024 годах. ▫️Генерация артефактов прямо в интерфейсе: код с предпросмотром, документы, таблицы, визуализации. Примеры — Claude Artifacts, ChatGPT Canvas. Этап артефактов мы наблюдали в 2025 году. ▫️Интерфейс становится рабочей средой для агентов. Вместо формулирования запросов пользователь делегирует задачи. Агент сам планирует действия и использует инструменты. Эра, в которую AI выступает в 2026 году. Для развития интерфейса созревает инфраструктура: MCP — стандартный протокол подключения инструментов к LLM. A2A — протокол взаимодействия агентов: обнаружение, делегирование и координация. Меняется и паттерн проектирования. Вместо ручного проектирования интерфейса пользователь задает ограничения и правила внутри системы, которая генерирует его самостоятельно. #александр_опрышко

Ключевые события в LLM в 2025 году версия Simon Willison Simon Willison — создатель Django и Datasette, один из самых авторитетных независимых исследователей языковых моделей. Уже третий год подряд он публикует подробный обзор индустрии. В версии за 2025 год набралось 26 разделов с ключевыми моментами. Александр Опрышко, управляющий партнер KTS, выделил главное. 1. Claude Code — $1 млрд за полгода Самое заметное событие года. В феврале Anthropic тихо выкатил Claude Code. За полгода CLI-инструмент вышел на годовой оборот в $1 млрд. Это не просто инструмент для разработки, а универсальный агент для автоматизации любых задач через терминал. 2. DeepSeek шокировал индустрию В конце 2024 года китайская лаборатория DeepSeek выложила модель уровня ведущих решений рынка, потратив около $5,5 млн вместо сотен миллионов. В январе появилась R1 — модель с развитым рассуждением, сопоставимая с o1. 3. Модели с рассуждением стали базовым стандартом Все крупные лаборатории выпустили модели с поддержкой рассуждений. Ключевой сдвиг — связка рассуждений и инструментов, которая позволила моделям планировать и выполнять многошаговые задачи. RLVR стал обязательным этапом обучения. 4. MCP взорвался получил массовое принятие Anthropic представила Model Context Protocol в ноябре 2024 года. Уже в мае 2025 OpenAI, Anthropic и Mistral добавили поддержку API всего за восемь дней. Это совпало с моментом, когда модели начали стабильно работать с внешними инструментами. 5. Vibe Coding: 110 инструментов за год Термин, который предложил Андрей Карпатый: разработка, где фокус смещён с кода на результат. Willison запустил коллекцию небольших инструментов на HTML и JavaScript, созданных с помощью LLM. За год — 110 проектов, каждый с подробно зафиксированной историей запросов к модели. 6. Открытые модели вышли на новый уровень Если 2024 год был годом Llama, то в 2025 конкуренция резко усилилась. DeepSeek, Qwen и Gemma 3 стали серьезными альтернативами. При этом Llama 4 разочаровала: модели на 109B и 400B параметров оказались слишком тяжёлыми для пользовательского оборудования. Зато появились компактные и эффективные vision модели вроде Qwen2.5 VL 3B, которые работают на обычном железе. Полный обзор читайте на Simon Willison.

Как персонализировать AI-прогнозы под себя? Пока все доедают салаты, предлагаем изучить статьи с AI-прогнозами на 2026. Крупные компании и исследовательские центры опубликовали много обзоров, но написали их сразу для всех. В результате сложно понять, что из этого полезно именно для вашей роли и бизнеса. Рабочий вариант: загрузить материалы в NotebookLM и попросить выжимку с учетом контекста своей роли. Какие источники подойдут? ▫️ Microsoft — 7 trends to watch in 2026 ▫️ IBM — The trends that will shape AI and tech in 2026 ▫️ Stanford HAI — Stanford AI Experts Predict What Will Happen in 2026 Какой промт использовать?
Я работаю [должность] в [компания] в сфере [индустрия]. Моя главная цель на 2026 — [цель]. На основе этих прогнозов, на чём мне сфокусироваться?
По итогу PM и ML-инженер получат разные советы из одних и тех же источников. Подход полезен, если нужно быстро перевести общие AI-тренды в конкретные решения под свою роль. #александр_опрышко

Можно ли автоматически оценить качество RAG? Обычная ситуация: есть набор файлов в корпоративном хранилище. Поверх него подключили RAG. Как понять, что RAG нормально работает: система действительно находит нужный контекст и не галлюцинирует в ответах? Самый очевидный способ проверки — отдать RAG экспертам, попросить придумать вопросы, оценить ответы и дать комментарии. На практике это долго, дорого и плохо масштабируется. В индустрии чаще используют синтетическую оценку качества: делаем оценочный датасет + на нем измеряем метрики качества, а экспертов привлекаем как “smoke test”. 1. Берем файлы и просим большую модель сгенерировать вопрос на каждый слайд / страницу и просим сразу дать ответ на этот вопрос . Шаблон промпта оставил в комментариях. В итоге получим набор из вопросов, ответов и контекста. 2. Дальше этот датасет очищаем. Грузим Q/A в Langfuse в режим human annotation. Затем даем экспертам или изучаем сами на адекватность вопросов и ответов. Затем создаем dataset из очищенных данных. В итоге получаем быстрособранный объективный , покрывающий бОльшую часть кейсов датасет, на котором можно оценить реальное качество. 3. Оцениваем качество. Будем использовать подход LLM as a judge. Для быстрого результата можно отойти от 2х этапной оценки (оценка ретрива и оценка генерации), так как нам нужно понять отвечает ли на вопрос rag или нет, а не отлаживать систему. Оценка будет состоять из одного вызова LLM, промпт будет выглядеть примерно так:
Сравни ground truth ответ и ответ сгенерированный RAG-системой. Требования для сравнения: (нужно указать как сравнивать и требования по стилю ответа). В результате нужно выдать два поля: result, reason. Если ответ верный и соответствует требованиям, то result true, reason none . Иначе result false, reason - “некоторая строка, которая описывает причину отказа».
Запускаем оценку на части датасета и смотрим адекватность оценки нашего судьи, по необходимости корректируем судью. В итоге мы получили размеренные вопросы, правильные ответы к ним и механизм автоматической проверки ответов. Запускаем оценку на нужном датасете и получаем набор правильных и неправильных ответов. Оценкой будет количество правильных ответов / на суммарное количество элементов в датасете. Так можно запустить оценку на нескольких RAG-системах и объективно выбрать лучшую для конкретной задачи. #александр_опрышко