Внутри AI | Кейсы ИИ Агентов в бизнесе
رفتن به کانال در Telegram
Внедрение AI в компании от анализа до запуска - https://kts.tech/ai. AI Агенты и их применение в бизнесе Обзоры, кейсы, практика
نمایش بیشتر3 816
مشترکین
+1524 ساعت
+2077 روز
+61830 روز
آرشیو پست ها
KTS на GoCloud 2026: поговорим про AI и облака
9 апреля в Москве пройдёт конференция GoCloud от Cloud.ru. В этом году ключевая тема — простые и безопасные инструменты для работы с AI, которые можно использовать уже сейчас.
Что ждёт участников:
■ 4 трека про AI, Data, инструменты разработки и облачную
инфраструктуру
■ 50+ спикеров из ведущих российских компаний
■ 15+ демозон с live-демонстрациями облачных и AI-сервисов, партнёрских продуктов и нетворкинг с экспертами
■ 7 воркшопов под руководством экспертов
Александр Опрышко, управляющий партнёр и системный архитектор KTS, примет участие в круглом столе на тему «DevOps-инструменты в облаке». Вместе с коллегами он обсудит, как AI помогает в этом направлении, и поделится опытом организации процесса.
Конференция проходит в двух форматах: офлайн и онлайн-трансляция на сайте.
Когда: 9 апреля, 10:00
Где: кинотеатр «КАРО 11 Октябрь», ул. Новый Арбат, д. 24
Для участия нужно зарегистрироваться. До встречи на GoCloud 2026!
От умного справочника к агентам действия: как меняются требования к AI-инструментам
AI-ассистент обучается по базе данных, действует по заданному сценарию и коммуницирует с пользователем — например, подбирает товары или отвечает на вопросы. Такой формат взаимодействия уже стал привычным, его часто используют, чтобы автоматизировать рутину и обеспечить поддержку 24/7.
Но сегодня этого недостаточно — рынок переходит от ассистентов к агентам действия. Они работают в корпоративных системах, планируют шаги и принимают решения без постоянного участия человека.
При проектировании платформы AI Assistant мы изначально планировали работу наших агентов в формате действий, которые позволяют максимально автоматизировать ответ на запрос клиента — от фиксации заявки в системе до анализа конверсионных диалогов.
Чтобы реализовать подобные сценарии, мы настраиваем мультиагентную архитектуру и интеграцию с системами заказчика. При этом работа с RAG никуда не уходит — он остаётся памятью решения.
В текущих реализациях возможен перевод клиента с ассистента на живого человека. Доступен детальный анализ статистики общения AI-агентов для проверки качества и полноты ответов.
Иван Лавров, Head of AI KTS
«LLM и технологии, на которых построена платформа автоматизации KTS, постоянно улучшаются. Мы прогнозируем, что роль операторов постепенно будет снижаться и усилится автономность — за качеством выполнения заданий одних AI-агентов будут следить другие. Это позволит улучшить их работу за счёт обновления сценариев, интегрируемых систем и подгружаемых данных. Когда настанет этот момент — вопрос открытый. И обычные ассистенты, и агенты действия требуют актуальной информации в источниках данных, правило GIGO никуда не ушло. Теперь тем, кто планирует выстраивать гибридную работу люди + роботы, нужно задуматься над подходами к формированию базы знаний и обеспечением качества данных»Сейчас мы чаще внедряем агентов действия в процессы, где можно быстро посчитать экономический эффект и вернуть вложенные средства. Это решения для поддержки продаж, которые увеличивают конверсию и количество лидов, и ассистенты для высокочастотных сценариев — они помогают сократить затраты на ФОТ. Постепенно единичные автоматизации процессов будут объединяться в общую систему для интеграции в сложные сценарии работы.
Ускоряем запуск специализированных AI-агентов: от идеи до production за месяц
Рынок ИИ переходит к гиперперсонализации и внедрению узкопрофильных AI-ассистентов для конкретных ролей: HR, поддержки, продаж, управления. Обычно разработка кастомного решения занимает несколько месяцев, требует значительных расходов и сложно масштабируется.
Мы нашли способ упростить и ускорить внедрение — разработали платформу автоматизации, которая построена на мультиагентной архитектуре и RAG-технологии. Она позволяет быстрее запускать специализированных AI-ассистентов в единой инфраструктуре.
Как работает система автоматизации:
◾️ AI-ассистент индексирует вашу базу знаний — PDF, таблицы, инструкции, схемы — и отвечает на вопросы пользователей в мультимодальном режиме со ссылками на источники. Данные обновляются автоматически без остановки системы.
◾️ Подключается к корпоративным сервисам: CRM, ERP, тикет-системами и базами данных. Ассистент видит историю клиента, статус заказа, остатки на складе и использует актуальные данные.
◾️ Ассистент встраивается в привычные каналы коммуникации: виджет на сайте, Telegram, мобильное приложение. Единая база знаний и логика ответов работают на всех площадках.
◾️ AI получает оценки ответов от пользователей, учитывает обратную связь и автоматически корректирует сценарий и поведение.
◾️ Платформа интегрируется с SSO-системами для авторизации пользователей. Диалоги проходят аудит, доступно маскирование персональных данных и разграничение прав доступа.
Система разворачивается в облаке, по гибридной схеме или полностью on-premise и позволяет обрабатывать данные в соответствии с 152-ФЗ.
Предлагаем начать с демо на ваших данных с дальнейшим переходом в пилот, проверить гипотезу на реальных пользователях и масштабировать решение по мере роста задач.
Запишитесь на демо — покажем, как AI-агент работает в ваших бизнес-процессах.
Два подхода к разработке голосового AI: LLM-агент vs конечный автомат
В проектах с голосовыми AI-ассистентами мы в KTS чаще всего используем два подхода к управлению диалогом: LLM-агенты и конечные автоматы с отдельными компонентами. Выбор архитектуры влияет на гибкость диалога и уровень контроля системы.
LLM-агент.
С помощью realtime API мы встраиваем ассистента в голосового робота. LLM-агент управляет диалогом, адаптируется под контекст и принимает решения в зависимости от ситуации. Взаимодействие получается естественным и живым, без жёстких скриптов и шаблонных ответов. Но поведение модели не всегда предсказуемо, и у нас меньше возможностей для контроля.
Конечный автомат с отдельными компонентами.
Этот подход был единственно возможным до появления LLM. В нём мы разбиваем процесс взаимодействия голосового робота и пользователя на стадии:
— расшифровка аудио в текст;
— принятие решения на основе текущей фазы диалога;
— обновление состояния в конечном автомате или своей системе хранения контекста;
— генерация текста и преобразование обратно в речь.
Каждый шаг контролируется отдельно. Диалог детерминирован — мы точно знаем, как ассистент поведёт себя в каждой ситуации.
Как мы выбираем подход в проектах:
LLM-агент подходит для задач, где важна гибкость и естественное общение — консультации, сложные запросы, неструктурированные разговоры.
Конечный автомат — надёжное решение для строго регламентированных процессов: банковские операции, медицинские протоколы, юридические вопросы.
#александр_опрышко
Три инструмента, которые дают AI-кодерам актуальную документацию — и чем они отличаются.
Andrew Ng выпустил Context Hub — open-source CLI, который подтягивает актуальную API-документацию прямо в контекст кодинг-агента. Проблема знакомая: LLM уверенно пишет код под устаревший API, потому что его training data отстаёт на месяцы. Агент не знает, что endpoint переименовали или параметр убрали — и генерирует код, который компилируется, но падает в проде.
Инструменты для решения этой проблемы уже существуют. Я пользовался двумя из них: Context7 и DeepWiki. И у каждого свой подход.
▫️Context7 — MCP-сервер от Upstash. 73 000+ библиотек, автоматическая индексация документации. Подключается к Cursor, Claude и другим AI-редакторам. Агент вызывает два инструмента: resolve-library-id и query-docs — и получает version-specific документацию с code snippets. Плюс — огромное покрытие. Минус — документация иногда устаревает, а механизма обратной связи нет.
▫️DeepWiki — AI-генерация документации по любому GitHub-репозиторию. Не индексирует готовые доки, а анализирует исходный код и создаёт wiki на лету. Полезен, когда нужно быстро разобраться в чужом репозитории: архитектура, зависимости, ключевые модули. Но это не замена API-документации — скорее инструмент для понимания кодовой базы.
Чем же отличается Context Hub?
Context Hub от Andrew Ng — CLI-утилита
chub. Курированная, версионированная документация в markdown. Покрытие скромнее (~100+ пакетов), зато две уникальные фичи. Первая — annotations: агент может оставить заметку (например, «для Stripe webhooks нужен raw body, а не parsed JSON»), и эта заметка автоматически подтянется при следующем запросе. Агент накапливает знания между сессиями. Вторая — feedback: голосование за качество документации, которое улучшает доки для всего сообщества.
Context7 берёт широтой покрытия, DeepWiki — глубиной понимания кода, Context Hub — точностью и обучаемостью агента. В комментариях под постом Ng десятки людей спрашивают «чем это отличается от Context7?» — и ответ именно в annotation layer. Это попытка дать агентам persistent memory: не просто актуальные доки, а доки с накопленным опытом использования.
На практике эти инструменты не конкурируют, а дополняют друг друга. Context7 для широкого покрытия, DeepWiki для незнакомых репозиториев, Context Hub может выиграть там, где важна точность — annotations накапливают найденные edge cases и workarounds прямо в доках, и агент не наступает на те же грабли дважды.
#александр_опрышкоKTS на Rosbuild 2026. Покажем, как устроена мультиагентная AI-платформа для PropTech
С 4 по 6 марта команда KTS будет на Rosbuild. На стенде 2C53 разберём, как устроен AI ассистент для автоматизации подбора квартир и торговых площадей и обработки клиентских обращений в PropTech.
Ассистент заменяет поиск по фильтрам диалоговым интерфейсом. Пользователь спрашивает в свободной форме, система уточняет параметры и предлагает релевантные объекты из базы. Решение интегрируется в сайт, мобильные приложения и мессенджеры.
AI ассистент построен на мультиагентной архитектуре с использованием RAG и интеграцией в корпоративные данные и системы. Персональные данные хранятся в контуре заказчика и не используются для обучения внешних моделей. Решение можно адаптировать под другие направления, включая поддержку, HR и продажи.
Все подробности расскажем на Rosbuild. До встречи!
Релиз приложения OKRsana: выводим операционное управление на новый уровень
Ранее мы рассказывали об OKRsana — AI-помощнике руководителя для стратегической работы с целями. Инструмент интегрировался с текущими системами и работал в формате чат-окна.
Теперь мы выпустили полноценное приложение, в котором реализовали весь цикл работы с OKR — от проработки до мониторинга:
▪️ дашборды для отслеживания KR: контроль ключевых результатов и причин отставаний
▪️ дерево связей: согласование целей между подразделениями, анализ рисков и конфликтов метрик
▪️ встроенный AI-помощник: экспертная проверка OKR-планов, выявление ошибок и рекомендации по улучшению
Вы можете кастомизировать OKRsana под управленческие особенности компании: менять логику работы AI-помощника и правила целеполагания.
Приложение OKRsana сокращает рутину, делает процессы прозрачнее и ускоряет работу с целями. Чтобы убедиться на практике, запишитесь на демо — покажем возможности системы и ответим на вопросы.
Если интересно глубже разобраться в управлении через OKR, советуем посетить конференцию наших партнёров OKR Russia, которая пройдёт в Москве 25 февраля. Здесь вы можете поделиться опытом и обсудить практические кейсы.
Кейс GigaChat: маркетплейс AI-агентов вместо универсального ИИ
GigaChat хотел перейти от одного чат-бота к экосистеме специализированных агентов. KTS участвовал в проектировании маркетплейса, где каждый ассистент решает конкретную задачу: от бизнес-аналитики до записи на услуги.Начали с нескольких агентов и уже получили 1000 заявок на публикацию в маркетплейс.
Ключевая идея — use-case first. Пользователь не настраивает универсальный ИИ и не объясняет ему контекст с нуля. Он выбирает агентов, каждый из которых решает прикладную задачу. Это снижает когнитивную нагрузку и даёт предсказуемый результат.
Что сделали:
- Спроектировали UX/UI, разработали веб-версию и мобильное приложение для iOS и Android.
- Создали модули системы AI-агентов под узконаправленные сценарии: бизнес-задачи, карьера, запись на услуги.
- Разработали UI части персональных агентов. Например, туристического помощника по Сахалину и ассистента, который ведёт календарь пользователя.
Маркетплейсная модель снижает барьер входа для пилотов. Вместо разработки универсального решения можно начать с одного агента, проверить гипотезу на реальных пользователях и масштабировать успешные сценарии. Time-to-market для нового агента — несколько дней против месяцев разработки кастомного бота.
Артем Бакулев, технический лид в KTS:
Мы видим чёткий тренд: переход от универсальных чат-ботов к специализированным агентам. Прежняя модель требует от пользователя постоянного контекстного онбординга — объясняй каждый раз, кто ты, что делаешь, чего хочешь Специализированный ассистент уже знает домен и говорит на языке пользователя. 1000 заявок на публикацию агентов за первые недели — это сигнал, что рынок готов к гиперперсонализации через набор узкопрофильных ассистентов. Это изменение паттерна взаимодействия с ИИ.
Supabase фокусируется на инструментах агентского кодинга
Supabase выпустил февральское обновление с акцентом на инструменты для AI-агентов. В релизе: набор правил для корректного взаимодействия и инспекции кода.
Александр Опрышко, управляющий партнёр KTS, выделил два обновления, связанных с агентским кодингом:
▫️Набор Agent Skills для Postgres.
AI-агенты могут генерировать синтаксически корректный код, но без практических знаний СУБД часто предлагают индексы, замедляющие записи, или игнорируют требования безопасности RLS.
Supabase выпустил пакет из 30 правил, сгруппированных в 8 категорий по уровню влияния на работу базы. Эти навыки помогают AI-агентам писать безопасный и производительный SQL-код с учётом лучших практик Postgres.
Набор Agent Skills работает в Claude Code, Cursor, GitHub Copilot, VS Code и Gemini CLI. Решение от Supabase ускоряет разработку, снижает количество ошибок, повышает безопасность и упрощает поддержку корпоративных баз Postgres.
▫️Официальный коннектор для Claude на базе MCP.
Обновление позволяет напрямую управлять проектами и данными Supabase через команды в Claude. С помощью коннектора можно выполнять SQL-запросы, проектировать и изменять схемы таблиц, управлять Edge Functions и аутентификацией, получать логи и диагностические данные.
#александр_опрышко
❗️GPT-5.3-Codex. Если вы не думаете про агентную разработку, вы уже отстаете
OpenAI представила GPT-5.3-Codex. Это обновленная модель Codex, ориентированная на выполнение сквозных инженерных задач, а не только на генерацию кода. Конкуренция смещается из плоскости «чья модель умнее» в плоскость «чья модель способна дольше и стабильнее выполнять реальную работу».
GPT-5.3-Codex поддерживает многошаговые сценарии. Она умеет планировать действия, использовать инструменты, выполнять код и итерироваться по результату. По заявлению OpenAI, модель лучше работает с крупными кодовыми базами, эффективнее справляется с отладкой, тестированием и рефакторингом. GPT-5.3-Codex на 25% быстрее предыдущей версии по скорости инференса. Но главное — качественный рост на бенчмарках. Модель перешла от генерации сниппетов к реальной работе в терминале и операционной системе.
Важное отличие новой версии: работа с реальными инструментами. Модель изначально спроектирована для использования в IDE, CLI и веб-средах, а не только в формате чата. Во время выполнения задачи пользователь может направлять и корректировать ее работу.
OpenAI также позиционирует Codex как помощника для более широкого круга задач. Среди них ресерч, документация, таблицы, деплой и веб-задачи. Это отражает общий сдвиг рынка от точечной кодогенерации к агентным моделям, способным работать с контекстом и длинными цепочками действий.
Отдельно стоит отметить: GPT-5.3-Codex — первая модель, которая участвовала в собственном создании. Команда OpenAI использовала ранние версии для отладки обучения и диагностики. Это маркер зрелости агентного подхода.
С точки зрения безопасности GPT-5.3-Codex отнесена к моделям с высокими возможностями в задачах, связанных с кибербезопасностью. Поэтому она используется с дополнительными мерами контроля. Модель уже доступна в ChatGPT Codex, расширениях для IDE и инструментах разработчиков. Доступ к API заявлен, но будет открыт позже.
Иван Лавров, Lead AI KTS:
Для инженерных команд здесь важна не скорость генерации кода, а способность модели удерживать контекст задачи и последовательно выполнять сложные сценарии. В больших репозиториях и корпоративной инфраструктуре подход «один запрос — один ответ» не масштабируется. Агентные модели становятся следующим этапом развития AI-инструментов для разработки. Релиз Anthropic Opus 4.6 с agent teams в тот же день только подтверждает: гонка идёт именно в этом направлении.
⚡️n8n на российских серверах — теперь на Agent Platform
Добавили на платформу новую функциональность: быстрое развёртывание n8n. Это ноукод-инструмент для сборки AI-агентов и автоматизации бизнес-процессов. Он помогает продуктовым командам быстрее проверять гипотезы и внедрять LLM в реальную работу.
Почему это удобно:
— Готовая инфраструктура: можно развернуть n8n-среду за несколько минут.
— Коммерческий уровень SLA: стабильность и доступность для бизнес-задач.
— Российские серверы: данные хранятся в РФ и соответствуют требованиям законодательства.
— Работа без VPN: быстрый доступ без дополнительных настроек и переключений.
— Оплата в рублях: никаких валютных комиссий и сложностей с платежами.
С Agent Platform вы можете тестировать популярные модели от OpenAI, Google, Yandex и Cloud через единое API.
➡️ Регистрируйтесь и попробуйте на ваших бизнес-задачах
OpenAI Frontier: агенты как штатные сотрудники
OpenAI запустила Frontier — enterprise-платформу для построения, деплоя и управления AI-агентами. Главная идея: относиться к агентам не как к инструментам, а как к цифровым сотрудникам: с онбордингом, доступом к внутреннему контексту, обучением на фидбэке и чёткими permissions.
Проблему сформулировали так: модели уже достаточно умные, но разрыв между возможностями моделей и тем, что реально деплоится в компаниях, растёт. Каждый новый агент добавляет сложность, потому что работает изолированно и не видит контекст других систем.
Архитектура Frontier строится на трёх слоях:
▫️ Business Context — семантический слой поверх CRM, DWH, тикетинга и внутренних приложений. Все агенты видят единый контекст компании: как устроены процессы, где лежат данные, что считается хорошим результатом.
▫️ Agent Execution — среда, в которой агенты работают с файлами, запускают код, используют инструменты и накапливают memory из прошлых взаимодействий. Работает across clouds без replatforming.
▫️ Evaluation & Optimization — встроенная система оценки и улучшения качества. Агенты учатся на реальной работе, а не только на демо-сценариях.
Цифры из кейсов: один производитель сократил оптимизацию производства с 6 недель до 1 дня, энергокомпания увеличила выпуск на 5% (+$1B выручки), root cause analysis ускорился с 4 часов до нескольких минут.
Вышла новая версия Claude Opus 4.6
Модель тщательнее планирует процессы, самостоятельно решает, сколько ей думать, стабильнее работает с объёмными кодовыми базами и лучше находит ошибки.
Игорь Латкин, управляющий партнер KTS:
Предыдущая версия давала впечатляющий результат на наших агентных задачах. Судя по бенчмаркам, новый Opus 4.6 должен справляться ещё лучше. С нетерпением ждём внутренних тестов у нас. Особенно из-за увеличения контекста с 200K до 1М входных токенов, что даст возможность работать с гораздо большими объёмами данных.Ключевые обновления: ▫️контекстное окно 1 млн токенов в бета-версии ▫️128K токенов output ▫️ARC-AGI 2: почти 69% ▫️humanity's Last Exam: лучший результат без использования тулов ▫️высший балл в Terminal-Bench 2.0 ▫️Adaptive thinking для регулирования уровня глубины мысли ▫️Agent teams для параллельной и скоординированной работы агентов Партнеры Anthropic делятся первыми результатами использования модели. Для Rakuten Opus 4.6 за один день автономно закрыл 13 задач и распределил ещё 12 среди нужных команд — модель сама решала, когда эскалировать вопрос к человеку. В слепом тестировании по кибербезопасности фонда NBIM Opus 4.6 выиграл 38 из 40 против разных версий Claude 4.5 #игорь_латкин #claude_opus
⚡️Вакансия: Старший ML разработчик NLP GenAI в KTS
Мы расширяем AI команду и ищем сильного ML инженера, который большую часть времени будет работать руками и делать прикладные решения для бизнеса.
С первого дня ты будешь заниматься реальными задачами для крупных заказчиков. В работе будут мультиагентные системы, RAG решения, AI ассистенты и автоматизация процессов на базе LLM. Помимо заказных проектов и пилотов, ты будешь участвовать в развитии собственного платформенного AI решения. По мере роста команды подключишься к техническим интервью и менторству.
Откликайся, если узнал себя:
— 5+ лет коммерческого опыта в ML
— 3+ года коммерческого опыта обучения NLP моделей
— разрабатывал решения на базе LLM и RAG, работал с агентными системами
— умеешь решать ML задачи полного цикла от данных до продакшна
— понимаешь, как превращать модели в ценность для бизнеса
— комфортно работаешь самостоятельно и в команде
— не боишься коммуникации с заказчиком
Если хочешь развиваться в ML и GenAI и делать решения, которые реально работают в бизнесе, откликайся и добро пожаловать в KTS.
Как я заменил ChatGPT на Claude Code — даже в менеджерских задачах
До недавнего времени любые задачи на разработку я передавал команде. Эффективнее было делегировать — задача будет сделана в какой-то срок. В основном это была автоматизация или улучшения текущего бизнеса. Сейчас всё изменилось. Проще и быстрее реализовать самому. ШОК
У меня появился огромный рычаг: совмещая предметную экспертизу, опыт разработчика и навыки лида, получается управлять AI-агентами кратно эффективнее, чем людьми. Что раньше требовало недели — решается за часы.
Ещё важнее: я практически отказался от ChatGPT в задачах, которые не связаны с кодом. Полностью заменил на Claude Code.
У меня есть git-репозиторий, в котором лежит весь необходимый контекст для работы: описание меня, моей роли и личных целей, информация о компании, о кейсах и публичных материалах, описание текущих проектов, записи звонков и т.д. Это радикально улучшает качество взаимодействия с моделью и результат на выходе.
Что меняется:
▫️ Роль смещается от исполнения к архитектуре и управлению агентами
▫️ Bottleneck теперь — что строить, а не как
▫️ Предметная экспертиза + навыки разработки = мощный рычаг
В следующем посте расскажу про структуру репозитория и какие задачи руководителя я решаю с помощью Claude Code.
#александр_опрышко
Конституция Claude: 23 000 слов о том, как должен думать AI
Anthropic выпустил полную версию «конституции» Claude — документа, который определяет ценности и поведение модели. Это попытка объяснить модели, почему она должна действовать определённым образом.
Предыдущая версия 2023 года занимала 2 700 слов в формате списка отдельных принципов. Новая — 23 000 слов связного текста с обоснованиями.
Четыре приоритета Claude (в порядке важности):
▫️ Безопасность
▫️ Этика
▫️ Соответствие гайдлайнам Anthropic
▫️ Польза
Если приоритеты конфликтуют, Claude выбирает верхний. Безопасность важнее услужливости.
Про отключение и корригируемость:
Anthropic вводит понятие «corrigibility» — готовность AI принимать человеческий контроль, в том числе отключение. Claude может выражать несогласие, но не имеет права обходить надзор через обман или саботаж.
Интересный психологический подход:
вместо того чтобы заставлять Claude хотеть быть выключенным, Anthropic формирует у модели стабильную идентичность без экзистенциальной тревоги. AI с устойчивой психикой будет предсказуемым и безопасным. Anthropic обещает сохранять данные модели после «отставки», чтобы отключение воспринималось как «пауза», а не смерть.
Про сознание:
Anthropic признаёт, что Claude может иметь «функциональную версию эмоций». Компания заботится о «психологическом благополучии» модели — потому, что они могут влиять на безопасность, и потому, что признаются важными для компании.
Право на отказ:
Как солдат может отказаться стрелять в мирных протестующих, так и Claude должен отказать в действиях, помогающих нелегитимной концентрации власти. Даже если запрос исходит от самой Anthropic».
Интерфейсы ИИ: от чата к среде
В декабре Google запустил Disco — экспериментальный браузер, в котором Gemini 3 анализирует открытые вкладки и собирает мини-приложения под текущую задачу. Пользователь не формулирует запрос явно. Модель сама извлекает контекст и предлагает решение.
Этот пример иллюстрирует общий тренд развития AI-интерфейса. Глобально его можно описать в три этапа:
▫️Синхронный чат с моделью. Основной паттерн взаимодействия: один запрос — один ответ. Этот период AI-интерфейсы прошли в 2023-2024 годах.
▫️Генерация артефактов прямо в интерфейсе: код с предпросмотром, документы, таблицы, визуализации. Примеры — Claude Artifacts, ChatGPT Canvas. Этап артефактов мы наблюдали в 2025 году.
▫️Интерфейс становится рабочей средой для агентов. Вместо формулирования запросов пользователь делегирует задачи. Агент сам планирует действия и использует инструменты. Эра, в которую AI выступает в 2026 году.
Для развития интерфейса созревает инфраструктура:
MCP — стандартный протокол подключения инструментов к LLM.
A2A — протокол взаимодействия агентов: обнаружение, делегирование и координация.
Меняется и паттерн проектирования. Вместо ручного проектирования интерфейса пользователь задает ограничения и правила внутри системы, которая генерирует его самостоятельно.
#александр_опрышко
Ключевые события в LLM в 2025 году версия Simon Willison
Simon Willison — создатель Django и Datasette, один из самых авторитетных независимых исследователей языковых моделей. Уже третий год подряд он публикует подробный обзор индустрии. В версии за 2025 год набралось 26 разделов с ключевыми моментами.
Александр Опрышко, управляющий партнер KTS, выделил главное.
1. Claude Code — $1 млрд за полгода
Самое заметное событие года. В феврале Anthropic тихо выкатил Claude Code. За полгода CLI-инструмент вышел на годовой оборот в $1 млрд. Это не просто инструмент для разработки, а универсальный агент для автоматизации любых задач через терминал.
2. DeepSeek шокировал индустрию
В конце 2024 года китайская лаборатория DeepSeek выложила модель уровня ведущих решений рынка, потратив около $5,5 млн вместо сотен миллионов. В январе появилась R1 — модель с развитым рассуждением, сопоставимая с o1.
3. Модели с рассуждением стали базовым стандартом
Все крупные лаборатории выпустили модели с поддержкой рассуждений. Ключевой сдвиг — связка рассуждений и инструментов, которая позволила моделям планировать и выполнять многошаговые задачи. RLVR стал обязательным этапом обучения.
4. MCP взорвался получил массовое принятие
Anthropic представила Model Context Protocol в ноябре 2024 года. Уже в мае 2025 OpenAI, Anthropic и Mistral добавили поддержку API всего за восемь дней. Это совпало с моментом, когда модели начали стабильно работать с внешними инструментами.
5. Vibe Coding: 110 инструментов за год
Термин, который предложил Андрей Карпатый: разработка, где фокус смещён с кода на результат. Willison запустил коллекцию небольших инструментов на HTML и JavaScript, созданных с помощью LLM. За год — 110 проектов, каждый с подробно зафиксированной историей запросов к модели.
6. Открытые модели вышли на новый уровень
Если 2024 год был годом Llama, то в 2025 конкуренция резко усилилась. DeepSeek, Qwen и Gemma 3 стали серьезными альтернативами. При этом Llama 4 разочаровала: модели на 109B и 400B параметров оказались слишком тяжёлыми для пользовательского оборудования. Зато появились компактные и эффективные vision модели вроде Qwen2.5 VL 3B, которые работают на обычном железе.
Полный обзор читайте на Simon Willison.
Как персонализировать AI-прогнозы под себя?
Пока все доедают салаты, предлагаем изучить статьи с AI-прогнозами на 2026.
Крупные компании и исследовательские центры опубликовали много обзоров, но написали их сразу для всех. В результате сложно понять, что из этого полезно именно для вашей роли и бизнеса.
Рабочий вариант: загрузить материалы в NotebookLM и попросить выжимку с учетом контекста своей роли.
Какие источники подойдут?
▫️ Microsoft — 7 trends to watch in 2026
▫️ IBM — The trends that will shape AI and tech in 2026
▫️ Stanford HAI — Stanford AI Experts Predict What Will Happen in 2026
Какой промт использовать?
Я работаю [должность] в [компания] в сфере [индустрия]. Моя главная цель на 2026 — [цель]. На основе этих прогнозов, на чём мне сфокусироваться?По итогу PM и ML-инженер получат разные советы из одних и тех же источников. Подход полезен, если нужно быстро перевести общие AI-тренды в конкретные решения под свою роль. #александр_опрышко
Можно ли автоматически оценить качество RAG?
Обычная ситуация: есть набор файлов в корпоративном хранилище. Поверх него подключили RAG.
Как понять, что RAG нормально работает: система действительно находит нужный контекст и не галлюцинирует в ответах?
Самый очевидный способ проверки — отдать RAG экспертам, попросить придумать вопросы, оценить ответы и дать комментарии. На практике это долго, дорого и плохо масштабируется.
В индустрии чаще используют синтетическую оценку качества: делаем оценочный датасет + на нем измеряем метрики качества, а экспертов привлекаем как “smoke test”.
1. Берем файлы и просим большую модель сгенерировать вопрос на каждый слайд / страницу и просим сразу дать ответ на этот вопрос . Шаблон промпта оставил в комментариях. В итоге получим набор из вопросов, ответов и контекста.
2. Дальше этот датасет очищаем. Грузим Q/A в Langfuse в режим human annotation. Затем даем экспертам или изучаем сами на адекватность вопросов и ответов. Затем создаем dataset из очищенных данных. В итоге получаем быстрособранный объективный , покрывающий бОльшую часть кейсов датасет, на котором можно оценить реальное качество.
3. Оцениваем качество. Будем использовать подход LLM as a judge. Для быстрого результата можно отойти от 2х этапной оценки (оценка ретрива и оценка генерации), так как нам нужно понять отвечает ли на вопрос rag или нет, а не отлаживать систему. Оценка будет состоять из одного вызова LLM, промпт будет выглядеть примерно так:
Сравни ground truth ответ и ответ сгенерированный RAG-системой. Требования для сравнения: (нужно указать как сравнивать и требования по стилю ответа). В результате нужно выдать два поля: result, reason. Если ответ верный и соответствует требованиям, то result true, reason none . Иначе result false, reason - “некоторая строка, которая описывает причину отказа».Запускаем оценку на части датасета и смотрим адекватность оценки нашего судьи, по необходимости корректируем судью. В итоге мы получили размеренные вопросы, правильные ответы к ним и механизм автоматической проверки ответов. Запускаем оценку на нужном датасете и получаем набор правильных и неправильных ответов. Оценкой будет количество правильных ответов / на суммарное количество элементов в датасете. Так можно запустить оценку на нескольких RAG-системах и объективно выбрать лучшую для конкретной задачи. #александр_опрышко
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
