AI-Driven Development. Родион Мостовой

الذهاب إلى القناة على Telegram

Увлекательно рассказываю про AI в разработке, про построение продуктов с LLM под капотом и иногда про .NET. Связь: @rodion_m_tg Чат: @ai_driven_chat

5 137

المشتركون

+724 ساعات

+367 أيام

+11330 أيام

1 968

عرض المشاهدات

~ 1 35624 ساعات

~ 1 47048 ساعات

38.37%

معدل المشاركة

لا توجد بيانات

المشاركات في اليوم

Ads index

beta

أرشيف المشاركات

5 137

Repost from er10.kz: новости про бизнес, IT-технологии и стартапы | Казахстан и мир

Сэкономит 30% вашего бюджета: стартап CodeAlive упрощает работу с кодом Может ли заядлый айтишник стать предпринимателем? Опыт Родиона Мостового, фаундера стартапа CodeAlive, подтверждает, что да. В работе тимлидом он понял, что разработчики тратят много времени на то, чтобы разобраться в коде. Со временем эта боль переросла в стартап CodeAlive, который превращает весь код и документацию компании в интерактивную базу знаний. В эксклюзивном интервью для ER10 Media Родион Мостовой рассказал о взлетах, падениях и изнанке своего стартапа. ER10.KZ | IT-медиа

5 137

Я стал редко постить что-то новое в свой канал, т. к. на него совершенно не остается времени из-за загрузки в CodeAlive - мы с мощной командой сделали инструмент, который позволяет разработчикам, аналитикам и тестировщикам быстрее разбираться в огромных кодовых базах, давая быстрые, точные и глубокие ответы на вопросы по коду всего проекта, а также умеет делать AI Code Review с учетом контексте проекта. В общем, недавно я дал интервью Шахизе Менг из казахстанского издания er10, в котором много всего рассказал не только о пути нашего проекта, но и его технической составляющей. Если вам интересно как развивается KZ-EU AI DevTool стартап в 2025, то милости прошу. Немного позже я расскажу подробнее о том как у нас все работает. А сейчас, спасибо er10, и приятного чтива!

5 137

GPT 4.5 лучше, чем Claude Opus 4, o3 Pro и Gemini 2.5 Pro?! И причем тут Mermaid? GPT 4.5 от OpenAI - одна из наиболее странных и специфичных моделей. Она стоит в разы больше, чем GPT-4o/GPT 4.1/o4-mini, но на большинстве задач на программирование показывает сопоставимые или худшие результаты. Как только появилась эта модель, у меня в канале был пост о том, что GPT 4.5 гумманитарий, а не технарь, в котором она имитировала рассказы Пелевина. Собственно, до сегодняшнего дня я использовал GPT 4.5 только для написания красивых текстов или переводов (и то я уже не уверен, что она здесь выигрывает у Sonnet 4). У нас в CodeAive чатик в своих ответах умеет генерировать Mermaid диаграммы любой сложности - и добиться около 100% корректности этих диаграмм было большим челленджем, по итогу которого мы реализовали целый пайплайн-фиксер, частью которого являются старые добрые проверки через регулярки (regular expressions). Только проблема в том, что регулярками там надо проверять довольно много разных кейсов (36 тестов в сумме), поэтому паттерны там получились настолько сложные, что их легче просто протестить на разнообразных кейсах и забыть о них. Просто как пример:

$@"(\b[a-zA-Z0-9_]+(?:<br\s*\/?>[a-zA-Z0-9_]+)*)\s*$begin:math:text$\\((.*?)$end:math:text$\)(?=\s*(?:@"(?:x--x)(?:\|.*?\|)?|$))"

В общем, есть один хак, про который подробнее я расскажу чуть позже, он позволяет моделям типа o3 быстрее генерировать сложный рабочий код через итеративное тестирование, но работает это пока только с Python. Я, конечно, воспользовался этим подходом и в итоге, у LLMки получился идеальный метод, который успешно проходил все тесты. Но настоящим челленджем по итогу оказалось корректно конвертировать этот метод обратно в C#. Ни одна сильная reasoning модель с этой задачей не справлялась и половина тестов просто не проходила. Какие модели я пробовал: o3, o3 Pro, o4-mini-hight, Claude 4 Opus Thinking, Grok 3 Thinking, Gemini 2.5 Pro (max thinking budget). Никакой итеративный подход, конечно, тоже не спасал (когда мы несем тексты ошибок обратно в чат и просим их исправить). Больше того, я даже нашел вот такой интересный список отличий регулярок в разных ЯП и скармливал LLMкам этот список (дистиллированный под Python vs C#) - результат тот же... полный фейл. В общем, бросил я эту задачу, понадеявшись на грядущий Grok 4, а потом вдруг вспомнил, что у нас еще есть GPT 4.5 в арсенале. Ну и что бы вы думали? С одного простого промпта с первой же попытки GPT-4.5 нагенерила абсолютно корректный метод (Python - > C#), который успешно прошел все 36 тестов. Так что, sama (уверен, ты читаешь мой канал), не отключайте ее, пожалуйста) Кейс, конечно, экзотический, но показательный - не сбрасывайте эту странную модельку со счетов. А у вас были похожие кейсы, когда большинство сильных моделей не справлялись, а какая-то "маргинальная" справилась?

5 137

🎙 Митап AI Driven Development в MOST IT Hub (Алматы) 11 июля в 19:00 в MOST IT Hub опытные техлиды из Bereke Bank, QazCode и архитектор из CodeAlive поделятся своими рецептами использования AI-кодинг-агентов в решении реальных рабочих задач. Доклады будут актуальны не только для технических лидеров, но и для всех, кто интересуется AI-агентами. 🧠 В программе: 🔹 Иван Луценко, техлид из Bereke Bank, покажет, как он с помощью Claude сократил анализ крашей с нескольких часов до 15 минут и выстроил единый workflow для всех проектов. 🔹 Родион Мостовой, CEO и RAG-архитектор из CodeAlive, поделится своими находками в решении сложных задач с помощью LLM и расскажет, как его команда настраивала AI Code Review. 🔹 Но просто сгенерировать код недостаточно — AI-агентов нужно правильно интегрировать в команду. Павел Королев, техлид из QazCode, объяснит, как «обучить» искусственный интеллект особенностям вашего проекта и поддерживать его знания в актуальном состоянии. 📅11 июля | 19:00 📍MOST IT Hub - г. Алматы, ул. Ходжанова 2/2, БЦ Fortis, 3 этаж. ⏱ Длительность: 2,5 часа 📝 Регистрация по ссылке ⚠️ Количество мест ограничено

5 137

Может ли AI находить сложные ошибки в коде целых проектов? У меня в канале много дотнетчиков (спасибо Жене @epeshkblog, Саше @dotnetmore, Кириллу @csharp_gepard и Леше @itbeard) и многие из вас наверняка помнят популярный вопрос с собеседований про GetHashCode) Следующий кейс как об этом. Есть расхожее заблуждение о том, что LLM все еще слишком глупы для того, чтобы находить ошибки в коде проектов. Особенно когда речь идет о больших и сложных кодовых базах. В действительности же нейросети развиваются каждый день, и чтобы GenAI тулинг смог находить даже сложные ошибки в коде, в сущности, необходимы всего 2 составляющие: 1. Мощная LLM с возможностью размышлений (reasoning, thinking). Например, наши внутренние бенчмарки показывают, что самыми внимательными к багам являются модели Gemini 2.5 Pro и OpenAI o3. 2. Релевантный контекст. Важно находить золотую середину между избыточным контекстом и недостаточным контекстом. В случае если в LLM поступает лишний контекст, она просто с большей вероятностью в нем запутается и качество ревью упадет драматически. С другой стороны, если контекста недостаточно, то нейросеть просто не сможет "понять" как то или иное изменение кода повлияет на проект в целом, упустив таким образом важные потенциальные проблемы. Простой пример - код, предназначенный для однопоточного выполнения, в многопоточной среде, как правило, будет выполняться с ошибками. Например, мы CodeAlive предварительно индексируем кодовую базу, выстраивая граф вызовов, иерархию типов и другие связи - именно этот шаг помогает максимально эффективно работать с контекстом нашему AI Code Review. Поделюсь таким кейсом: Недавно мы заметили баг, из-за которого в системе дублировались артефакты Identifier артефакта - это композиция из fileName, className, funcName). Но самое интересное то, что в коде мы уже обрабатывали дубликаты через HashSet и этой ошибки не должно было быть вовсе:

        HashSet<ArtifactAggregate> artifactsToSave = new();
        void TryAddArtifact(ArtifactAggregate artifact)
        {
            if (artifactsToSave.Add(artifact) == false)
            {
                // log error
            }   
        }

При этом, GetHashCode, на первый взгляд даже корректный, уже был реализован ранее (но я честно о нем даже и не вспомнил тогда). И тут и возникла та самая ситуация, когда даже разработчику непонятно, в чем дело (ведь мы же уже защитились!). Почесав репу, я подумал, почему бы не попросить CodeAlive поискать корень проблемы:

почему у нас дублируются Identifier артефактов в базе? мы же вроде защищены от этого в TryAddArtifact

Ответ прилагаю на скрине. Но он мне настолько понравился, что я продублировал его в текст. Здесь важно отменить, что весь контекст AI-агент собрал сам - все, что я дал ему на входе это вопрос выше. Проблема действительно оказалась именно в некорректных св-вах в Equals и GetHashCode. Кстати, многие хотят попробовать CodeAlive сразу на больших проектах, без регистрации и смс, теперь это стало возможным. Мы проиндексировали опенсорс проекты (ASP.NET Core, Java Spring, laravel, GORM, VSCode, etc.) и теперь каждый может задать по ним свои вопросы: https://www.codealive.ai/#public-chats У меня есть еще отдельный флоу для решения сложных coding проблем через LLM, если такое интересно, то ваши реакции - лучшая мотивация для нового поста) И поделитесь своими кейсами и флоу, в которых LLM-ки применяются на гране своих возможностей, мы можем собрать потом все в один пост.

5 137

Бесплатный Lovable: Самое время нагенерить MVP по своим идеям В эти выходные (до воскресенья 23:59 CET) Lovable.dev дает неограниченный бесплатный доступ к своему сервису - это значит, что каждый может накодить PoC/MVP своих идей без ограничений на кол-во запросов. Убедитесь только, что вы выбрали OpenAI/Anthropic или Gemini в выпадающем списке (подозреваю, что лучше всего результаты будут у Anthropic и Gemini). А делается это все в рамках батла AI Showndown. Следим за результатами) Делитесь, кстати, ссылками на свои поделки и своим мнением о Lovable в комментариях.

5 137

Весьма показательная история. Справедливости ради только отмечу, что для совсем не инженеров, которые очень хотят быстрый MVP, все-таки больше подходят такие решения, как lovable.dev и bolt.new - во всяком случае, они хоть как-то пытаются проблемы c секьюрити решать. Ну, и, конечно, всегда стоит помнить о возможности хотя бы взять часовую консультацию у эксперта-разработчика на том же getmentor.dev (некоммерческий проект) - всяко дешевле выйдет, чем потенциальные потери от утечки ваших ключей.

5 137

Repost from Тимур Хахалев про AI Coding

Тёмная сторона вайб-кодинга Эта история не имеет ничего общего с реальностью. Весь рассказ является плодом воображения автора. Сегодня хочу рассказать про один серьёзный случай. Есть у нас один хороший клиент Джон, который заказывал у нас уже несколько проектов. И вот, он попросил помощи в очередном своём проекте. Надо уточнить, что с появлением AI, Джон стал активным пользователем этого всего и очень сильно пытается создавать продукты самостоятельно, хотя, в программировании он не разбирается совсем. Рефат уже как то рассказывал про то, как Джон создавал mvp из палок и продавал это клиентам. Так вот, насколько я знаю по легенде, у Джона был свой проект, но он был недостаточно хорош, и Джону захотелось переписать его с нуля, изменив даже бренд. Я получил доступ к репозиторию на Github и Google Doc с названием "PRD" с целью изучения этого и оценки насколько сложно будет передать этот проект нам на доработку. Далее, я расскажу про свои впечатления от знакомства с этим репозиторием. За 3 недели он успел настрогать 465 коммитов в репу, 35к loc Typescript, но большинство коммитов состояли из "Deployed your application" или из двух изменений в tailwindcss в одном файле ❤️ Вот список инструментов, которые пробовал Джон, судя по репозиторию: Replit, Claude Code, Google Jules, Semgrep (какой-то AI AppSec Engineer) Судя по истории коммитов, Джон делал скриншоты экрана (они сохранились в истории) и описывал где что не так прямо в окно чата. Причём, я думаю, что описывал он эти задачи именно голосом 😎 Джон красавчик, в своем возрасте (он довольно взрослый мужчина) он сумел разобраться в новомодных приблудах. Но есть несколько но: 🔺 репозиторий представляет из себя монорепу с мешаниной файлов. Хорошо хоть разграничил client от server. Правда, в папке server скинуты в одну кучу сразу все файлы (на бэкенде express.js), а на фронте файлы разложены по папочкам components, hooks, lib и т. д. — видно, что гайдлайны nextjs повлияли 🔺 есть закоммиченный .env с кредами от облачной модной БД neon.tech. Закоммитил Replit 🔺 есть закоммиченный файлик с интересным названием private.key. Его закоммитил Replit 🔺 есть license key от одного пропиетарного софта, который захардкожен прямо на стороне клиента. Закоммитил Claude Code. 🔺 в этом коде его логин и пароль от ERP (хоть и тестовый контур, но всё же) встречается 12 раз в 12 разных файлах. Я проверил, эти креды закоммитил Claude Code Вишенка на торте — репозиторий публично открыт 🤯😦 Вторая — сфера работы Джона, отнюдь не инфоцыганство, а серьёзная сфера, по регулирующим законам которой, могут произойти серьёзные последствия, если сикреты из этого репозитория утекут не в те руки. Vibe coding in a nutshell 💪 Мы уже сообщили Джону, что он допустил ошибку. Он закрыл репозиторий и сбросил опубликованные креды. Какие выводы можно сделать из этого случая? Даже если вы офигенный эксперт в своей доменной зоне и AI даёт вам буст, то всему есть предел, об этом стоит помнить и понимать свои границы. Из-за огромного хайпа в мире, AI может причинить большие убытки. Пожалуйста, доверьте работу с кодом профессионалам. Особенно, если в вашей сфере есть злые регуляторы. Да, мы тоже будем использовать AI coding tools, но мы понимаем как должен выглядеть результат. Ну и монетка в копилку новомодных coding agents. Как бы создатели не старались, но пользователь всё ещё может выстрелить себе в ногу, даже в две: - агенты почему-то не проверяют коммиты на наличие кредов в них - агенты не проверяют, что репозиторий публично открыт и в нём находятся сикреты

5 137

Началась конференция AI Engineer World's Fair 2025 - обещают кучу интересного про AI в разработке. Спикеры из Microsoft, OpenAI, Neo4j и еще из кучи топ компаний. Онлайн трансляция тут: https://youtu.be/z4zXicOAF28

5 137

Repost from Этихлид

Claude 4, обзор Прошло несколько дней работы с Claude 4, так что можно сказать пару слов. Если вкратце, то для меня теперь выбор моделей для разработки выглядит так: Sonnet 4 ● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги ~~до посинения~~, пока всё не исправишь") ● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :) ● небольшие повседневные задачи, где не нужно много думать ● веб-разработка Gemini 2.5 Pro ● все задачи, где нужен длинный контекст ● иии... почти все остальные задачи o3 ● случаи, когда нужен чистый ризонинг Переход с других моделей на Claude 4 ● с Sonnet 3.7 - однозначно переходить: * изменения в коде стали точнее * лучше следует инструкциям и держит контекст * менее упорот - иногда всё-таки делает то, что не просят, но намного реже * новый cutoff - конец января 2025 ● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах: * лучше использует тулы * структурнее подходит к решению задач По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах). Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе. Далее в основном буду говорить про Sonnet. Бенчмарки Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего. По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже. Но на паре результаты всё-таки неплохие: ● MultiChallenge - стабильность работы в многоходовых диалогах с людьми ● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента" И это подводит нас к следующему пункту: В чём же хорош Claude 4? Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop). И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя). За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки. Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов. Особенности ● охотнее сама строит планы для задач и потом их придерживается ● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :) Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать. Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить ● помните, что модель стала делать меньше делать то, что не просят? Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :) Проблемы ● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно ● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется ● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :) Заключение Противоречивый релиз, конечно, вышел. Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов). Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :) #ai #model #review

5 137

Вообще, описан классный флоу и юзкейс применения нейронок от Denis Sexy IT. Я тоже люблю собрать какой-нибудь датасет из знаний (в частности подборку из arxiv-статей), затем прогнать их все через Gemini 2.5 Pro и получить интересные инсайты или даже код на основе загруженных статей. Точно так можно скармливать ей документацию целиком или даже весь код какого-нибудь небольшого проекта, сджойненный через какой-нибудь Repomix/RepoPrompt/GitIngest/uithub. И еще интересным лайфхаком дополню: не многие знают, но OpenAI DeepResearch так же на вход умеет принимать разные документы и пдфки и, поскольку там под капотом o3 (вероятно, самая "умная" и точно самая внимательная LLM на сегодня), результат может получится еще интереснее, чем в Gemini. PS. Там появился конкурент Devin'у от OpenAI, который так и назвали Codex, а также автономный кодагент от Google - Jules. Я обязательно про них расскажу, когда соберу чуть больше практического опыта. А вы уже успели попробовать Codex/Jules? Если да, расскажите плиз о своем опыте в комментариях к посту.

5 137

Repost from Denis Sexy IT 🤖

Я обещал написать, как я готовился к интервью в JetBrains обвешавшись нейронками – я не забыл, делюсь Прохождение интервью, немного другой скилл, нежели реальная работа – это про структурную презентацию прошлых достижений, в максимально сжатой форме и чем больше у вас достижений, тем больше нужно сжимать резюме и знать как презентовать Я уже писал, что мне было интересно найти работу не как мини-инфлюенсеру через этот канал, а пройти собеседование на основе моего резюме – метил я в позиции где доступно принятие решений в продукте и робот Computer Use, как раз пошуршав на линкедине принес ссылку, что JetBrains ищет Group Product Manager в Амстердаме Я решил попробовать откликнуться, и после того как назначили дату интервью, начал готовиться – попробую описать коротко шаги, вдруг кому-то поможет: 💬 1. Я поискал русскоязычные ТГ-каналы, которые ведут люди причастные к продакт менеджементу и наткнулся на канал @productdo; его ведут ребята из Booking, и много там рассказывали как проходит найм в Booking 💬 2. Искать посты или читать ВЕСЬ канал в 2025 уже не принято; поэтому я скачал весь их канал (сорри, чуваки!) через ТГ приложение Windows в формате JSON (Нужно нажать на ⋮ в канале и выбрать скачать JSON) 💬 3. После этого, я пошел на AI Studio от Google и прописал там: системный промпт эксперта-суммаризатора знаний для собеседований (сделал его тут, иконка с бейджиком), в User Message вставил текст в стиле: Какая идеальная структура собеседования, для прохождение интервью в Booking, используй текст ниже: <я тупо вставил JSON текст который скачал в пункте 3, никак его не обрабатывая> 💬 4. Выбрал модель Gemini Flash (берите последнюю доступную) и выставил температуру 0, чтобы модель не креативила ничего и запустил. Кстати, с тех пор вышла бесплатная Gemini Pro 2.5, можете ее брать. 💬 5. Модель шуршала своим гигантским контекстом в миллион токенов минуты две и после этого выдала структурный текст идеального флоу прохождения интервью – как правильно презентовать свои достижения, как правильно выбрать важные части и не важные и тп 💬 6. Естественно, первому ответу модели верить не стоит, поэтому в этом шаге тупо пишем ей: Убедись, что ты не допустила ошибок, перепиши ответ если ошибки есть 💬 7. И все, получаем новую версию вопросов для интервью, которая почти не содержит галлюцинаций – в тексте было описана как условный Booking тестирует людей при найме, какие вопросы задает и тп. 💬 8. Дальше, создаем новый чат и выбираем в той же Google AI Studio модель Gemini Pro, в системный промпт прописываем «Эксперта по прохождению интервью» (опять же, тут генерируем системный промпт для этой роли) 💬 9. Дальше, вставляем в User Message: Покажи как идеальный кандидат на позицию X, прошел бы интервью и ответил на эти вопросы: <тут вставляем вопросы для интервью> При учете что резюме кандидата выглядит так: <тут вставляем свое резюме в виде текста> 💬 10. Выставляем температуру на 0.3, запускаем модель 💬 11. В итоге получаем ПРИМЕРНОЙ сценарий того, как могло бы выглядеть интервью, какие вопросы могли бы задавать, как ответы могли бы звучать – все это не совсем релевантно, но позволяет очень быстро начать готовиться к конретике правильно адаптируя свой спич под привычный для найма флоу 💬 12. Дальше, вы можете показать этот текст приложению ChatGPT (тупо включив режим с видео, наведя на монитор камеру и скролля текст) и попросить вас пособеседовать, позадавать вопросы, оценить ответы ⚠️ Важно: Этот способ не гарантирует успех прохождения интервью, но это самый лучший способ, что я пробовал – потому что после него я был уверен в себе, вопросах и тому как правильно презентовать весь этот зоопарк проектов к которым я был причастен Успехов и меньше нервов – все проблемы всегда возникают от волнения, потому что у вас скорее всего тоже синдром самозванца, а этот метод позволяет его победить

5 137

Ну вот Google и сместили постоянного лидера во фронтэнд разработке Sonnet 3.7 - так что, господа фронтэндщики, присмотритесь. Интересно, когда Gemini сравняется по своим способностям в агентских возможностях кодогенерации с Sonnet в Cursor'е? Или уже? Поделитесь своим опытом. Попробовать можно в API и, возможно, уже в вебе (там точную версию не указывают, так что до конца не ясно). Сам я в последнее время для кодогенерации использую как раз Gemini 2.5 Pro в основном - качество действительно превосходное; особенно удивляет то, как она сама продумывает и обрабатывает корнер кейсы (да да, под синьора косит :)) PS. Нас уже 1000+! Благодарю всех своих читателей, что находите время на чтение меня. Отличный повод для дайджеста по каналу и моим материалам - будет.

5 137

Repost from Сиолошная

Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку). Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно. На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir. А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.

5 137

Repost from Korenev AI - GPT в тапочках🩴

В Курсоре появилась генерация правил проекта Запускается так: /Generate Cursor Rules В моем проекте курсор создал список всех файлов и краткое описание функциональности каждого файла. Думаю, это лучше поможет курсору ориентироваться в структуре проекта и сохранять чаще информацию там где надо, а не там, где почему-то неожиданно захотелось Так же для каждого из правил можно указать его способ его использования, если я правильно понял

5 137

А теперь, для любителей локальных моделей: Gemma 3 QAT Что-то мы все про проприетарщину да и проприетарщину. А что насчет локальных моделей? Надо сказать, что на этом поприще у маленькмх опенсорных моделей тоже наблюдается какой-то фантастический буст. Например, Gemma 3 27B в кодинге показывает результаты, сопоставимые с GPT-4o-mini. А из ризонинг моделей, как упоминал ранее, QwQ 32B на уровне Claude 3.7 Sonnet Thinking, а DeepCoder 14B (это новая спец. моделька от создателей DeepSeek) на уровне o3-mini (low). Ну, и опять эксклюзив - на агентских задачах по кодингу, неожиданно вырвалась вперед моделька OpenHands LM 32B от ребят из OpenHands, которые дотренировали ее из Qwen Coder 2.5 Instruct 32B на своем "тренажере для агентов" SWE-Gym, опередив в итоге в SWE-bench даже огромную Deepseek V3 0324. В общем, OpenHands молодцы! Кстати, недавно их Code-агент взял новую соту (SoTA - State of The Art) в SWE-bench Verified. Так что, могу всем смело рекомендовать их блог. Ух, ну и перенасытил я вас всего лишь одним абзацем! В общем, что сказать-то хотел - ребята из Google посмотрели, значит, на свою Gemma 3 и увидели, что, при всей своей красоте, она довольно тяжелая все равно оказалась для консьюмерских ПК/GPU, ну и разразились они какой-то крутой квантизацией, которая называется QAT (Quantization-Aware Training). Что это за QAT такой мы тут разбираться не будем - просто для нас важно знать, что эта хитрая техника квантизации уменьшает требования моделей к железу до 4-х раз, при этом почти не влияя на уровень "интеллекта" модели. Действительно ли это так? Давайте проверим на примере Gemma 12B IT QAT (4bit). Кстати, специальные MLX-квант-веса, оптимизированные для маководов (я) доступны по ссылке. Так вот, моделька эта запускается через LMStudio в две кнопки. В итоге, ответы действительно у нее неплохие, какую-то несложную кодогенерацию она явно вытянет. На, и русский язык ее оказался безупречным (см. скрины). Более того, после моего замечания она, как будто, даже вывезла задачу с параллельной генерацией эмбеддингов (сама решила взять для этого SemaphoreSlim). С использованием Parallel уже не справилась, т. к. начала await юзать внутри Parallel.For (сорри за жаргон, если вы не дотнетчик). Но в целом, у меня впечатления отличные! А как у вас себя ведут локальные модельки? С какими задачами справляются, а с какими нет? И какие модели вы используете локально? (если вообще используете)

5 137

От себя добавлю про выбор оптимальных моделей для кодинга Их сейчас действительно накопилось какое-то несчетное количество, причем множество их них вполне приличные. В чем еще сила старой доброй Sonnet 3.7? Все еще в задачах на фронтэнд - на текущий момент, кажется, что она все еще делает наилучший UI/UX. И это подтверждают результаты WebDev Arena. Что интересно - новенькая GPT 4.1 незаметно ее догоняет, так что, господа фронтэдщики, - присмотритесь. Кроме того, похоже, что Sonnet 3.7 в составе Cursor'а все еще лучшая модель для агентского режима. Что насчет больших (и сложных) рефакторингов? Тут, на мой взгляд, лучший выбор - это Gemini 2.5 Pro и o3. Почему? Прежде всего, из-за их максимальной внимательности к контексту (см. бенчмарк Fiction.liveBench). Ну и здесь же вам эксклюзив - обратите внимание на относительно новую модельку QwQ-32B от Qwen - похоже, что она получилась очень удачной - результаты в LiveBench на уровне Sonnet 3.7 (Thinking!), но главное - внимательность к контексту почти на уровне Gemini 2.5 Pro(!). При этом, она еще и опенсорс. Так что, любители поработать с большим контекстом (я) - присмотритесь Что касается новой модели GPT-4.1 - это хорошая рабочая лошадка для повседневных несложных задач. Ну, и поделитесь своим опытом, дорогие мои читатели, про o3 - уже столкнулись с ее "странностями" на своем опыте? А то всякие страшилки тут рассказывают про нее в соседних каналах :))

5 137

Repost from Этихлид

ChatGPT o3 (2/2) Минусы 🔴 Малая длина фактического вывода ● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла; ● использует плейсхолдеры вместо реальных имплементаций; ● игнорирует просьбы выдать полный ответ; ● не дает пояснений к тому, что делает и комментариев к нетривиальному коду; И для многих задач разработки одно это делает её неприменимой. Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ. 🔴 Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге. Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее. 🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI. 🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой. Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата. Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания. 🔴 Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую целесообразность использования её через API. (Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :) Вердикт для разработчиков ● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов. ● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение. ● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов. В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :) ● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме. Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер. Что ждём дальше по моделям? ● DeepSeek R2 / V4 ● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки P.S. В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее. Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха. ✍️ - посмотрим, сколько наберётся интересующихся :) #ai #model #review

5 137

Repost from Этихлид

ChatGPT o3 и немного o4-mini (1/2) Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini. Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI. Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google. Попробуем разобраться, насколько они оправдались. Кратко по выбору модели для разработки Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу. Повседневные задачи 🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом 🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь Архитектура и планирование 🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего 🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг Сложные задачи, чистый ризонинг 🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами 🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода Длинный контекст (>200k) 🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте А где же o4-mini? Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах. OpenAI o3 Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами. Плюсы 🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений". Что приводит нас ко второму плюсу: 🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать. Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте. Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска. +/- 🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию. Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы. #ai #model #review