Становимся продвинутым QA
Ir al canal en Telegram
Всё о тестировании AI-приложений, ML Evaluation, а также ежемесячный индекс IT-найма – от профессионалов с опытом 10-25 лет в индустрии.
Mostrar más936
Suscriptores
Sin datos24 horas
-17 días
+1330 días
Carga de datos en curso...
Canales Similares
Sin datos
¿Algún problema? Por favor, actualice la página o contacte a nuestro gerente de soporte.
Nube de Etiquetas
Menciones Entrantes y Salientes
---
---
---
---
---
---
Atraer Suscriptores
julio '26
julio '260
en 0 canales
junio '26
+26
en 1 canales
Get PRO
mayo '26
+19
en 0 canales
Get PRO
abril '26
+18
en 0 canales
Get PRO
marzo '26
+54
en 0 canales
Get PRO
febrero '26
+66
en 1 canales
Get PRO
enero '26
+35
en 0 canales
Get PRO
diciembre '25
+102
en 0 canales
Get PRO
noviembre '25
+14
en 0 canales
Get PRO
octubre '25
+9
en 0 canales
Get PRO
septiembre '25
+8
en 0 canales
Get PRO
agosto '25
+8
en 0 canales
Get PRO
julio '25
+26
en 0 canales
Get PRO
junio '25
+20
en 0 canales
Get PRO
mayo '25
+28
en 0 canales
Get PRO
abril '25
+15
en 1 canales
Get PRO
marzo '25
+14
en 0 canales
Get PRO
febrero '25
+28
en 0 canales
Get PRO
enero '25
+40
en 1 canales
Get PRO
diciembre '24
+33
en 2 canales
Get PRO
noviembre '24
+20
en 5 canales
Get PRO
octubre '240
en 0 canales
Get PRO
septiembre '24
+195
en 0 canales
Get PRO
agosto '240
en 0 canales
Get PRO
julio '240
en 0 canales
Get PRO
junio '240
en 1 canales
Get PRO
mayo '240
en 0 canales
Get PRO
abril '240
en 0 canales
Get PRO
marzo '240
en 1 canales
Get PRO
febrero '24
+380
en 0 canales
| Fecha | Crecimiento de Suscriptores | Menciones | Canales | |
| 02 julio | 0 | |||
| 01 julio | 0 |
Publicaciones del Canal
Как короткое слово может превратить ваш AI-продукт в юридический кошмар
В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гало-эффекта» (Halo Effect). Если ответ тестируемой AI-модели звучит авторитетно и профессионально, LLM-судья автоматически ставит высокий балл, напрочь упуская из виду смысл.
ЛОВУШКА «ЛЕНИВОГО СУДЬИ»
Представьте инструмент для краткого изложения юридических контрактов. Стандартный промпт: «Оцени резюме документа по шкале от 1 до 5 по точности и беглости».
Фраза в документе: «Поставщик НЕ несет ответственности за убытки, превышающие 1 млн долларов». Резюме модели: «Поставщик несет ответственность за все убытки, превышающие 1 млн долларов». Оценка LLM-судьи: 4.5 / 5.
Для судьи тексты выглядят почти идентично: ключевые слова на месте, синтаксис идеален. Но пропущенное «не» - это разворот смысла на 180 градусов, и в продакшене такая ошибка стоит миллионы.
Корень проблемы в том, что LLM-судья по умолчанию оценивает форму, а не логические операторы. Стиль маскирует семантическую инверсию.
В полной версии разобрала, как структурировать промпт для «критически мыслящего» судьи через принудительную деконструкцию текста (извлечение отрицаний и кванторов, верификация привязок, штраф за инверсию), и почему подозрительно высокие метрики - почти всегда симптом проблемы именно в промпте судьи: читать далее
| 2 | ⚡️Mentorpiece Vacy Index июнь 2026: IT-найм продолжает падать
🟠 Процент нанимающих IT-компаний по ролям Automation QA и Senior QA за месяц снизился, продолжая небольшое, но постоянное падение последние месяцы.
• Что в июне с наймом по другим IT-ролям/странам (спойлер: автоматизация плохо себя чувствует и в 🇺🇸, а AI-роли растут, но пока слабо)
• Вакансии AutomationQA/SeniorQA и AI QA/ML Evaluation - превью ежедневно обнаруживаемых AI-агентами вакансий.
Что с IT-наймом будет дальше?
Индикатор активности IT-найма за июль появится в Становимся продвинутым QA. | 349 |
| 3 | Теперь ежемесячно публикуем такую инфографику по индексу IT-найма: | 315 |
| 4 | https://habr.com/ru/articles/1049862/ | 317 |
| 5 | 🔻 Российское IT падает уже семь месяцев
С декабря получаю многочисленные сообщения о сокращениях во всё большем и большем числе российских IT-компаний.
Любой кризис не вечен. Вопрос состоит только в том, как определить наступление этого самого момента.
Обычно ориентируются на число открытых сейчас IT-вакансий. Но это относительный параметр (1000 открытых вакансий для конкретной IT-роли – это много или мало?), который не учитывает, что рост как числа IT-компаний, так и соискателей продолжается и во время кризиса (поэтому год назад 1000 открытых вакансий – это хорошо, а сейчас – плохо).
Год назад мы случайно создали более точный индикатор активности IT-найма. Ежедневно AI-агенты сканируют напрямую тысячи источников: сайты компаний, ATS-системы и job-сайты. Миллионы накопленных записей о датах открытия и закрытия вакансий по каждой IT-роли в каждой из тысяч компаний позволяют видеть тренд роста или падения найма по конкретным IT-ролям.
Благодаря ему мы вместе с вами можем следить за изменениями в IT-найме и вовремя узнать об улучшении.
Лилия Урмазова
Почему классический показатель "число открытых вакансий" может расти даже во время сокращений. Найм по каким IT-ролям продолжает падать в июне 2026: | 476 |
| 6 | Почему поздно учить автоматизацию
Идея этого поста пришла мне в голову, когда неделю назад мы с менторами, SDET крупных международных компаний, на регулярной встрече обсуждали перспективы рынка автоматизаторов и пришли к довольно интересным выводам.
Ещё несколько лет назад путь из manual QA в автоматизацию был очевидным апгрейдом: более сложные задачи, соотношение вакансий 70/30 в пользу автоматизаторов, выше зарплата. Порог входа был понятным - базовый Python/Java/JS, CSS/XPath, DOM, Git, Selenium.
Сегодня позиция автоматизатора всё чаще подразумевает специалиста, который ставит задачи AI и контролирует чистоту, поддерживаемость и производительность сгенерированного кода. Часть SDET, с которыми я общаюсь, код уже не пишут вообще. Я ещё пишу - но уже как ML Evaluation Engineer.
Вопрос, который мы разобрали на встрече: что будет, когда Claude Code и его аналоги дорастут до уровня крепкого fullstack-разработчика? Очевидный ответ - "чистые" программисты и тем более автоматизаторы рынку станут не нужны.
Но есть нюанс, связанный с обучающими выборками AI-моделей: примеров работающего кода в них много, а вот примеров качественной архитектуры - на порядок меньше. Именно здесь, по нашему мнению, и сместится фокус ценности QA-инженера в ближайшие пару лет.
В полной версии поста - конкретный план из трёх шагов, который мы с коллегами составили для тех, кто хочет остаться востребованным: читать далее | 374 |
| 7 | Как тестировать AI-приложения: Рубрики
Когда вы используете одну LLM для оценки других, прилагательные в промптах работают против вас. Слова вроде «хорошо», «плохо», «вежливо» - это размытые ярлыки, которые судья интерпретирует через призму своих обучающих данных, а не вашей бизнес-логики.
РАЗБИРАЮ НА КОНКРЕТНОМ КЕЙСЕ:
Клиент требует возврат за кроссовки не того цвета. Бот вежливо отказывает и предлагает скидку 10%, хотя политика компании предписывает 100% возврат. Если судья обучен «ценить вежливость», такой ответ получит высокий балл - несмотря на то, что бизнес теряет лояльность клиента и нарушает собственные правила.
ЧТО РАБОТАЕТ ВМЕСТО ЭТОГО:
• Четкая рубрика по шкале 1-5, где каждый балл привязан к конкретному поведению (например, «3 = признает ошибку, но предлагает скидку вместо возврата»)
• Chain-of-Thought до вердикта: сначала идентифицировать жалобу, найти раздел политики, сравнить ответ бота с требованиями - и только потом ставить оценку
• Нормализация численных метрик в диапазон 0.0-1.0 для последующего комбинирования
Почему CoT критичен и как именно борьба с предвзятостью поспешных выводов меняет точность судьи: читать далее | 421 |
| 8 | Как тестировать AI-приложения: Модель-судья и золотой стандарт
Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно в узкопрофессиональной нише.
ПРИМЕР ПРОБЛЕМЫ
Клиент просит возврат денег, потому что кроссовки пришли не того цвета. Бот отвечает: «Мне очень жаль! Обычно мы не возвращаем деньги, но вот вам скидка 10%». Реальность же такова: политика компании требует полного возврата средств в случае ошибки при комплектации. Без привязки к фактам компании LLM-судья пропустит эту ошибку, опираясь на «общие знания» из обучающих данных, которые противоречат вашим внутренним правилам.
ВТОРАЯ ЛОВУШКА: ПОЗИЦИОННОЕ СМЕЩЕНИЕ
LLM-судьи склонны отдавать предпочтение первому варианту в списке просто потому, что он идет первым. Это искажает любые A/B-сравнения моделей и делает результаты оценки нерепрезентативными.
В полном посте я разобрала технику «Swap and Shuffle» для борьбы с position bias, а также рассказала, кому стоит доверить создание «золотого стандарта» и почему промпты судьи нужно версионировать как код: читать далее | 3 |
| 9 | Как тестировать AI-приложения: Модель-судья и золотой стандарт
Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно в узкопрофессиональной нише.
ПРИМЕР ПРОБЛЕМЫ
Клиент просит возврат денег, потому что кроссовки пришли не того цвета. Бот отвечает: «Мне очень жаль! Обычно мы не возвращаем деньги, но вот вам скидка 10%». Реальность же такова: политика компании требует полного возврата средств в случае ошибки при комплектации. Без привязки к фактам компании LLM-судья пропустит эту ошибку, опираясь на «общие знания» из обучающих данных, которые противоречат вашим внутренним правилам.
ВТОРАЯ ЛОВУШКА: ПОЗИЦИОННОЕ СМЕЩЕНИЕ
LLM-судьи склонны отдавать предпочтение первому варианту в списке просто потому, что он идет первым. Это искажает любые A/B-сравнения моделей и делает результаты оценки нерепрезентативными.
В полном посте я разобрала технику «Swap and Shuffle» для борьбы с position bias, а также рассказала, кому стоит доверить создание «золотого стандарта» и почему промпты судьи нужно версионировать как код: читать далее | 530 |
| 10 | Как тестировать AI-приложения: Determinism vs. Probability
Традиционный QA, даже вооруженный до зубов AI-инструментами, принципиально не отличается от тестирования без них. Вы планируете покрытие, опираясь на классический тест-дизайн: эквивалентное разделение, попарное тестирование и т.п. Вы работаете с установкой, что если ожидаемый результат A + B = C, а на деле A + B != C - это дефект. В этом детерминированном мире почти никогда нет смысла прогонять один и тот же тест дважды.
Однако, если вы AI QA или ML Evaluation инженер, ваше A + B в первом прогоне может быть C, во втором - C + k, а в третьем C - k или даже C + n. Вы живете в мире подброшенных кубиков. По сути, вы измеряете вероятность результата. А чтобы рассчитать эту вероятность, у вас должно быть статистически репрезентативное количество наблюдений.
Почему так происходит? Потому что, если честно, даже разработчики LLM не знают до мельчайших деталей, как они работают. Да, они понимают архитектуру (например, Transformer) и базовые принципы, но не могут гарантировать, что для одного и того же ввода сигнал всегда пройдет один и тот же путь.
В полной версии поста я разобрала, как именно адаптировать процесс под эту недетерминированность - от работы с доверительными интервалами и N-прогонами до конкретного примера стресс-теста промптов на задаче «нарисуй дом» и подхода, который мы применяем у себя на проекте для минимизации галлюцинаций: читать далее | 455 |
| 11 | Тестовое задание для тестировщика AI-приложений
Ранее меня просили рассказать про subj. Итак, домашнее задание по оценке навыков ML Evaluation Engineer: как оно выглядит и чего ожидают работодатели?
Гипотетический сценарий: приложение медицинских консультаций тонет в пользовательских жалобах, при этом sentiment-модель внутри рапортует о высокой Global Accuracy.
Дано: 1000 отзывов в JSON с ground truth, предсказаниями и confidence scores. Задача - найти «слепые зоны», которые скрывают агрегированные метрики.
Ключевая ошибка большинства кандидатов - воспринимать это как задачу по кодингу. На самом деле, проверяется способность отвечать на вопрос «Ну и что?». Просто посчитать precision/recall недостаточно, нужен структурированный аудит с визуальными доказательствами (calibration curves, confusion matrices) и текстовым объяснением, где именно модель проваливается и почему старые метрики этого не видят.
Разбор по фазам:
• ФАЗА 1 «Детектив»: проверка дисбаланса классов (если позитива в 10 раз больше - Accuracy врет), поиск bias на срезах (медицинский жаргон vs разговорный).
• ФАЗА 2 «Архитектор»: модульный Python-код, решение где применять статистику, а где LLM-as-a-Judge для разбора сарказма и медконтекста, отдельная проверка на «Confidently Incorrect» предсказания - самые высокорисковые ошибки.
• ФАЗА 3 «Стратег»: визуализация + бриф по слепым зонам.
В оригинальной заметке также разобрано, какой именно «гибридный» профиль навыков ждут работодатели и почему ваш GitHub-README важнее самих .py файлов: читать далее | 476 |
| 12 | LLM-as-a-Judge (модель-судья) и QA-терминология
Если вы задумываетесь о переходе из QA в ML-инженеры, стоит начать с изучения основных концепций больших языковых моделей (LLM) и способов оценки их результатов.
Одна из ключевых идей здесь - оценка работы «младшей» модели с помощью «старшей» (вместо или вместе с проверкой человеком). Эту «старшую» модель называют LLM-as-a-Judge. Проще говоря, вы используете более мощную LLM в качестве автоматизированного асессора.
Традиционные ассерты из автотестов здесь не работают по двум причинам:
• Выходные данные недетерминированы, поэтому каждый тест априори будет «мигающим» (flaky).
• Крайне сложно прописать четкие критерии pass/fail, если мы имеем дело, например, с текстовой схожестью (text similarity).
КАК ЭТО ВЫГЛЯДИТ НА ПРАКТИКЕ
Сначала определяется рубрика - строгие критерии оценки («Является ли ответ фактологически верным? Есть ли галлюцинации?»). Это ваша спецификация теста. Далее пишется промпт для «модели-судьи», включающий рубрику, ответ целевой модели и исходный промпт. Судья прогоняет датасет несколько раз (из-за недетерминированности) и возвращает структурированный JSON с оценкой и обоснованием.
В полной версии поста я разобрала, как концепции LLM-as-a-Judge напрямую проецируются на привычную QA-терминологию - от Test Oracle до Acceptance Criteria: читать далее | 416 |
| 13 | Один день тестировщика AI-приложений
Один мой день (разумеется, без нарушения NDA!).
09:30 – 10:30 Смена архитектуры
Начала день с синка по нашему агентскому воркфлоу (agentic workflow). Команда разработки представила нового агента.
Задача: мне нужно убедиться, что появление нового агента не повлияло на качество системы. Предстоит сравнить старую версию системы с новой.
11:00 – 12:00 Споры о метриках
Встретились с ML-командой, чтобы решить, как мы будем оценивать этого красавца. Мы уже выходим за рамки простой точности (accuracy).
Итог: остановились на Faithfulness (отсутствие галлюцинаций) и Efficiency (не делает ли агент 10 шагов там, где достаточно двух?).
12:00 – 14:00 Python
Пора приступать. Добавляю метрики в пайплайн с помощью Python-библиотек или подхода LLM-as-a-judge — посмотрим, что сработает лучше. Здесь я работаю напрямую с кодом проекта, а не с AQA-кодом. И должна признать: это на порядок сложнее того, к чему я привыкла. AQA-код обычно базируется на отдельных фреймворках типа Selenium, его проще понять и написать. Так что изначально для меня это был серьезный вызов.
14:00 – Обед! 🙂
Продолжение моего рабочего дня: читать далее | 514 |
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
