MATCHA: метрика для оценки LLM, которая ловит противоречия с эталоном

ROUGE и BERTScore часто ставят высокий балл противоположным текстам. MATCHA штрафует контрфактуальные противоречия — до +20% к согласию с людьми.

Опубликовано: 26 мая 2026 г. Обновлено: 29 мая 2026 г.

Теги

ИИ research

Содержание

Коротко

ROUGE и BERTScore до сих пор часто используют для оценки ответов LLM, но исследование показывает: они могут давать почти одинаковые баллы текстам, которые прямо противоречат эталону. MATCHA сочетает близость к reference и штраф за синтетическое «противоположное» утверждение — и на восьми бенчмарках лучше совпадает с разметкой людей.

Что изучили

Авторы сравнили классические token-overlap метрики и embedding-метрики с новой схемой MATCHA (dual-view): (1) насколько ответ близок к золотому тексту, (2) насколько он далёк от adversarial counterfactual — сгенерированного противоречия.

Проверка на задачах QA, суммаризации, NLI, captioning, STS, включая TruthfulQA без локального обучения метрики.

Главные выводы

Популярные метрики систематически завышают оценку взаимоисключающих формулировок.
На TruthfulQA согласие с человеческой разметкой выше ROUGE-L на 18,38% и BERTScore на 20,82%.
Среди 23 embedding-моделей, использованных как метрика, MATCHA точнее отделяет корректные утверждения от ошибочных только по reference.
Код и реализация открыты: github.com/Siran-Li/MATCHA.

Что это значит для разработчиков

CI для RAG и чат-ботов: не останавливайтесь на ROUGE/BLEU — добавьте проверку на семантическое противоречие эталону.
Регрессии промптов: при A/B тестах смотрите не только средний similarity, но и долю ответов, близких к контрфактуальному «антитезису».
Eval harness: MATCHA можно встроить как дополнительный сигнал рядом с LLM-as-judge — дешевле полного human eval на каждый коммит.
Документация продукта: если метрика в отчёте заказчику — объясните, почему «высокий BERTScore» ≠ «правда».

Ограничения

Метрика требует reference (золотой ответ); для открытых диалогов без эталона нужны другие сигналы. Adversarial counterfactual — модельный артефакт: в продакшене всё равно нужна выборочная ручная проверка на критичных доменах.