Содержание
Коротко
ROUGE и BERTScore до сих пор часто используют для оценки ответов LLM, но исследование показывает: они могут давать почти одинаковые баллы текстам, которые прямо противоречат эталону. MATCHA сочетает близость к reference и штраф за синтетическое «противоположное» утверждение — и на восьми бенчмарках лучше совпадает с разметкой людей.
Что изучили
Авторы сравнили классические token-overlap метрики и embedding-метрики с новой схемой MATCHA (dual-view): (1) насколько ответ близок к золотому тексту, (2) насколько он далёк от adversarial counterfactual — сгенерированного противоречия.
Проверка на задачах QA, суммаризации, NLI, captioning, STS, включая TruthfulQA без локального обучения метрики.
Главные выводы
- Популярные метрики систематически завышают оценку взаимоисключающих формулировок.
- На TruthfulQA согласие с человеческой разметкой выше ROUGE-L на 18,38% и BERTScore на 20,82%.
- Среди 23 embedding-моделей, использованных как метрика, MATCHA точнее отделяет корректные утверждения от ошибочных только по reference.
- Код и реализация открыты: github.com/Siran-Li/MATCHA.
Что это значит для разработчиков
- CI для RAG и чат-ботов: не останавливайтесь на ROUGE/BLEU — добавьте проверку на семантическое противоречие эталону.
- Регрессии промптов: при A/B тестах смотрите не только средний similarity, но и долю ответов, близких к контрфактуальному «антитезису».
- Eval harness: MATCHA можно встроить как дополнительный сигнал рядом с LLM-as-judge — дешевле полного human eval на каждый коммит.
- Документация продукта: если метрика в отчёте заказчику — объясните, почему «высокий BERTScore» ≠ «правда».
Ограничения
Метрика требует reference (золотой ответ); для открытых диалогов без эталона нужны другие сигналы. Adversarial counterfactual — модельный артефакт: в продакшене всё равно нужна выборочная ручная проверка на критичных доменах.