Chartographer: контрфактуальные графики для честной оценки VLM

Меняют данные графика при том же вопросе — и ловят, где модель отвечала по памяти, а не по визуальному рассуждению.

Опубликовано: 26 мая 2026 г.

Теги

Содержание

Коротко

Chart QA бенчмарки часто решаются шорткатами и фоновыми знаниями модели. Chartographer строит контрфактуальные графики: вопрос тот же, данные и ответ — другие, чтобы проверить настоящее визуальное рассуждение.

Что изучили

Обратная инженерия графика в исполняемый код, проверка реконструкции, генерация вариантов с контролем seed и пересчёт ответов. Оценка proprietary и open VLM на чувствительность к вариантам.

Главные выводы

Высокий скор на одном графике скрывает провалы на контрфактуалах.
Ошибки чаще, когда нужен новый визуальный путь рассуждения.
Фреймворк применим к существующим chart-QA датасетам.

Что это значит для разработчиков

В eval VLM добавляйте counterfactual пары, не только single-chart accuracy.
Для дашбордов с ИИ — тестируйте смену данных при том же UI-вопросе.
Executable chart spec — мост между QA и регрессионными тестами.

Ограничения

Домен chart QA; генерация кода графиков может быть хрупкой на экзотических визуализациях.