Содержание
Коротко
Chart QA бенчмарки часто решаются шорткатами и фоновыми знаниями модели. Chartographer строит контрфактуальные графики: вопрос тот же, данные и ответ — другие, чтобы проверить настоящее визуальное рассуждение.
Что изучили
Обратная инженерия графика в исполняемый код, проверка реконструкции, генерация вариантов с контролем seed и пересчёт ответов. Оценка proprietary и open VLM на чувствительность к вариантам.
Главные выводы
- Высокий скор на одном графике скрывает провалы на контрфактуалах.
- Ошибки чаще, когда нужен новый визуальный путь рассуждения.
- Фреймворк применим к существующим chart-QA датасетам.
Что это значит для разработчиков
- В eval VLM добавляйте counterfactual пары, не только single-chart accuracy.
- Для дашбордов с ИИ — тестируйте смену данных при том же UI-вопросе.
- Executable chart spec — мост между QA и регрессионными тестами.
Ограничения
Домен chart QA; генерация кода графиков может быть хрупкой на экзотических визуализациях.