← Все статьи

Chartographer: контрфактуальные графики для честной оценки VLM

Меняют данные графика при том же вопросе — и ловят, где модель отвечала по памяти, а не по визуальному рассуждению.

Теги
Содержание

Коротко

Chart QA бенчмарки часто решаются шорткатами и фоновыми знаниями модели. Chartographer строит контрфактуальные графики: вопрос тот же, данные и ответ — другие, чтобы проверить настоящее визуальное рассуждение.

Что изучили

Обратная инженерия графика в исполняемый код, проверка реконструкции, генерация вариантов с контролем seed и пересчёт ответов. Оценка proprietary и open VLM на чувствительность к вариантам.

Главные выводы

  • Высокий скор на одном графике скрывает провалы на контрфактуалах.
  • Ошибки чаще, когда нужен новый визуальный путь рассуждения.
  • Фреймворк применим к существующим chart-QA датасетам.

Что это значит для разработчиков

  1. В eval VLM добавляйте counterfactual пары, не только single-chart accuracy.
  2. Для дашбордов с ИИ — тестируйте смену данных при том же UI-вопросе.
  3. Executable chart spec — мост между QA и регрессионными тестами.

Ограничения

Домен chart QA; генерация кода графиков может быть хрупкой на экзотических визуализациях.