Когда взгляд выдаёт нейросеть: детекция ИИ-фото по согласованности взгляда

Пиксельные детекторы слабеют на ИИ-фото с людьми. Авторы предлагают проверять согласованность взгляда в кадре — +3,7 п.п. на сценах взаимодействия.

Опубликовано: 26 мая 2026 г. Обновлено: 29 мая 2026 г.

Теги

ИИ research

Содержание

Коротко

Современные генераторы научились прятать «пальцевые» и частотные артефакты: кожа гладкая, шум правдоподобный, локальная дорисовка почти незаметна. На таком фоне классические детекторы по пикселям на снимках с людьми часто падают почти до угадывания. Авторы предлагают другой угол: согласованность социального взгляда — согласуются ли направление взгляда, положение головы и зрачков у людей, которые как будто смотрят друг на друга. Это смысловой признак, а не очередной фильтр по шуму, и на тестах с взаимодействием людей он даёт заметный прирост к уже сильным моделям.

Что изучили

Работа опирается на давнюю идею из распознавания социальных сцен: взаимный взгляд важен, когда два человека «общаются» в кадре. Здесь ту же геометрию переносят в задачу поиска синтетики и локальных подделок: что будет, если в реальном снимке с согласованным взглядом перегенерировать только область глаз?

Для этого собрали парный набор изображений: у каждой подделки тот же человек, свет и фон, что у оригинала, меняется лишь зона вокруг глаз (дорисовка через FLUX.1-Fill). Пары нужны не «для красоты датасета», а чтобы модель не выучила отпечаток конкретного генератора вместо смысла сцены.

Обучение шло с текстовыми пояснениями по фиксированному шаблону: из небольшого набора макроблоков собрали 1250 разных подписей, но скелет рассуждения один (решение → сцена → метод → доказательства → вывод). Идея — отделить стабильную логику объяснения от разнообразия формулировок, как в линии работ, где мультимодальной модели дают не только метку «фейк/не фейк», а описание артефактов.

Проверяли на двух архитектурах: мультимодальной (FakeVLM) и «чисто визуальной» (Effort), на подборках COCO с людьми и сценами взаимодействия.

Главные выводы

На поднаборе взаимодействий сбалансированная точность выросла с 67,8% до 71,5% (+3,7 п.п.); на поднаборе отдельных людей — с 83,0% до 84,3% (+1,3 п.п.). При этом растёт и полнота по реальным, и по поддельным кадрам — модель не сваливается в стратегию «пометить всё фейком».

Для контекста: ряд «пиксельных» детекторов на тех же сценах взаимодействия в статье показан около 50% сбалансированной точности — то есть почти монетка. Даже более устойчивые к переобучению методы застревают примерно в диапазоне 50–60%. Смысловой признак взгляда здесь не заменяет старые подходы, а дополняет их по другой оси.

Интересно переносимость: обучали на дорисовке одним инструментом, а выигрыш виден и на других семействах генераторов. Авторы связывают это с тем, что слабое место — общая для диффузионных моделей зона вокруг глаз, а не «подпись» одного сервиса.

Что это значит для разработчиков

Модерация пользовательского контента. Если вы режете только по JPEG-артефактам или нейросетевым «отпечаткам» в спектре, на групповых фото и точечных правках лицо останется дырой. Имеет смысл закладывать второй контур — геометрия взгляда, согласованность поз голов, правдоподобность «цели взгляда» в многофигурных сценах (хотя бы как эвристики или отдельная модель).
Оценка мультимодальных систем. При тестировании «видит ли модель подделку» одних аугментаций мало. Парные примеры «одна и та же сцена, сломали только глаза» лучше ловят, чем случайный шум.
Обучение с объяснениями. Если вы дообучаете детектор с текстовым выходом, фиксированный каркас рассуждения в подписях (как в этой работе) может стабилизировать обучение сильнее, чем тысяча свободных формулировок без структуры.
Не путать с медициной и правом. Метод заточен под фото с людьми; на пейзаже или товарке сигнал взгляда бессмысленен. Это не замена экспертизе по дипфейкам в суде или СМИ.

Ограничения

Датасет и код авторы обещают после принятия статьи; до публикации воспроизвести цифры один в один нельзя. Фокус — статичные изображения, не видео (там взгляд богаче, но и задача другая). Подход не отменяет ни юридическую экспертизу, ни ручную проверку в чувствительных кейсах.