Содержание
Коротко
Агентные системы всё чаще выполняют сгенерированный код как часть рантайма, а не выбрасывают его после ответа. Новая рамка описывает, как такие артефакты эволюционируют под governance: валидация, аудит, оценка и откат — механизм HarnessMutation вместо «агент сам переписал прод».
Что изучили
Работа развивает идею Code as Agent Harness: проверенные артефакты становятся постоянными возможностями рантайма (создание, запуск, правки, повторное использование в длинных циклах).
Автор формализует executable operational cognition — когда «мышление» агента материализуется в исполняемых объектах, которые накапливаются в операционном субстрате. HarnessMutation — ограниченная адаптация: не произвольная самомодификация, а наблюдаемый процесс над persistent memory с явными границами.
Главные выводы
- Пробел в индустрии — не генерация кода, а lifecycle и governance долгоживущих артефактов.
- Эволюция рантайма должна быть bounded (ограниченной), traceable (прослеживаемой) и с rollback.
- Подход привязан к современным agent orchestration платформам как концептуальная основа для инфраструктуры, где изменения остаются аудируемыми.
Что это значит для разработчиков
- Не давайте агенту писать в прод без песочницы — отделяйте «черновик harness» от боевого рантайма.
- Версионируйте agent-generated modules так же, как миграции БД: diff, review, canary.
- Любая «самооптимизация» промпта или tool-chain — через HarnessMutation-подобный pipeline: тест → метрика → approve → deploy.
- Логируйте операционную память агента (какие скрипты остались между сессиями) — иначе отладка невозможна.
Ограничения
Это концептуальный препринт без готового SaaS «в коробке». Нет сравнения с конкретными продуктами (LangGraph, AutoGen и т.д.) по цифрам — инженерам нужно самим переносить принципы на свой стек.