Почему JSON тормозит агентные системы и что предлагает ULMEN

Контекст на миллионы токенов, а обмен — в JSON. ULMEN LLM: около −44% токенов в тестах автора.

Опубликовано: 1 июня 2026 г.

Теги

Содержание

Коротко

LLM принимают огромные окна контекста, а инфраструктура агентов по-прежнему гоняет JSON — формат для веб-API, а не для длинных трасс «планировщик → исполнитель → память». На Dev.to разбирают узкие места и формат ULMEN для agent-стека.

Что произошло

Типичный agent-пайплайн выглядит знакомо: planner ставит задачи, executor вызывает tools, память копит историю шагов. Между процессами, в БД и в промптах всё это сериализуется в JSON — привычно инженерам, но дорого на масштабе.

На больших объёмах проявляются системные проблемы. Лишние циклы сериализации и десериализации на каждом hop. Раздувание payload: ключи в кавычках, повторяющиеся структуры, нет ссылочности. Семантические сбои: модель «чуть не так» закрыла скобку — весь tool call бесполезен. Растут счета за bandwidth, storage и токены в контексте.

Protocol Buffers и Apache Arrow решают свои задачи, но не заточены под бюджет контекста LLM и agent-специфичную проверку смысла данных.

Автор предлагает ULMEN с четырьмя слоями: LUMB, ULMEN Text, ULMEN LLM, ULMEN AGENT — под бинарный обмен, текст для людей и компактное представление для модели. В заявленных бенчмарках ULMEN LLM даёт около −44% токенов относительно JSON; бинарный вариант — порядка 22% размера JSON-payload.

Почему это важно

При десятках worker-агентов и длинных tool traces JSON становится налогом на каждый шаг. Экономия сорок процентов токенов на промежуточных представлениях — это не микрооптимизация, а месяцы инференса на том же бюджете.

Даже если ULMEN не станет отраслевым стандартом, тезис полезен: формат данных — часть архитектуры агента, наравне с выбором БД или очереди. Игнорировать его — значит оптимизировать модель, пока pipeline сжирает контекст кавычками и ключами.

На практике

Посчитайте, сколько токенов уходит на JSON-обёртки tool results vs полезное содержание.
Для machine-to-machine между сервисами агента рассмотрите бинарные или columnar форматы; JSON оставьте на границе с человеком и отладкой.
Проверяйте tool output схемой до попадания в контекст модели — меньше «битых» JSON в промпте.
Сжимайте историю: summary шагов вместо полного лога в каждом turn.
Оцените ULMEN или аналоги при высоком QPS agent-вызовов — сравнение на ваших трассах, не на демо автора.

Итог

JSON удобен для REST, но для agent-инфраструктуры 2026 года он часто дорогой и хрупкий. ULMEN — один из ответов; главное — осознанно проектировать слой обмена данными между агентами. Подробности и цифры — в посте на Dev.to.