Содержание
Коротко
LLM принимают огромные окна контекста, а инфраструктура агентов по-прежнему гоняет JSON — формат для веб-API, а не для длинных трасс «планировщик → исполнитель → память». На Dev.to разбирают узкие места и формат ULMEN для agent-стека.
Что произошло
Типичный agent-пайплайн выглядит знакомо: planner ставит задачи, executor вызывает tools, память копит историю шагов. Между процессами, в БД и в промптах всё это сериализуется в JSON — привычно инженерам, но дорого на масштабе.
На больших объёмах проявляются системные проблемы. Лишние циклы сериализации и десериализации на каждом hop. Раздувание payload: ключи в кавычках, повторяющиеся структуры, нет ссылочности. Семантические сбои: модель «чуть не так» закрыла скобку — весь tool call бесполезен. Растут счета за bandwidth, storage и токены в контексте.
Protocol Buffers и Apache Arrow решают свои задачи, но не заточены под бюджет контекста LLM и agent-специфичную проверку смысла данных.
Автор предлагает ULMEN с четырьмя слоями: LUMB, ULMEN Text, ULMEN LLM, ULMEN AGENT — под бинарный обмен, текст для людей и компактное представление для модели. В заявленных бенчмарках ULMEN LLM даёт около −44% токенов относительно JSON; бинарный вариант — порядка 22% размера JSON-payload.
Почему это важно
При десятках worker-агентов и длинных tool traces JSON становится налогом на каждый шаг. Экономия сорок процентов токенов на промежуточных представлениях — это не микрооптимизация, а месяцы инференса на том же бюджете.
Даже если ULMEN не станет отраслевым стандартом, тезис полезен: формат данных — часть архитектуры агента, наравне с выбором БД или очереди. Игнорировать его — значит оптимизировать модель, пока pipeline сжирает контекст кавычками и ключами.
На практике
- Посчитайте, сколько токенов уходит на JSON-обёртки tool results vs полезное содержание.
- Для machine-to-machine между сервисами агента рассмотрите бинарные или columnar форматы; JSON оставьте на границе с человеком и отладкой.
- Проверяйте tool output схемой до попадания в контекст модели — меньше «битых» JSON в промпте.
- Сжимайте историю: summary шагов вместо полного лога в каждом turn.
- Оцените ULMEN или аналоги при высоком QPS agent-вызовов — сравнение на ваших трассах, не на демо автора.
Итог
JSON удобен для REST, но для agent-инфраструктуры 2026 года он часто дорогой и хрупкий. ULMEN — один из ответов; главное — осознанно проектировать слой обмена данными между агентами. Подробности и цифры — в посте на Dev.to.