← Все статьи

Семантический слой между хранилищем и BI: зачем он нужен для AI-аналитики

Metrics Layer / Headless BI: единый исполняемый контракт метрик, отличие от каталога данных и почему LLM не должна сама изобретать SQL.

Содержание

Коротко

Семантический слой — промежуточный логический уровень между физическим хранилищем данных и потребителями: BI, Excel, AI-агентами. Это не каталог и не глоссарий, а исполняемый контракт метрик, измерений и правил доступа. Для масштабирования AI-аналитики без «разных ответов на один и тот же вопрос» такой слой становится обязательной инфраструктурой — хотя рынок решений пока только созревает.

Что произошло

Axenix на Habr разобрали, почему термин «семантический слой» снова на слуху. Идея не нова — её называли витринами, презентационным слоем DWH, пространством метрик в BI — но AI-агенты и распределённые дата-платформы заставляют переосмыслить роль слоя.

Семантический слой (его же называют Metrics Layer или Headless BI) задаёт бизнес-термины, метрики, измерения, связи сущностей, фильтры и агрегации. Когда BI или агент запрашивает «выручку по регионам за квартал», слой сам собирает SQL по утверждённой модели — одинаково для любого канала.

Ключевое отличие от Data Governance: глоссарий и каталог описывают, что значит показатель и где лежит; семантический слой исполняет расчёт через собственный движок генерации запросов.

Авторы выделяют четыре архитектурных подхода:

  • BI-Native — семантика внутри Power BI, Looker, SAP BO;
  • DWH-Native — semantic views в Snowflake, Databricks;
  • Metric Store — отдельный слой метрик (например, dbt Semantic Layer), SQL уходит в СУБД;
  • Semantic Platform — платформа с кэшем, предагрегатами и маршрутизацией (AtScale, Cube Cloud).

Для AI-аналитики Axenix предлагают схему: LLM распознаёт намерение, а семантический слой исполняет логику. RAG даёт справочный контекст, но не гарантирует детерминированный расчёт — агент может «додумать» JOIN или формулу.

Почему это важно

Без централизованной метрики каждый инструмент считает по-своему: дашборд, Excel и чат-бот с SQL дают разные цифры на один вопрос. При масштабировании AI-агентов проблема умножается — LLM умеет генерировать SQL, но не должна быть источником бизнес-логики.

Семантический слой даёт:

  • Единый результат во всех каналах потребления;
  • Детерминизм вместо «каждый промпт — новая интерпретация метрики»;
  • Мост между естественным языком и физическими таблицами без прямого доступа агента к сырому DWH.

Рынок ещё формируется: зрелых универсальных платформ мало, встроенные BI/DWH-подходы многие уже используют неосознанно. Инициатива Open Semantic Interchange (OSI) стандартизирует описание модели, но не диктует единую архитектуру реализации.

На практике

Если вы строите AI-аналитику или подключаете агентов к корпоративным данным:

  1. Не путайте каталог данных с семантическим слоем — документация ≠ исполняемая логика.
  2. Централизуйте метрики до подключения LLM: определите формулы, grain, фильтры и права доступа в одном месте.
  3. Ограничьте роль LLM распознаванием запроса и маппингом на объекты модели, а не генерацией произвольного SQL.
  4. Выберите подход под текущий стек: если BI один — BI-Native может хватить; при множестве потребителей и AI — смотрите Metric Store или Semantic Platform.
  5. Заложите эволюцию: компании, которые сегодня фиксируют семантический контракт, завтра масштабируют агентов без переделки всей аналитики.

Для BI без встроенной семантики (например, Superset) внешний слой фактически становится аналитическим бэкендом — платформа видит «таблицу», а внутри работает полная модель.

Итог

Семантический слой — не модный термин из презентаций, а инфраструктурный пререквизит для надёжной AI-аналитики: единые метрики, воспроизводимые расчёты, контролируемый доступ. Рынок ещё молод, но выстраивать контракт метрик имеет смысл уже сейчас — до того, как десятки агентов начнут интерпретировать одни и те же таблицы по-разному.