Semantic Layer

비즈니스 의미를 데이터에 부여하여 일관된 해석과 AI 소비를 가능하게 하는 계층


핵심 개념

시맨틱 레이어는 원시 데이터와 소비자(분석가, AI 에이전트, 대시보드) 사이에 비즈니스 의미를 부여하는 계층이다. 메트릭 정의, 차원 관계, 비즈니스 규칙을 중앙화하여 “매출”이 모든 팀과 도구에서 동일한 의미를 갖도록 보장한다.

ETL을 넘어 Context로

에이전트 시대에 기존 ETL의 한계가 드러나고 있다:

  • ETL은 데이터를 이동하지만 의미는 전달하지 않음
  • 자율 에이전트가 빈약한 컨텍스트의 쿼리를 대규모로 전파하면 오류가 증폭
  • ECL (Extract-Contextualize-Link) 프레임워크: ETL의 Transform을 Contextualize + Link로 대체

ECL 프레임워크 심화

단계역할설명
Extract데이터 이동기존과 동일 — 소스에서 분석 환경으로 데이터를 가져옴
Contextualize시맨틱 부여전용 에이전틱 파이프라인이 Context Store를 구축·유지
Link엔티티 연결시스템 간 비즈니스 엔티티의 시맨틱 관계를 매핑 (MCP 등 표준 활용 가능)

Context Store

Context Store는 두 가지 객체를 보관한다:

  • Context Object: 장기 시맨틱 정의 — “매출”의 의미, 누가 검증했는지, 신뢰 수준. 시간이 지날수록 복리로 가치가 증가
  • Decision Object: 에이전트가 컨텍스트를 기반으로 내린 판단의 감사 추적 — 어떤 정의를 사용했고, 무엇을 추론·권고했는지 기록

왜 이번에는 다른가

과거 비즈니스 용어집(2000s), 시맨틱 레이어(2010s), 데이터 카탈로그가 실패한 이유는 경제적 동인 부재:

  • 인간 분석가는 컨텍스트가 없으면 동료에게 Slack으로 물어봄 → 불편하지만 시스템 장애는 아님
  • AI 에이전트는 rev_adj 컬럼을 보면 추론하고 확신을 갖고 행동 → 대규모 환각으로 이어짐
  • 처음으로 컨텍스트 유지 비용 < 누락 비용이 역전 — 이 경제적 역전이 이전 시도에는 없었던 구조적 차이

데이터 엔지니어 → Context Architect

  • 데이터 엔지니어의 가치가 파이프라인 신뢰성 → 시맨틱 신뢰성으로 이동
  • “Job이 돌았는가?” → “의미가 맞는가?”로 질문이 전환
  • AI가 Spark 잡과 dbt 모델을 생성하지만, “매출”의 조직적 의미를 결정하는 것은 사람의 일

Context Layer: 시맨틱 레이어의 상위 집합

a16z(Jason Cui)는 에이전트 시대에 필요한 것이 기존 시맨틱 레이어를 넘어선 Context Layer라고 진단한다:

시맨틱 레이어 (기존)Context Layer (에이전트 시대)
메트릭 정의 (revenue, churn, ARPU)메트릭 정의 + 정규 엔티티 + identity resolution
LookML/dbt 등 특정 문법으로 수작업자동 수집 + 인간 정제 (트라이벌 지식)
BI 도구에 직접 연결API/MCP를 통해 에이전트에 노출
정적셀프 업데이트 (에이전트 피드백 반영)

Context Layer 구축 5단계

  1. 데이터 접근 — 웨어하우스 + 운영 앱 + 내부 시스템(GDrive, Slack 등) 전체 연결
  2. 자동 컨텍스트 수집 — 쿼리 히스토리, dbt/LookML 정의, 가장 많이 참조되는 테이블/조인
  3. 인간 정제 — 자동화가 잡지 못하는 암묵적·조건부·역사적 트라이벌 지식 추가
  4. 에이전트 연결 — API 또는 MCP로 실시간 노출
  5. 셀프 업데이트 흐름 — 에이전트가 오답을 내면 컨텍스트에 피드백 반영

시장 지형 (2026)

  • Data gravity 플랫폼: Databricks Genie, Snowflake Cortex Analyst — 기존 데이터 중력 위에 경량 시맨틱 모델링
  • AI 분석 에이전트 회사: 시장 경험을 통해 컨텍스트 레이어를 제품에 통합 중
  • 전용 Context Layer 스타트업: 새로운 카테고리로 등장, 각 고객별 데이터 수집·트라이벌 지식 포착에 특화

2026 산업 동향

Joe Reis의 설문에 따르면 데이터 모델링과 시맨틱 레이어가 다음 핵심 프론티어로 부상:

  • 파이프라인 최적화보다 엔드투엔드 전달 효율성이 중요
  • AI가 코딩 속도를 높일수록, 구조적 문제(데이터 모델 부재)가 더 선명해짐

Netflix DataJunction — 메트릭 시맨틱 레이어 구현

Netflix의 오픈소스 DataJunction은 시맨틱 레이어의 구체적 구현 사례다:

  • 그래프 기반 메타데이터 모델: 메트릭 정의를 컴퓨테이션(쿼리 실행)과 분리
  • SQL 생성 엔진: 여러 실험 플랫폼에서 메트릭을 표준화된 방식으로 계산
  • LLM 통합: 감사 가능한 메트릭 리니지 추적으로 AI 소비 지원
  • 팀 간 일관성: “매출” 등 핵심 지표가 실험 플랫폼 전반에서 동일하게 계산됨
  • 오픈소스 공개로 커뮤니티 기반 발전

Pinterest Analytics Agent — Text-to-SQL의 시맨틱 강화

Pinterest의 Analytics Agent는 시맨틱 레이어를 Text-to-SQL에 통합하여 2개월 만에 내부 채택률 40%를 달성:

  • 과거 SQL 쿼리를 시맨틱 시그니처로 임베딩하여 기관 지식 검색 가능한 라이브러리 구축
  • 비즈니스 용어집(glossary)을 시스템에 주입하여 도메인 언어-SQL 간 의미 연결 강화
  • asset-first 패턴: 쿼리 의도보다 데이터 에셋 발견을 우선

Semantic Layer vs. Text-to-SQL: 2026 벤치마크

dbt Labs의 2026년 벤치마크가 시맨틱 레이어와 Text-to-SQL의 정확도 격차를 정량적으로 확인:

모델Text-to-SQLSemantic Layer
Claude Sonnet 4.690%98.2%
GPT-5.3 Codex84.1%100%
  • Text-to-SQL 정확도가 2023년 32.7% → 2026년 64.5%로 거의 2배 향상, LLM 발전의 직접적 효과
  • 시맨틱 레이어는 LLM 역할을 질문→메트릭/차원 분해로 축소하여 결정론적 쿼리 생성 — 모델 선택이 덜 중요
  • 권장: 보드 보고·KPI 등 정확도가 중요한 곳은 Semantic Layer, 애드혹 탐색은 Text-to-SQL
  • 최소한의 데이터 모델링(3개 모델)으로 양쪽 모두 크게 개선

Metrics SQL — SQL 기반 시맨틱 레이어

Rill의 Metrics SQL은 비즈니스 메트릭을 SQL 일급 프리미티브로 취급하는 새로운 접근:

  • Measure(집계 표현)와 Dimension(슬라이싱 속성)을 SQL 내에서 직접 참조
  • Parser → Query Compiler → Executor 파이프라인으로 시맨틱 쿼리를 DB SQL로 변환
  • GROUP BY 자동 추론, SQL 인젝션 방지를 위한 파라미터화
  • CLI, HTTP API, MCP 서버를 통해 인간과 AI 에이전트 모두 접근 가능
  • 장기 비전: OLAP 엔진이 MEASURE를 네이티브 SQL 키워드로 인식하는 semantic pushdown

연관 개념


Source: Beyond ETL - The Case for Context, AI Is Here But The Hard Parts Havent Changed, ETL is Dead, Your Data Agents Need Context, Netflix - DataJunction as Netflix’s Answer to the Missing Piece of the Modern Data Stack, Pinterest - Unified Context-Intent Embeddings for Scalable Text-to-SQL, Semantic Layer vs Text-to-SQL 2026 Benchmark, Introducing Metrics SQL