Data Mesh and Federation
모놀리식 데이터 웨어하우스를 도메인별로 분리하여 소유권, 거버넌스, 장애 격리를 달성하는 아키텍처 패턴
핵심 개념
Data Mesh는 중앙 집중형 데이터 웨어하우스의 한계(연쇄 장애, 노이지 네이버, 병목)를 도메인별 분산 소유권으로 해결하는 아키텍처 패러다임이다. Database Federation은 이를 구현하는 구체적 기술 전략으로, 데이터를 물리적으로 복사하지 않고 메타데이터 포인터만 조작하여 분리한다.
Uber — Hive Database Federation
모놀리식 Hive DWH(16,000+ 데이터셋, 10PB)를 도메인별 연합 데이터베이스로 분리한 대표 사례:
문제
- 연쇄 장애: 하나의 과부하 쿼리가 전체 웨어하우스에 영향
- 노이지 네이버: 도메인 간 리소스 경쟁
- 과도한 권한: 중앙 관리로 최소 권한 원칙 위반
- 중앙 팀 병목: 모든 변경이 데이터 플랫폼 팀을 통과
해결: 포인터 조작 마이그레이션
- Hive Metastore 포인터만 변경하여 데이터 복사 없이 무중단 마이그레이션
- 도메인 팀에 DB 운영 권한 위임 → 인시던트 대응 속도 향상
- ACL 기반 최소 권한 접근 제어 달성
- 스토리지 중복 및 파이프라인 동기화 복잡성 제거
중앙화 vs 연합의 트레이드오프
| 측면 | 중앙 집중형 | 연합형 (Federation) |
|---|---|---|
| 장애 격리 | 약함 — 연쇄 장애 위험 | 강함 — 도메인별 독립 |
| 거버넌스 | 일관성 높음 | 도메인별 정책, 일관성 관리 필요 |
| 마이그레이션 | 복잡한 데이터 이동 | 포인터 조작으로 무중단 |
| 소유권 | 중앙 팀 병목 | 도메인 팀 자율 운영 |
| 쿼리 최적화 | 단일 엔진 최적화 | 크로스-도메인 조인 복잡 |
LLM 기반 거버넌스와의 결합
연합 환경에서 도메인별 스키마가 독립적으로 진화하면 PII 탐지가 어려워진다:
- Databricks LogSentinel: LLM이 컬럼명, 샘플 데이터, 메타데이터를 종합 분석하여 PII 자동 판정
- 스키마 변경 시 자동 재라벨링으로 연합 환경의 거버넌스 일관성 유지
연관 개념
- Data Governance — 거버넌스 프레임워크 내 연합 위치
- Distributed Systems Reliability — 장애 격리와 신뢰성
- Catalog-Managed Tables — 카탈로그 기반 중앙 발견 + 분산 소유
Source: Database Federation - Decentralized and ACL-Compliant Hive Databases, LogSentinel LLM-Powered PII Detection and Governance