Data Governance
데이터의 보안, 프라이버시, 품질, 컴플라이언스를 조직 수준에서 관리하는 체계
핵심 개념
Data Governance는 데이터의 수명 주기 전반에 걸쳐 보안, 프라이버시, 품질, 접근 권한, 규정 준수를 관리하는 조직적 프레임워크다. 스키마 진화와 데이터 볼륨 증가로 인해 수동 관리의 한계가 드러나면서 LLM 기반 자동화가 새로운 접근법으로 부상하고 있다.
LLM 기반 PII 탐지
Databricks LogSentinel
웨어하우스 규모에서 PII를 자동으로 탐지하고 분류하는 시스템이다:
- 스키마 진화에 걸쳐 라벨 분류를 자동 수행
- 높은 정밀도(precision)와 재현율(recall) 달성
- 수동 리뷰 주기를 크게 단축
- LLM이 컬럼명, 샘플 데이터, 메타데이터를 분석하여 PII 여부를 판정
왜 LLM이 효과적인가
- 규칙 기반 접근의 한계: 컬럼명이
user_id,uid,member_ref등 불일치 - LLM은 맥락(테이블명, 주변 컬럼, 샘플 값)을 종합적으로 판단
- 스키마 변경 시 재라벨링을 자동으로 트리거 가능
트레이드오프
| 접근법 | 강점 | 약점 |
|---|---|---|
| 규칙 기반 | 빠르고 결정적 | 변형에 취약, 유지보수 부담 |
| LLM 기반 | 맥락 이해, 스키마 변화 적응 | 비용, 간헐적 오분류 가능 |
| 수동 라벨링 | 높은 정확도 | 스케일 불가, 병목 |
Uber — 데이터베이스 연합 (Federation)
모놀리식 Hive DWH를 도메인별 연합 데이터베이스로 분리:
- 16,000+ 데이터셋, 10PB 규모의 중앙 집중 Hive의 문제: 연쇄 장애, 노이지 네이버, 과도한 권한
- 포인터 조작: 데이터를 복사하지 않고 Hive Metastore 포인터만 변경하여 무중단 마이그레이션
- 도메인 팀에 DB 운영 권한 위임 → 인시던트 대응 속도 향상
- 최소 권한 접근 제어(ACL) 달성
Netflix — Data Projects (프로젝트 단위 접근 관리)
개별 에셋·개인 ID 단위의 접근 관리를 “Data Project”라는 내구적 컨테이너로 격상:
- 문제: 인원 변동(팀 이동·퇴사) 시 워크플로 ID 깨짐, 수만 개 ACL 개별 관리 불가
- Data Project = (1) 관련 에셋의 논리적 컨테이너 + (2) 인간 수명주기와 무관한 합성 ID
- Gravity: 프로젝트 ID로 실행된 워크로드가 생성한 에셋이 자동 귀속
- Grant & Role 모델로 프로젝트 단위 일괄 접근 관리 → 조직 변경 시 단일 포인트 수정
- 향후 Rightsizing(실 사용 패턴 기반 권한 자동 축소) 개발 중
Pinterest — 테이블 거버넌스와 AI 에이전트의 상호 강화
10만+ 테이블 환경에서 거버넌스가 AI 에이전트의 전제 조건임을 입증:
- 3단계 테이블 티어링(Tier 1/2/3) + 용어집(glossary terms)으로 구조화된 의미 부여
- AI 문서화 + join-based lineage로 수동 문서 작업 ~70% 감소
- 거버넌스 메타데이터(티어, 신선도, 소유자)가 Analytics Agent의 랭킹 신호로 직접 활용
연관 개념
- Semantic Layer
- AI Agent
- Data Quality and Validation
- Data Contracts — 거버넌스 프레임워크 내 생산자-소비자 합의
- Catalog-Managed Tables — 카탈로그 기반 접근 제어
- AI-Ready Data — 거버넌스 레이어가 AI 에이전트 정확성의 전제 조건
- Data Mesh and Federation — 분산 소유권과 거버넌스
Source: LogSentinel LLM-Powered PII Detection and Governance, Database Federation - Decentralized and ACL-Compliant Hive Databases, Data Projects - Managing Data Assets at Netflix Scale, Unified Context-Intent Embeddings for Scalable Text-to-SQL