Data Governance

데이터의 보안, 프라이버시, 품질, 컴플라이언스를 조직 수준에서 관리하는 체계


핵심 개념

Data Governance는 데이터의 수명 주기 전반에 걸쳐 보안, 프라이버시, 품질, 접근 권한, 규정 준수를 관리하는 조직적 프레임워크다. 스키마 진화와 데이터 볼륨 증가로 인해 수동 관리의 한계가 드러나면서 LLM 기반 자동화가 새로운 접근법으로 부상하고 있다.

LLM 기반 PII 탐지

Databricks LogSentinel

웨어하우스 규모에서 PII를 자동으로 탐지하고 분류하는 시스템이다:

  • 스키마 진화에 걸쳐 라벨 분류를 자동 수행
  • 높은 정밀도(precision)와 재현율(recall) 달성
  • 수동 리뷰 주기를 크게 단축
  • LLM이 컬럼명, 샘플 데이터, 메타데이터를 분석하여 PII 여부를 판정

왜 LLM이 효과적인가

  • 규칙 기반 접근의 한계: 컬럼명이 user_id, uid, member_ref 등 불일치
  • LLM은 맥락(테이블명, 주변 컬럼, 샘플 값)을 종합적으로 판단
  • 스키마 변경 시 재라벨링을 자동으로 트리거 가능

트레이드오프

접근법강점약점
규칙 기반빠르고 결정적변형에 취약, 유지보수 부담
LLM 기반맥락 이해, 스키마 변화 적응비용, 간헐적 오분류 가능
수동 라벨링높은 정확도스케일 불가, 병목

Uber — 데이터베이스 연합 (Federation)

모놀리식 Hive DWH를 도메인별 연합 데이터베이스로 분리:

  • 16,000+ 데이터셋, 10PB 규모의 중앙 집중 Hive의 문제: 연쇄 장애, 노이지 네이버, 과도한 권한
  • 포인터 조작: 데이터를 복사하지 않고 Hive Metastore 포인터만 변경하여 무중단 마이그레이션
  • 도메인 팀에 DB 운영 권한 위임 → 인시던트 대응 속도 향상
  • 최소 권한 접근 제어(ACL) 달성

연관 개념


Source: LogSentinel LLM-Powered PII Detection and Governance, Database Federation - Decentralized and ACL-Compliant Hive Databases