Data Quality and Validation

데이터 파이프라인의 각 단계에서 정확성·일관성·완전성을 검증하는 체계


핵심 개념

데이터 품질 검증은 파이프라인의 단일 단계가 아니라, 인제스션부터 서빙까지 다계층으로 실행되어야 한다. 조용한 데이터 손상(silent data corruption)이 비즈니스 의사결정을 왜곡하기 전에 탐지하는 것이 목표다. Netflix와 Halodoc의 사례에서 공통적으로 나타나는 원칙은 “검증을 파이프라인에 내재화”하는 것이다.

Netflix Data Canary — 메타데이터 검증

Netflix의 카탈로그 메타데이터(제목, 설명, 장르, 아트워크 등)를 자동 검증하는 시스템:

검증 접근

  • 카탈로그 변경 이벤트 기반 트리거 — 배치가 아닌 이벤트 드리븐
  • 변경 전후 메타데이터를 비교하여 이상 탐지
  • 규칙 기반 검증 + 통계적 이상 탐지를 결합
  • 이상 발견 시 자동 알림 및 변경 차단(gate) 가능

핵심 교훈

  • 업스트림 시스템의 변경이 예고 없이 전파되는 것이 가장 큰 위험
  • 메타데이터 품질이 추천·검색·UI에 직접 영향
  • “데이터가 맞다고 가정하지 말라” — 항상 검증

Halodoc — 4계층 데이터 검증

Halodoc은 RDS → Data Lake → DWH → 서빙 시스템 전 구간에 걸쳐 4계층 검증을 구축:

계층검증 대상방식
Layer 1: Pulse CheckRDS ↔ Data Lake 일관성시간 바운드 카운트 비교
Layer 2: 구조적 검증Processed → DWH 완전성AI가 변환 SQL을 분석해 검증 쿼리 자동 생성
Layer 3: 비즈니스 검증DWH → Presentation중복 키, null 제약, 도메인 값 규칙
Layer 4: 대사 (Reconciliation)내부 시스템 간 정합성설정 기반 매핑으로 스키마 차이 극복

AI 활용

  • 변환 SQL을 분석하여 기본 검증 쿼리를 AI가 자동 생성
  • 엔지니어가 리뷰·승인 후 실행
  • 수동 작성 대비 검증 커버리지 확대 + 엔지니어링 부담 감소

검증 설계 원칙

  1. 다계층 검증: 인제스션, 변환, 서빙 각 단계에서 독립적 검증
  2. 시간 바운드 비교: 파이프라인 지연을 고려한 created_at 윈도우 기반 비교
  3. 설정 기반 규칙: 하드코딩 대신 컨트롤 테이블로 검증 규칙 관리
  4. 실패 시 차단: 검증 실패 시 하류 전파를 자동 차단 (gate)
  5. 추세 모니터링: 단일 검증 결과뿐 아니라 시간에 따른 품질 추세 추적

관련 도구/프레임워크

  • Great Expectations: 파이썬 기반 기대치 정의 및 검증
  • Soda: SQL 기반 데이터 품질 검사
  • dbt tests: 변환 레이어의 내장 검증
  • 커스텀 솔루션: Netflix Data Canary, Halodoc 4계층 (도메인 특화 요구 시)

Booking.com — 실험 품질 스케일링

대규모 A/B 테스팅에서 데이터 품질은 검증뿐 아니라 실험 설계에서도 중요하다. Booking.com은 설계→실행→의사결정 전 단계에 품질을 내재화:

  • Quality Tab: 검정력 계산(power calculation)과 사전 등록 가설을 실시간 강제하는 도구
  • 데이터 사이언스 앰배서더: 팀별 통계 전문가 상주
  • 가장 큰 ROI는 설계 단계 — 적절한 통계적 검정력이 결과 신뢰성을 직접 결정

연관 개념


Source: The Data Canary - Netflix Catalog Validation, Halodoc Data Validation Strategy, Scaling Experimentation Quality at Booking.com