Data Quality and Validation

데이터 파이프라인의 각 단계에서 정확성·일관성·완전성을 검증하는 체계

핵심 개념

데이터 품질 검증은 파이프라인의 단일 단계가 아니라, 인제스션부터 서빙까지 다계층으로 실행되어야 한다. 조용한 데이터 손상(silent data corruption)이 비즈니스 의사결정을 왜곡하기 전에 탐지하는 것이 목표다. Netflix와 Halodoc의 사례에서 공통적으로 나타나는 원칙은 “검증을 파이프라인에 내재화”하는 것이다.

Netflix Data Canary — 메타데이터 검증

Netflix의 카탈로그 메타데이터(제목, 설명, 장르, 아트워크 등)를 자동 검증하는 시스템:

검증 접근

카탈로그 변경 이벤트 기반 트리거 — 배치가 아닌 이벤트 드리븐
변경 전후 메타데이터를 비교하여 이상 탐지
규칙 기반 검증 + 통계적 이상 탐지를 결합
이상 발견 시 자동 알림 및 변경 차단(gate) 가능

핵심 교훈

업스트림 시스템의 변경이 예고 없이 전파되는 것이 가장 큰 위험
메타데이터 품질이 추천·검색·UI에 직접 영향
“데이터가 맞다고 가정하지 말라” — 항상 검증

Halodoc — 4계층 데이터 검증

Halodoc은 RDS → Data Lake → DWH → 서빙 시스템 전 구간에 걸쳐 4계층 검증을 구축:

계층	검증 대상	방식
Layer 1: Pulse Check	RDS ↔ Data Lake 일관성	시간 바운드 카운트 비교
Layer 2: 구조적 검증	Processed → DWH 완전성	AI가 변환 SQL을 분석해 검증 쿼리 자동 생성
Layer 3: 비즈니스 검증	DWH → Presentation	중복 키, null 제약, 도메인 값 규칙
Layer 4: 대사 (Reconciliation)	내부 시스템 간 정합성	설정 기반 매핑으로 스키마 차이 극복

AI 활용

변환 SQL을 분석하여 기본 검증 쿼리를 AI가 자동 생성
엔지니어가 리뷰·승인 후 실행
수동 작성 대비 검증 커버리지 확대 + 엔지니어링 부담 감소

검증 설계 원칙

다계층 검증: 인제스션, 변환, 서빙 각 단계에서 독립적 검증
시간 바운드 비교: 파이프라인 지연을 고려한 created_at 윈도우 기반 비교
설정 기반 규칙: 하드코딩 대신 컨트롤 테이블로 검증 규칙 관리
실패 시 차단: 검증 실패 시 하류 전파를 자동 차단 (gate)
추세 모니터링: 단일 검증 결과뿐 아니라 시간에 따른 품질 추세 추적

Booking.com — 실험 품질 스케일링

대규모 A/B 테스팅에서 데이터 품질은 검증뿐 아니라 실험 설계에서도 중요하다. Booking.com은 설계→실행→의사결정 전 단계에 품질을 내재화:

Quality Tab: 검정력 계산(power calculation)과 사전 등록 가설을 실시간 강제하는 도구
데이터 사이언스 앰배서더: 팀별 통계 전문가 상주
가장 큰 ROI는 설계 단계 — 적절한 통계적 검정력이 결과 신뢰성을 직접 결정

연관 개념

Data Contracts — 생산자-소비자 간 품질 기대 명시
Distributed Systems Reliability — 조용한 장애 방지
Medallion Architecture — 계층별 품질 보증
A-B Testing and Experimentation — 실험 품질 체계

Source: The Data Canary - Netflix Catalog Validation, Halodoc Data Validation Strategy, Scaling Experimentation Quality at Booking.com

Data Eng Wiki

탐색기

Data Quality and Validation

Data Quality and Validation

핵심 개념

Netflix Data Canary — 메타데이터 검증

검증 접근

핵심 교훈

Halodoc — 4계층 데이터 검증

AI 활용

검증 설계 원칙

관련 도구/프레임워크

Booking.com — 실험 품질 스케일링

연관 개념

그래프 뷰

목차

백링크