LLM-as-Judge

LLM을 평가자로 활용하여 검색 관련성, 콘텐츠 품질 등을 대규모로 판정하는 기법


핵심 개념

LLM-as-Judge는 사람 평가자 대신 LLM이 품질 판정을 수행하는 패턴이다. 검색 결과 관련성, 생성 텍스트 품질, 데이터 정확성 등 다양한 평가 작업에 적용된다. 수천~수만 건의 평가를 수 시간 내에 저비용으로 수행할 수 있어, 새로운 시장 진출이나 모델 전환 시 특히 유용하다.

프로덕션 사례

Zalando — 검색 품질 보증

신규 시장 출시 전 검색 품질을 사전 검증한 사례:

  • NER 태그 기반 검색 쿼리 클러스터링 → LLM으로 다국어 번역 → GPT-4o가 멀티모달(메타데이터+이미지) 평가
  • 0~4 관련성 척도로 1,500 검색 세그먼트(37,500 결과) 평가
  • 3~5시간, $250 비용으로 3개 신규 시장(룩셈부르크, 포르투갈, 그리스) 검증
  • NER 레머타이제이션 오류, 누락된 용어, 잘못된 상품 데이터 등 사전 발견

Dropbox Dash — DSPy 프롬프트 최적화

관련성 판정 프롬프트를 체계적으로 최적화한 사례:

  • NMSE(Normalized Mean Squared Error)로 사람 판정과의 차이를 측정
  • DSPy GEPA 옵티마이저로 프롬프트 자동 개선 루프
  • 결과: 관련성 오류 45% 감소, JSON 형식 오류 97% 감소
  • 모델 전환(o3 → gpt-oss-120b) 소요 시간: 12주 → 12일
  • 10~100배 더 많은 데이터를 같은 비용으로 레이블링 가능

핵심 설계 원칙

  1. 측정 가능한 목적 함수 정의: NMSE 등 사람 판정과의 정량적 비교 메트릭 필수
  2. 구조적 신뢰성: JSON 파싱 실패 등 형식 오류는 평가 불능으로 직결
  3. 체계적 프롬프트 최적화: 수동 튜닝보다 DSPy 같은 자동화 프레임워크가 효과적
  4. 과적합 방지: 학습 예시의 특정 키워드가 프롬프트에 복사되지 않도록 가드레일 필요
  5. 점진적 개선: 프로덕션 judge는 전면 재작성보다 instruction bullet 추가 방식이 안전

한계와 주의사항

  • Judge 편향: LLM 자체의 편향이 존재하며, 특정 토큰/패턴에 과적합 가능
  • Judge 드리프트: 시간 경과에 따라 판정 기준이 미묘하게 변할 수 있음 — 주기적 사람 평가자 교차 검증 필요
  • 비용 비교: LLM judge 비용은 사람 대비 10~100배 저렴하나, 정밀도가 필요한 도메인(의료, 법률)에서는 사람 검증 필수
  • 합성 벤치마크보다 실제 프로덕션 데이터 기반 평가가 신뢰도 높음
  • 도메인 전문가가 평가 기준을 정의하고, LLM은 실행만 담당하는 구조가 이상적

연관 개념


Source: Search Quality Assurance with LLM Judge, Optimizing Dropbox Dash Relevance Judge with DSPy