ML Ranking Systems

검색, 광고, 추천에서 다중 목표를 최적화하는 ML 순위 시스템


핵심 개념

ML 순위 시스템은 CTR(클릭률), 전환율, 관련성 등 여러 목표를 동시에 최적화해야 한다. 단일 목표 최적화는 다른 지표를 저하시키는 경우가 많아, 멀티태스크 학습과 구조화된 모델 아키텍처가 필요하다.

패턴: MMoE (Multi-gate Mixture-of-Experts)

Etsy의 광고 순위 시스템이 대표적 사례:

  • 전문가 네트워크: 여러 expert 네트워크가 각각 특화된 표현을 학습
  • 게이트 메커니즘: 각 태스크(CTR, 구매 예측)별 게이트가 expert를 선택적으로 가중 조합
  • 보조 태스크: 희소한 구매 시그널을 보강하기 위해 장바구니 추가(add-to-cart)를 보조 태스크로 활용
  • 결과: 구매 AUC 3.5% ↑, 클릭 AUC 1% ↑, 모델 프루닝으로 추론 비용 절감

패턴: Bayesian Trees (희소 데이터)

Lyft의 승객 전환율 예측 사례:

  • 문제: 위치×시간×수요 조합의 롱테일에서 일반 ML 모델이 과적합
  • 계층적 컨텍스트: Bayesian Tree가 컨텍스트를 계층적으로 조직
  • Gaussian Prior + L2 정규화: 데이터가 충분한 리프는 로컬 정확도, 희소한 리프는 부모 노드의 안정된 신호로 퇴보
  • 단조성 제약(Monotonicity): 일관되고 해석 가능한 예측 보장

패턴: Hetero-MMoE (이종 전문가)

Uber의 광고 개인화 시스템이 기존 MMoE를 진화시킨 사례:

  • 이종 전문가: MLP, Deep Cross Network, Compressed Interaction Network 등 서로 다른 유형의 expert를 혼합하여 저/고차 피처 상호작용 모두 포착
  • Sequential Modeling: 정적 집계 피처 대신 타겟 인지 트랜스포머로 시간적 역학 포착
  • Multi-head Latent Attention(MLA): O(N²) → 선형 복잡도로 시퀀스 처리 효율화
  • 참여도, 광고주 성과, 마켓플레이스 건전성을 동시 최적화

시맨틱 피드 랭킹

LinkedIn의 차세대 피드 시스템은 이질적인 검색 신호를 시맨틱 표현(semantic representation)으로 통합하여 수십억 사용자 대상 서브초 지연시간을 달성한다.

트레이드오프

접근법강점약점
MMoE다중 목표 동시 최적화, 태스크 간 간섭 감소게이트 학습 복잡, expert 수 튜닝 필요
Bayesian Trees희소 데이터에 강건, 해석 가능대규모 피처에 스케일링 어려움
Hetero-MMoE이종 expert로 다양한 상호작용 포착아키텍처 복잡도 증가
단일 모델 멀티태스크단순목표 간 충돌 시 성능 저하

연관 개념


Source: Making Ads Count, Predicting Rider Conversion in Sparse Data Environments with Bayesian Trees, Transforming Ads Personalization with Sequential Modeling and Hetero-MMoE, Engineering the Next Generation of LinkedIns Feed