ML Ranking Systems
검색, 광고, 추천에서 다중 목표를 최적화하는 ML 순위 시스템
핵심 개념
ML 순위 시스템은 CTR(클릭률), 전환율, 관련성 등 여러 목표를 동시에 최적화해야 한다. 단일 목표 최적화는 다른 지표를 저하시키는 경우가 많아, 멀티태스크 학습과 구조화된 모델 아키텍처가 필요하다.
패턴: MMoE (Multi-gate Mixture-of-Experts)
Etsy의 광고 순위 시스템이 대표적 사례:
- 전문가 네트워크: 여러 expert 네트워크가 각각 특화된 표현을 학습
- 게이트 메커니즘: 각 태스크(CTR, 구매 예측)별 게이트가 expert를 선택적으로 가중 조합
- 보조 태스크: 희소한 구매 시그널을 보강하기 위해 장바구니 추가(add-to-cart)를 보조 태스크로 활용
- 결과: 구매 AUC 3.5% ↑, 클릭 AUC 1% ↑, 모델 프루닝으로 추론 비용 절감
패턴: Bayesian Trees (희소 데이터)
Lyft의 승객 전환율 예측 사례:
- 문제: 위치×시간×수요 조합의 롱테일에서 일반 ML 모델이 과적합
- 계층적 컨텍스트: Bayesian Tree가 컨텍스트를 계층적으로 조직
- Gaussian Prior + L2 정규화: 데이터가 충분한 리프는 로컬 정확도, 희소한 리프는 부모 노드의 안정된 신호로 퇴보
- 단조성 제약(Monotonicity): 일관되고 해석 가능한 예측 보장
패턴: Hetero-MMoE (이종 전문가)
Uber의 광고 개인화 시스템이 기존 MMoE를 진화시킨 사례:
- 이종 전문가: MLP, Deep Cross Network, Compressed Interaction Network 등 서로 다른 유형의 expert를 혼합하여 저/고차 피처 상호작용 모두 포착
- Sequential Modeling: 정적 집계 피처 대신 타겟 인지 트랜스포머로 시간적 역학 포착
- Multi-head Latent Attention(MLA): O(N²) → 선형 복잡도로 시퀀스 처리 효율화
- 참여도, 광고주 성과, 마켓플레이스 건전성을 동시 최적화
시맨틱 피드 랭킹
LinkedIn의 차세대 피드 시스템은 이질적인 검색 신호를 시맨틱 표현(semantic representation)으로 통합하여 수십억 사용자 대상 서브초 지연시간을 달성한다.
트레이드오프
| 접근법 | 강점 | 약점 |
|---|---|---|
| MMoE | 다중 목표 동시 최적화, 태스크 간 간섭 감소 | 게이트 학습 복잡, expert 수 튜닝 필요 |
| Bayesian Trees | 희소 데이터에 강건, 해석 가능 | 대규모 피처에 스케일링 어려움 |
| Hetero-MMoE | 이종 expert로 다양한 상호작용 포착 | 아키텍처 복잡도 증가 |
| 단일 모델 멀티태스크 | 단순 | 목표 간 충돌 시 성능 저하 |
연관 개념
- AI Agent
- Ad Tech Data Infrastructure
- Generative Recommender Systems — 시퀀스 기반 자기회귀 추천
- Multimodal Search — 멀티모달 임베딩 기반 랭킹
Source: Making Ads Count, Predicting Rider Conversion in Sparse Data Environments with Bayesian Trees, Transforming Ads Personalization with Sequential Modeling and Hetero-MMoE, Engineering the Next Generation of LinkedIns Feed