LLM Fine-Tuning
사전 학습된 LLM을 도메인 데이터로 추가 학습하여 특화된 성능을 달성하는 기법
핵심 개념
LLM Fine-Tuning은 범용 사전 학습 모델의 가중치를 도메인 특화 데이터로 업데이트하여, 프롬프트 엔지니어링만으로는 달성할 수 없는 성능·비용·프라이버시 요구를 충족하는 기법이다. 프롬프트 기반 → SFT(Supervised Fine-Tuning) → RL(Reinforcement Learning) 순으로 진행하며, 각 단계에서 비용 대비 효과를 평가한다.
프롬프트 vs. SFT vs. RL
| 접근 | 장점 | 단점 |
|---|---|---|
| 프롬프트 엔지니어링 | 빠른 구축, 유연한 적용 | 외부 API 의존, 느린 추론, 프라이버시 우려 |
| SFT (Supervised Fine-Tuning) | 데이터 내부 유지, 빠른 추론, 행동 제어 | 레이블 데이터 필요, 학습 인프라 필요 |
| RL (Reinforcement Learning) | 인간 레이블 없이 자기 개선 | 보상 설계 어려움, 학습 불안정 |
Booking.com — SFT 기반 여행 추천
접근
- 7B 파라미터 오픈소스 모델을 LoRA/QLoRA로 파인튜닝
- 대화 내용 + 사용자 컨텍스트(위치 등)를 입력으로 사용
- 레이블 설계: 예약 > 클릭 > 조회 순으로 우선순위. LLM-as-Judge로 관련성 검증
핵심 기법
- K 제어: 학습 샘플에 원하는 추천 수를 정수로 prepend → 모델이 정확히 K개 추천 생성 학습
- 컨텍스트 추가 효과: 사용자 위치 추가만으로 Hit@5 8% 향상 (4일 여행에 장거리 목적지 제거)
결과
- p99 추론 지연 67% 감소 (약 3배 빠름)
- 프롬프트 기반 + 전통 ML 하이브리드 대비 추천 품질 향상
- 내부 호스팅으로 프라이버시 보호
Netflix — LLM Post-Training 스케일링
SFT에서 RL로의 진화
- 초기: SFT로 도메인 특화 시작
- 이후: 인간 레이블 비용을 줄이기 위해 RL로 전환
- 4.7x 학습 처리량 향상으로 대규모 실험 가능
인프라 최적화
- GPU 활용률 극대화를 위한 학습 파이프라인 최적화
- 여러 학습 단계(SFT → 보상 모델 → RL)의 효율적 파이프라인 구성
Parameter-Efficient Fine-Tuning (PEFT)
LoRA (Low-Rank Adaptation)
- 기본 모델 가중치를 동결하고, 저랭크 행렬만 학습
- 학습 파라미터 수를 0.1~1%로 줄임
- 여러 도메인 어댑터를 하나의 기본 모델에 적재 가능
QLoRA
- LoRA + 4비트 양자화로 메모리 사용량 추가 절감
- 소비자급 GPU에서도 7B 모델 파인튜닝 가능
언제 파인튜닝하는가
| 상황 | 권장 접근 |
|---|---|
| 빠른 프로토타이핑 | 프롬프트 엔지니어링 |
| 민감 데이터 + 낮은 지연 요구 | SFT with LoRA/QLoRA |
| 인간 레이블 부족 + 자기 개선 필요 | RL (보상 함수 설계 가능 시) |
| 규모 확장 + 비용 최적화 | 작은 모델 SFT > 큰 모델 프롬프트 |
연관 개념
- LLM Evaluation — 파인튜닝 결과 평가
- ML Ranking Systems — 추천/랭킹에서의 LLM 활용
- Generative Recommender Systems — 추천 시스템의 모델 학습
Source: Booking.com SFT Travel Recommendations, Scaling LLM Post-Training at Netflix