LLM Fine-Tuning

사전 학습된 LLM을 도메인 데이터로 추가 학습하여 특화된 성능을 달성하는 기법


핵심 개념

LLM Fine-Tuning은 범용 사전 학습 모델의 가중치를 도메인 특화 데이터로 업데이트하여, 프롬프트 엔지니어링만으로는 달성할 수 없는 성능·비용·프라이버시 요구를 충족하는 기법이다. 프롬프트 기반 → SFT(Supervised Fine-Tuning) → RL(Reinforcement Learning) 순으로 진행하며, 각 단계에서 비용 대비 효과를 평가한다.

프롬프트 vs. SFT vs. RL

접근장점단점
프롬프트 엔지니어링빠른 구축, 유연한 적용외부 API 의존, 느린 추론, 프라이버시 우려
SFT (Supervised Fine-Tuning)데이터 내부 유지, 빠른 추론, 행동 제어레이블 데이터 필요, 학습 인프라 필요
RL (Reinforcement Learning)인간 레이블 없이 자기 개선보상 설계 어려움, 학습 불안정

Booking.com — SFT 기반 여행 추천

접근

  • 7B 파라미터 오픈소스 모델을 LoRA/QLoRA로 파인튜닝
  • 대화 내용 + 사용자 컨텍스트(위치 등)를 입력으로 사용
  • 레이블 설계: 예약 > 클릭 > 조회 순으로 우선순위. LLM-as-Judge로 관련성 검증

핵심 기법

  • K 제어: 학습 샘플에 원하는 추천 수를 정수로 prepend → 모델이 정확히 K개 추천 생성 학습
  • 컨텍스트 추가 효과: 사용자 위치 추가만으로 Hit@5 8% 향상 (4일 여행에 장거리 목적지 제거)

결과

  • p99 추론 지연 67% 감소 (약 3배 빠름)
  • 프롬프트 기반 + 전통 ML 하이브리드 대비 추천 품질 향상
  • 내부 호스팅으로 프라이버시 보호

Netflix — LLM Post-Training 스케일링

SFT에서 RL로의 진화

  • 초기: SFT로 도메인 특화 시작
  • 이후: 인간 레이블 비용을 줄이기 위해 RL로 전환
  • 4.7x 학습 처리량 향상으로 대규모 실험 가능

인프라 최적화

  • GPU 활용률 극대화를 위한 학습 파이프라인 최적화
  • 여러 학습 단계(SFT → 보상 모델 → RL)의 효율적 파이프라인 구성

Parameter-Efficient Fine-Tuning (PEFT)

LoRA (Low-Rank Adaptation)

  • 기본 모델 가중치를 동결하고, 저랭크 행렬만 학습
  • 학습 파라미터 수를 0.1~1%로 줄임
  • 여러 도메인 어댑터를 하나의 기본 모델에 적재 가능

QLoRA

  • LoRA + 4비트 양자화로 메모리 사용량 추가 절감
  • 소비자급 GPU에서도 7B 모델 파인튜닝 가능

언제 파인튜닝하는가

상황권장 접근
빠른 프로토타이핑프롬프트 엔지니어링
민감 데이터 + 낮은 지연 요구SFT with LoRA/QLoRA
인간 레이블 부족 + 자기 개선 필요RL (보상 함수 설계 가능 시)
규모 확장 + 비용 최적화작은 모델 SFT > 큰 모델 프롬프트

연관 개념


Source: Booking.com SFT Travel Recommendations, Scaling LLM Post-Training at Netflix