AI Agent
LLM을 추론 엔진으로 사용하여 자율적으로 다단계 작업을 수행하는 시스템
핵심 개념
AI Agent는 단순한 프롬프트-응답 패턴을 넘어, LLM이 도구를 호출하고, 상태를 관리하며, 장기 목표를 향해 자율적으로 작업을 수행하는 시스템이다. 2025~2026년에 프로덕션 배포가 본격화되면서, 평가(eval), 메모리, 비용 관리가 핵심 과제로 부상했다.
프로덕션 에이전트 사례
Meta REA (Ranking Engineer Agent)
광고 랭킹 모델의 가설 생성부터 실험 실행, 디버깅까지 자율 수행한다. Dual-Source Hypothesis Engine이 과거 실험과 새 ML 논문을 결합하고, 비용 인지 계획(cost-aware planning)으로 리소스를 관리한다. 3명의 엔지니어가 8개 프로덕션 모델을 유지하는 5x 생산성 향상을 달성했다.
Meta AI Analytics Agent
분석 쿼리 워크로드를 자동화한다. 사용자별 과거 쿼리 로그로 메모리를 구축하고, 도메인 지식을 cookbook-recipe-ingredient 계층으로 구조화한다. 커뮤니티가 작성한 레시피가 도메인을 확장하며, 6개월 내 77% 주간 채택률을 달성했다.
LinkedIn Cognitive Memory Agent
대화(conversational), 에피소드(episodic), 의미(semantic), 절차(procedural) 4개 메모리 레이어를 통합한다. 스트리밍+배치 파이프라인으로 활동 추적을 수집하고, LLM 오케스트레이터가 4개 레이어를 교차 추론한다.
에이전트 평가 (Eval)
LangChain의 Deep Agent 평가 프레임워크가 대표적이다:
- 행동 중심 eval: 프로덕션 에러에서 테스트 케이스를 추출
- 이중 메트릭: 정확성(correctness) + Ideal Trajectory 비율(효율성)
- 실행: pytest 태그로 eval 서브셋 실행, LangSmith로 모든 실행 추적
- 벤치마크 점수 최적화보다 특정 프로덕션 행동 타겟팅이 핵심
에이전트 표준화
Agent Format (Snap Engineering)
에이전트 정의(definition)와 구현(implementation)을 분리하는 선언적 오픈 표준이다. POMDP 프레임워크 기반으로 메타데이터, 인터페이스, 액션 스페이스, 실행 정책, 제약 조건을 .agf.yaml 파일로 선언한다.
- 6가지 실행 정책: ReAct, sequential, parallel, loop, batch, conditional
- “tighten-only invariant” — 하위 에이전트가 상위의 제약을 초과할 수 없음
- MCP(도구 접근) + A2A(에이전트 간 통신) + Agent Format(에이전트 정의)이 상호 보완
AI와 혼합 일관성 (Mixed Consistency)
에이전트의 파일 기반 시스템 설계에서 일관성 모델이 가장 큰 공백으로 지적된다 (Hellerstein). 시스템의 각 부분이 용도에 따라 서로 다른 일관성 보장을 제공하는 혼합 일관성 접근이 필요하다.
AI + Data Engineer 협업
Claude Code로 프로덕션급 dbt 프로젝트를 빌드한 실험(Robin Moffatt)에서, AI가 자율 디버깅과 반복 개선에 강하지만 API 페이지네이션 누락, 중요 컬럼 드롭 등 데이터 품질 이슈는 사람 DE가 잡아야 한다는 점이 확인됐다. “DE + AI > DE” — AI는 대체재가 아닌 배율기.
에이전트 런북과 절차적 메모리
더 큰 컨텍스트 윈도우가 아니라 구조화된 런북(절차적 메모리)이 에이전트의 신뢰성을 결정한다 (Ben Lorica). “lost-in-the-middle” 효과로 초점화된 스니펫이 긴 문서 대비 2배 정확도를 보인다. 핵심 아키텍처:
- 영구 절차적 메모리: 성공한 워크플로우를 버저닝하여 저장
- 인덱스드 도구 발견: 태스크별로 관련 도구만 로딩
- 추론-실행 분리: 비용이 큰 모델 추론을 진정으로 새로운 문제에만 사용
- 반복 실행 시 토큰 소비 90% 이상 절감 가능
에이전틱 개발 플레이북
프로덕션 에이전트 개발의 체계적 접근 (InfoQ):
- 프롬프트 프로토타이핑 → 도구 통합 → 에이전트 루프 → 평가 → 배포의 단계적 성숙
- 각 단계에서 관찰 가능성(observability)과 가드레일 설계가 핵심
멀티에이전트 아키텍처
Spotify — 광고 최적화 멀티에이전트
여러 전문화된 에이전트가 협업하여 광고 캠페인을 최적화한다:
- 각 에이전트가 독립적 도메인(예산, 타겟팅, 크리에이티브) 담당
- 오케스트레이터가 에이전트 간 조율
- 단일 에이전트 대비 도메인별 전문성과 장애 격리 확보
에이전트 시장 분석
AI 에이전트 시장의 절반이 단일 카테고리(코딩/개발)에 집중되어 있으며, 나머지 영역은 아직 광범위하게 열려 있다.
에이전트 메모리 설계
LangChain Agent Builder의 메모리 패턴:
- 단기 메모리: 현재 대화/세션 컨텍스트
- 장기 메모리: 사용자 선호, 과거 상호작용 패턴
- 절차적 메모리: 학습된 워크플로우와 런북
- 메모리 유형별로 저장소와 업데이트 전략이 다름
핵심 설계 원칙
- 구조화된 컨텍스트: 에이전트에게 무제한 컨텍스트를 주는 것보다, 계층적으로 구조화된 지식을 제공하는 것이 효과적
- 메모리 분리: 대화/에피소드/의미/절차 등 목적별 메모리 레이어 분리
- 비용 인지 계획: 장기 실행 에이전트는 리소스 비용을 계획에 반영해야 함
- 행동 기반 평가: 벤치마크보다 실제 프로덕션 실패 패턴 기반 eval이 신뢰도 높음
- 선언적 정의 분리: 에이전트의 정의와 구현을 분리하여 이식성과 거버넌스 확보
에이전트 보안 및 거버넌스
Least-Privilege AI Agent Gateway (Nabin Debnath)
AI가 인프라를 자동화할 때 발생하는 권한 남용 문제를 3단 아키텍처로 해결:
- MCP 게이트웨이: 모든 요청을 매개하고 인가 적용
- OPA 정책 엔진: 선언적 RBAC, 안전 규칙, 변경 윈도우 제한
- 에페머럴 러너: 쿠버네티스 네임스페이스에서 격리 실행 후 무조건 삭제
- SLO: 정책 결정 <100ms, 러너 시작 <2s, 거부된 액션 ≤2%
- “안전성은 더 스마트한 모델보다 명시적이고 시행 가능한 경계를 통해 개선된다”
OpenClaw Architecture (Vinoth Govindarajan)
프로덕션 AI 에이전트의 상태 관리 패턴:
- 격리된 실행 컨텍스트로 단기 컨텍스트와 영구 상태를 명확히 분리
- 세션(session)을 통한 비동기 일시정지-재개 시맨틱으로 장기 실행 에이전트 지원
- 엄격한 불변성(invariant)으로 상태 누수 방지
Meta — 멀티에이전트 암묵지 문서화
Meta는 50+ 특화 AI 에이전트를 다단계로 오케스트레이션하여 데이터 파이프라인의 암묵지(tribal knowledge)를 자동 문서화했다:
접근
- 탐색 → 분석 → 작성 → 비평 → 수정 → 테스트의 다단계 에이전트 파이프라인
- 모듈당 5가지 핵심 질문으로 구조화: 구성 내용, 수정 패턴, 빌드 실패 원인, 교차 의존성, 암묵지
”Compass, Not Encyclopedia” 원칙
- 파일당 25-35줄(~1,000 토큰)으로 간결하게 유지
- Quick Commands, Key Files, Non-Obvious Patterns, See Also 4개 섹션
- 59개 파일이 모델 컨텍스트 윈도우의 0.1% 미만 사용
결과
- AI 컨텍스트 커버리지: 5% → 100%
- 에이전트 도구 호출·토큰 사용 40% 감소
- 2일 → 30분으로 복잡 워크플로우 단축
- 주기적 자동 갱신으로 컨텍스트 부패(context decay) 방지
Data Agent — 능동적 분석 에이전트
대시보드의 수동적 보고를 넘어 의도를 해석하고, 변화를 모니터링하며, 가드레일 내에서 제한된 행동을 취하는 분석 시스템:
- 3가지 차별점: (1) 연속 실행 (분 단위 모니터링), (2) 의사결정 인접 (원인 분석 + 다음 단계 제안), (3) 명시적 가드레일
- Microsoft 팀 사례: 5개 도메인별 자식 에이전트 + 부모 오케스트레이터, 롤링 타임 윈도우(1/7/28일) 가드레일
- 신뢰 확보 4원칙: 작업 과정 공개, 불확실성 인정, 결정·행동 로깅, 고위험·모호 시 인간 핸드오프
- 도입 시점 판단: 빈번한 의사결정 + 시간 민감 + 연속 모니터링이 필요한 경우에 적합, 일회성 분석이나 데이터 기반이 미비하면 부적절
AI 에이전트의 보험 리스크
보험업계에서 AI 에이전트의 비결정적 출력과 추론 불투명성으로 인해 사이버보안·E&O 보험 커버리지가 축소되고 있다:
- 거버넌스된 AI(모니터링·롤백 있음)는 보험 가능, 무감독 자율 에이전트는 보험 거부
- AI 벤더는 인수 자체를 거부, AI 사용 기업은 예외 조항 삽입
- 실무: AI 사용 현황을 솔직히 공개해야 사후 클레임 거부 방지
Agentic Search — 에이전트 기반 검색
LLM 에이전트가 BM25/임베딩 검색 도구를 구동하여 전통적 검색 스택을 대체하는 패턴:
- BM25 기본선(0.289) → GPT-5 + BM25+임베딩 에이전트(0.453) — 42% NDCG 향상
- 에이전트가 검색 결과를 해석하고, 키워드 검색의 인과관계를 이용해 쿼리를 반복 개선
- 탐색 강제: 최소 4회 도구 호출 + 유사 쿼리 차단으로 추가 개선(0.410→0.431)
- 한계: 정보 검색(MSMarco)에서는 개선 없음 — 에이전트가 모르는 정보는 평가 불가
- “물건 찾기” vs “정보 찾기”: 전자는 에이전트가 강하고, 후자는 전통 검색 스택이 여전히 우세
AI Second Brain (Meta)
60,000명이 사용하는 Claude Code 기반 지식 작업자 생산성 시스템:
- PARA 워크스페이스: Projects/Areas/Resources/Archives로 구조화된 파일시스템이 에이전트의 컨텍스트 맵 역할
- Progressive Disclosure: 루트 CLAUDE.md로 시작, 필요 시 프로젝트별 CLAUDE.md 로딩 — 컨텍스트 낭비 방지
- MCP/CLI 인프라 레이어: 내부 도구(문서, 메시징, 태스크, 코드리뷰)에 인증된 접근 제공
- Skills as Markdown: /para-init, /read-meeting-notes, /debrief:team 등 재사용 가능한 워크플로우
- 바이럴 확산: 비기술 PM의 가이드 포스트 → 3개월 내 63,000 설치, 9개 직군별 패키지
- 핵심 교훈: 인프라 우선(에이전트는 접근 가능한 시스템만큼만 유용), 저마찰 온보딩, 컴포저빌리티가 기능보다 가치 있음
Informatica CLAIRE — 엔터프라이즈 멀티에이전트 데이터 관리
단일 에이전트의 한계를 넘어 50-60개 모델 콜을 조율하는 프로덕션 멀티에이전트 시스템:
- 오케스트레이션 에이전트: 의도 감지, 계획 생성, 전문 에이전트 라우팅의 컨트롤 플레인
- 전문화된 에이전트: 데이터 품질(프로파일링, 규칙 추천, 생성, 클렌징), 디스커버리, 거버넌스 각각 전용 도구셋 보유
- 시맨틱 레이어: 엔티티 해석, 의도 분해, 메타데이터 보강 → 각 에이전트에 정확한 컨텍스트만 전달
- 검증 체크포인트: 에이전트 간 엄격한 데이터 계약과 입출력 검증으로 장애 전파 차단
- 결과: 태스크 성공률 90%, 그라운딩 정확도 98%, 환각률 1%
- 3개월 → 수일로 워크플로우 단축, 배경/헤드리스 실행도 지원
연관 개념
- MCP (Model Context Protocol)
- Context Engineering
- LLM-as-Judge
- LLM Evaluation
- LLM Platform Engineering — LLM 에이전트의 프로덕션 인프라(velocity, reliability, trust)
- AI Self-Serve Analytics
- Ad Tech Data Infrastructure
- Data Governance
- Knowledge Representation
- ML Ranking Systems
- Multimodal Search
- RAG
Source: Ranking Engineer Agent REA, Inside Metas Home-Grown AI Analytics Agent, The LinkedIn Generative AI Application Tech Stack, How We Build Evals for Deep Agents, Agent Format A Declarative Standard for AI Agents, AI and the Mixed-Consistency Future, Claude Code Isnt Going to Replace Data Engineers Yet, Nabin Debnath - Building a Least-Privilege AI Agent Gateway, Vinoth Govindarajan - OpenClaw Architecture, Your agents need runbooks, not bigger context windows, From Prompts to Production - A Playbook for Agentic Development, Half the AI Agent Market Is One Category, Our Multi-Agent Architecture for Smarter Advertising, How to Use Memory in Agent Builder, How Meta Used AI to Map Tribal Knowledge, Data Agents When Enterprise Analytics Learns to Reason, Insurance Carriers Quietly Back Away from Covering AI Outputs, Can Agents Replace the Search Stack, AI Second Brain at Meta, Informatica Multi-Agent AI System