Data Engineering Wiki

Data Engineering Weekly 아티클에서 추출한 개념과 인사이트를 정리하는 위키


Topics

토픽설명
AI in Data EngineeringAI/LLM이 데이터 엔지니어링을 변화시키는 방식
Data Infrastructure Patterns대규모 데이터 시스템의 반복 아키텍처 패턴
Data Reliability and Trust파이프라인 전반의 데이터 정확성·일관성·신뢰 확보 전략
LLM in ProductionLLM 학습·서빙·평가·검색의 프로덕션 엔지니어링 패턴

개념 위키 (Concept Pages)

페이지핵심 키워드한 줄 설명
AI AgentLLM, autonomous, tool calling, evalLLM 기반 자율 다단계 작업 수행 시스템
AI Self-Serve AnalyticsNL2SQL, self-serve, PM비기술 사용자가 AI로 직접 데이터를 질의하는 패턴
Ad Tech Data InfrastructureCTV, targeting, attribution광고 타겟팅·전달·측정 데이터 파이프라인
Change Data CaptureCDC, Debezium, WAL, binlog소스 DB 변경분만 감지하여 전파하는 패턴
Context Engineeringcontext window, anchoring, memoryLLM 컨텍스트 윈도우를 효율적으로 관리하는 기법
Data Scientist Role in AI Eraeval, experiment, data modelingLLM 시대에도 데이터 과학 기초가 핵심인 이유
DuckDBOLAP, embedded, transpilation로컬 실행 최적화된 임베디드 분석 DB
Feature StoreML feature, online/offline, servingML 피처를 중앙화하여 저장·제공·관리하는 인프라
LLM Evaluationeval, metrics, DSPy, pytestLLM 시스템 품질을 체계적으로 측정하는 프레임워크
LLM-as-Judgerelevance, scoring, automationLLM을 평가자로 활용하여 대규모 판정하는 기법
MCP (Model Context Protocol)protocol, tool calling, registryAI 에이전트의 외부 도구 접근 표준 프로토콜
Medallion ArchitectureBronze, Silver, Gold, lakehouse3계층으로 데이터를 점진적으로 정제하는 패턴
ML Ranking SystemsMMoE, Bayesian, multi-objective다중 목표를 최적화하는 ML 순위 시스템
Multimodal Searchvideo, HNSW, cross-modal여러 모달리티를 통합하여 검색하는 시스템
Query Optimizationquery plan, statistics, routing쿼리 비용 절감을 위한 계획 수립과 라우팅
Real-Time Stream Processingstreaming, watermark, Flink, Spark이벤트 스트림 실시간 처리 시스템
Semantic Layermetrics, business meaning, ECL데이터에 비즈니스 의미를 부여하는 계층
Spark at ScaleKubernetes, shuffle, FinOps대규모 Spark 운영 아키텍처와 최적화
Transactional Outbox Patternoutbox, exactly-once, SQLiteDB 트랜잭션과 메시지 발행의 원자성 보장 패턴
Knowledge Representationontology, taxonomy, context graph데이터에 구조화된 의미를 부여하는 체계
Data GovernancePII, compliance, LLM detection데이터 보안·프라이버시·컴플라이언스 관리 체계
Catalog-Managed TablesDelta Lake, Iceberg, Unity Catalog, lakehouse카탈로그를 테이블 ID·발견·접근 제어의 권위 있는 시스템으로 활용
Spot Instance ManagementSpot, Karpenter, Spark, cost, reliabilitySpot 인스턴스 비용 절감과 인터럽션 위험의 균형 패턴
Generative Recommender Systemsautoregressive, sequence, RoPE, negative sampling사용자 행동 시퀀스를 자기회귀 모델로 처리하는 추천 시스템
Columnar Execution EngineVelox, Gluten, SIMD, vectorized, C++JVM 오버헤드를 우회하는 C++ 기반 벡터화 실행 엔진
Database Concurrency ControlBlink-tree, B-tree, latch, SMO, PostgreSQL고동시성 DB 인덱스 운영을 위한 락 전략과 알고리즘
Semi-Structured DataParquet Variant, JSON, shredding, offset유연한 스키마 데이터를 효율적으로 저장·쿼리하는 패턴
Distributed Systems ReliabilityClickHouse, quota, silent failure, monitoring분산 시스템의 조용한 장애와 리소스 고갈 방지 패턴
RAGGraph RAG, LAD-RAG, hybrid searchLLM의 지식 한계를 외부 문서 검색으로 보완하는 패턴
LLM Fine-TuningSFT, LoRA, QLoRA, post-training사전 학습 LLM을 도메인 데이터로 추가 학습하는 기법
Data Quality and Validationcanary, layered validation, AI query데이터 파이프라인 각 단계의 정확성·일관성 검증 체계
Data Contractsschema, quality, SLA, semantic생산자-소비자 간 구조·품질·SLA를 명시하는 합의
Object Storage EvolutionS3, Files, Tables, Vectors, stage-and-commitS3의 멀티모달 데이터 플랫폼 진화
A-B Testing and ExperimentationA/B test, power, pre-registration, quality대규모 실험의 설계·실행·의사결정 품질 확보
Data Engineering FinOpsSpot, S3 shuffle, DuckDB, cost attribution데이터 인프라 컴퓨트·스토리지 비용 최적화 전략
Silent Failures and Data Integritysilent failure, canary, exactly-once, monitoring에러 없이 데이터가 유실되는 조용한 장애 탐지·방지
Data Mesh and Federationfederation, domain ownership, pointer, ACL모놀리식 DWH를 도메인별로 분리하는 아키텍처
Schema EvolutionDDL, versioning, backward compatibility, Iceberg프로덕션 스키마를 안전하게 변경하는 패턴
Distributed SQL Engine OperationsTrino, Gateway, routing, workload isolation멀티클러스터 SQL 엔진 라우팅과 운영 관리

Concept Map

AI Agent ──── MCP (Model Context Protocol)
  │  │
  │  └── Context Engineering ──── Semantic Layer
  │         │
  │         └── Data Scientist Role in AI Era
  │
  ├── LLM-as-Judge ──── LLM Evaluation
  │
  └── AI Self-Serve Analytics ──── Semantic Layer (Context Layer)

Real-Time Stream Processing ──── Change Data Capture
  │                                    │
  ├── Feature Store              Transactional Outbox Pattern
  │
  └── Spark at Scale ──── Query Optimization ──── DuckDB

Medallion Architecture ──── Semantic Layer ──── Knowledge Representation
                                                      │
                                               Context Engineering

ML Ranking Systems ──── Ad Tech Data Infrastructure
  │
  └── Generative Recommender Systems

Multimodal Search ──── ML Ranking Systems
  │
  └── Generative Recommender Systems

Data Governance ──── Data Contracts
  │                      │
  └── Data Mesh and Federation
                         │
                   Catalog-Managed Tables ──── Semi-Structured Data ──── Schema Evolution
                     │
                     └── Distributed Systems Reliability

Columnar Execution Engine ──── Spark at Scale

Database Concurrency Control ──── Query Optimization

Spot Instance Management ──── Distributed Systems Reliability
  │
  └── Data Engineering FinOps ──── DuckDB

Silent Failures and Data Integrity ──── Distributed Systems Reliability
  │
  └── Data Quality and Validation

Distributed SQL Engine Operations ──── Query Optimization

RAG ──── AI Agent
  │         │
  └── Knowledge Representation
            │
      Context Engineering

LLM Fine-Tuning ──── LLM Evaluation
  │
  └── Generative Recommender Systems

Data Quality and Validation ──── Data Contracts
  │                                    │
  ├── Distributed Systems Reliability  └── Semantic Layer
  │
  └── A-B Testing and Experimentation

Object Storage Evolution ──── Catalog-Managed Tables
                                │
                          Spark at Scale


최종 업데이트: 2026-04-14 | 아티클 95개 | 위키 39개 | 토픽 4개