배포광장 — 모델 서빙 성능 최적화 트랙

이 트랙이 다루는 범위

추론 지연이 일정 수준을 넘으면 서비스 품질이 빠르게 무너집니다. 본 트랙은 p95 지연을 기준선으로 잡고, 모델 컴파일, 배치 전략, 서버 동시성, 네트워크 경로까지 단계별로 병목을 짚어 가는 5주 과정입니다. 매주 측정 → 가설 → 실험 → 검증 사이클을 한 번씩 돌리고, 같은 모델로 어디까지 지연을 줄일 수 있는지 그래프로 추적합니다.

포함된 학습 요소

추론 벤치마크 표준화 워크북
TensorRT · ONNX Runtime 가속 비교
동적 배치와 큐 깊이 튜닝 실습
동시성 워커 수 결정 가이드
네트워크 경로 분석과 사이드카 분리
진척도를 추적하는 실험 로그 템플릿

이 트랙을 마친 사람이 할 수 있게 되는 것

p95 지연 기준선과 목표를 설정할 수 있다
벤치마크를 재현 가능한 형태로 기록할 수 있다
컴파일·배치·동시성 중 어디부터 손대야 할지 우선순위를 잡을 수 있다

책임 코치

박세영

대형 광고 플랫폼에서 모델 서빙을 운영한 시니어 엔지니어.

자주 묻는 질문

본인이 가진 모델을 가져와도 되나요?

환영합니다. 다만 라이선스와 데이터 사용 가능 여부를 사전에 확인해 주시고, 첫 주에 벤치마크 가능 형태로 다듬는 시간이 필요합니다.

GPU가 없는 환경도 다루나요?

CPU 추론 서버도 한 주 분량으로 포함되어 있습니다. 동시성과 배치 튜닝은 GPU/CPU 모두에 적용됩니다.

모델 정확도 손실은 어떻게 다루나요?

양자화나 컴파일 옵션에 따른 정확도 변화를 측정하고, 허용 가능한 범위를 결정하는 과정도 함께 다룹니다.

참가자 후기

“같은 모델로 일주일에 한 번씩 그래프를 그려가며 줄여가는 흐름이 좋았습니다. 결과적으로 사내 모델 p95가 절반 가까이 줄었습니다.”

한지수 ★★★★★ Google

“실습 강도가 높다. 5주 동안 야근하듯 따라가야 했지만 정량적으로 결과가 보여서 만족했다.”

익명 Client in AI 스타트업