배포광장 — 쿠버네티스 모델 서빙 마스터클래스

이 트랙이 다루는 범위

GPU 노드 풀 구성, 멀티 모델 서빙, 자동 스케일링, A/B 라우팅을 한 번에 다루는 중급 과정입니다. 매주 다른 토폴로지의 클러스터가 주어지며, 같은 모델을 KServe와 Triton 양쪽에서 띄워 비용과 지연 시간을 비교합니다. 마지막 주에는 트래픽 폭주 시나리오를 시뮬레이션해 SLO 위반 없이 견디는 구성을 직접 설계합니다.

포함된 학습 요소

KServe InferenceService 매니페스트 작성
Triton 모델 저장소와 동적 배치 튜닝
HPA · KEDA 기반 자동 스케일링 비교
Istio VirtualService로 A/B 트래픽 분리
GPU 노드 풀 분리와 비용 추적
폭주 트래픽 시뮬레이션과 SLO 검증
서빙 토폴로지 의사결정 워크북 제공

이 트랙을 마친 사람이 할 수 있게 되는 것

KServe와 Triton 중 워크로드별 적합한 도구를 고를 수 있다
예상 트래픽에 맞춰 자동 스케일링 정책을 설계할 수 있다
A/B 라우팅과 점진적 출시 전략을 구현할 수 있다

책임 코치

박세영

대형 광고 플랫폼에서 모델 서빙을 운영한 시니어 엔지니어. 트래픽 폭주 상황에서 SLO를 지키는 운영 패턴을 모아 마스터클래스 형태로 재구성했습니다.

자주 묻는 질문

GPU 노드가 필요한가요?

실습 환경에 GPU 노드가 포함되어 있어 추가 비용은 없습니다. 다만 본인 모델을 가져와 실험하고 싶다면 사전에 메모리 요구사항을 공유해주세요.

온프레미스 환경에도 적용 가능한가요?

네. 실습은 매니지드와 온프렘 두 가지 시나리오를 번갈아 진행합니다. 단, 사내 환경 적용은 별도 컨설팅 트랙에서 다룹니다.

서빙 외에 학습 파이프라인도 다루나요?

아니요. 본 과정은 학습이 끝난 모델을 안정적으로 운영하는 데만 집중합니다. 학습 파이프라인은 CI/CD 자동화 워크숍에 일부 포함됩니다.

참가자 후기

“KServe와 Triton 비교가 가장 큰 수확이었습니다. 이전에는 막연히 한쪽만 쓰고 있었는데, 트래픽 패턴 워크북을 보고 분리 기준이 또렷해졌습니다.”

김도훈 · 광고 플랫폼 ★★★★★ Google

“SLO 시뮬레이션 주차는 직접 설계해보는 형태라 부담스러웠지만, 그게 가장 기억에 남습니다. 자료가 너무 빽빽해서 사전 학습이 꽤 필요했어요.”

서정민 · 시니어 ML 엔지니어

“실서비스에서 부딪혔던 문제를 그대로 옮겨놓은 듯한 실습이 많았다. 회사 동료에게 그대로 권유했다.”

익명 Client in AI 스타트업