관측성

MLOps 관측성 클리닉

추론 지연부터 모델 품질 저하까지, 운영 신호를 빠르게 잡아내는 관측 스택을 세팅합니다.

3주 · 주 3회 저녁 · 총 24시간 중급 온라인 라이브 실습 60%

이 트랙이 다루는 범위

관측성은 한 가지 도구로 끝나지 않습니다. 이 클리닉은 인프라 지표, 추론 지연, 입출력 분포 드리프트, 사용자 피드백을 같은 대시보드에서 함께 보는 구조를 만드는 3주 과정입니다. Prometheus와 OpenTelemetry, Grafana, Evidently를 조합해 “이상하다”라는 직감을 SLO 위반 알람으로 바꾸는 흐름을 구현합니다.

포함된 학습 요소

  • 추론 지연·처리량 4계층 메트릭 설계
  • OpenTelemetry로 모델 트레이스 수집
  • Evidently로 입력 분포 드리프트 감지
  • 품질 저하 알람과 자동 재학습 트리거
  • 런북과 온콜 워크플로 템플릿 제공
  • 주간 코치 진단 세션 30분

이 트랙을 마친 사람이 할 수 있게 되는 것

  • 추론 지연 SLO를 정의하고 그에 맞는 알람을 만들 수 있다
  • 모델 품질 저하를 운영 지표로 표현할 수 있다
  • 온콜 시 어떤 그래프부터 봐야 하는지 명확해진다

책임 코치

최지원 프로필

최지원

관측성 도구를 한 회사에서 4년간 운영한 SRE. ML 서비스의 “이상”을 지표화하는 패턴을 클리닉으로 다듬었습니다.

자주 묻는 질문

관측 스택을 이미 운영 중인데 도움이 될까요?
운영 중이라면 기존 스택을 들고 오시는 편을 권장합니다. 1주 차 진단 세션에서 현재 구조의 빈틈을 짚는 데 가장 큰 가치가 있습니다.
온콜 경험이 없어도 들을 수 있나요?
가능합니다. 다만 일정 시간의 사전 학습 영상을 안내드리며, 이를 마치지 않으면 일부 실습이 어렵게 느껴질 수 있습니다.
비-ML 서비스 관측성에도 적용되나요?
인프라 지표 부분은 동일하지만, 본 클리닉의 핵심은 “모델 출력의 이상”을 다루는 부분입니다. 일반 백엔드 서비스만 운영한다면 다른 과정이 더 적합합니다.

참가자 후기

“Evidently 도입을 미루고 있었는데, 클리닉에서 “먼저 한 가지 분포만 추적해 보자”는 합리적인 시작점을 잡아 주신 덕에 사내에 가볍게 적용했습니다.”

문하늘 · SRE ★★★★☆

“단일 도구가 아니라 “신호의 묶음”을 다루는 접근이 인상적이었다. 다만 자료에 OpenTelemetry 깊은 부분은 추가됐으면 좋겠다.”

익명 Client in 중견 소프트웨어 기업