Breakout Session
GPU Observability with Datadog: KT의 GPU Farm 운영 사례
KT는 AI 연구 환경의 복잡성을 줄이고 GPU 인프라 운영 효율을 극대화하기 위해 Datadog 기반의 GPU Observability 체계를 구축했습니다. 본 세션에서는 GPU Farm 운영 과정에서 얻은 인사이트를 바탕으로 Datadog Dashboard 구축 과정과 Incident Automation을 추진한 여정을 소개합니다.