세션 이름
오후 트랙 2 - AI Agent 기술 세션ㅣProduction에서 신뢰할 수 있는 AI Agent 성능 평가 전략
날짜 시간
2026년 4월 1일 수요일, 오후 5:10 - 오후 5:40
기술

AI Agent는 단순한 정확도를 넘어, 정보 선택·행동 경로·가이드라인 준수 여부까지 평가되어야 하며 이는 금융, 산업, 게임 등 다양한 도메인의 실서비스 품질과 직결됩니다.

본 세션에서는 금융 리포트 자동화, 산업 KPI 분석, 게임 데이터 분석과 같은 실적용 사례를 바탕으로 MLflow Trace와 LLM-as-a-Judge, Agent Bricks를 활용한 신뢰 가능한 AI Agent 성능 평가 방법을 소개합니다.