Papers·6일 전
CODS 2025 챌린지 회고 — 리더보드가 측정한 것과 숨겨진 평가의 차이
IBM Research 가 주최한 CODS 2025 챌린지를 분석한 결과, 공개 리더보드는 planning 에서 72.73% 에서 포화되었고, hidden evaluation 에서는 execution 점수가 public 과 음의 상관(r=-0.13)을 보여 평가 설계의 중요성을 드러냈습니다. 성공한 execution 방법은 새로운 에이전트 아키텍처보다 guardrails(응답 선택, 오염 정리, fallback) 개선에 집중했으며, 공식 composite 점수에서 'cost' 항목의 영향이 미미해 재조정 필요성이 제기됩니다. 149개 팀 중 실제 순위가 매겨진 팀은 11개에 불과해 참여율 대비 완주율이 낮은 점도 특징입니다.
- #codabench
- #multi-agent
- #orchestration
- #ibm
- #competition
IBM Research