Papers·1주 전
RankJudge — 멀티턴 대화에서 LLM 평가자 성능을 벤치마킹하는 새로운 프레임워크

Layer 6 AI 팀이 멀티턴 대화에서 LLM-as-a-judge 의 판단 정확도를 측정하는 RankJudge 벤치마크를 공개했습니다. 기존 단순 Q&A 중심 평가와 달리, 참조 문서에 기반한 대화 쌍을 생성해 한 턴에 단일 결함을 주입함으로써 엄격한 정답 기준을 적용할 수 있습니다. 머신러닝·의생명·금융 세 도메인에서 21개 LLM 평가자를 Bradley-Terry 모델로 순위화했으며, 난이도 등급을 활용해 평가 슬라이스를 동적으로 구성해 레이블 노이즈를 줄인 점이 특징입니다.
Layer 6 AI 가 멀티턴 대화에서 LLM 평가자의 판단 능력을 측정하는 RankJudge 벤치마크를 제안했습니다.
핵심 결론
- 태스크 — 참조 문서 기반 멀티턴 대화에서 한 턴에 단일 결함이 주입된 대화 쌍을 생성해, LLM 평가자가 더 나쁜 대화를 정확히 식별하는지 측정합니다.
- 범위 — 머신러닝·의생명·금융 세 도메인에서 21개 최신 LLM 평가자를 Bradley-Terry 모델로 순위화했습니다.
- 안정성 — 부분 관찰 가능성, 완화된 정답 기준, 대안적 순위 알고리즘에서도 순위가 안정적임을 확인했습니다.
방법
- 데이터 생성 — 참조 문서를 바탕으로 한 대화를 LLM으로 생성한 뒤, 한 턴에만 사실 오류·모순·무관성 등 단일 결함을 주입해 쌍을 만듭니다.
- 평가 기준 — 두 대화 중 어느 쪽이 더 나쁜지 이진 판단을 요구하며, 결함이 주입된 턴을 정확히 지목해야만 정답으로 인정하는 엄격한 joint correctness 기준을 사용합니다.
- 난이도 조정 — 각 쌍에 난이도 등급을 부여해 동적으로 평가 슬라이스를 구성함으로써 레이블 노이즈를 줄였으며, 인간 주석으로 이를 검증했습니다.
한계·조건
- 도메인 — 현재 세 도메인(ML·의생명·금융)에 한정되며, 다른 도메인으로의 일반화는 추가 검증이 필요합니다.
- 결함 유형 — 단일 결함 주입만 고려되어, 복합 결함이나 장기적 일관성 평가는 아직 다루지 않습니다.
- 공개 — 코드와 데이터셋은 Hugging Face에 공개 예정입니다.
편집자 한 줄
멀티턴 대화 평가의 어려움을 정량화한 점이 인상적이며, 특히 난이도 기반 슬라이스 구성으로 평가 신뢰도를 높인 설계가 실용적으로 느껴집니다.
- #llm-as-a-judge
- #benchmark
- #multi-turn
- #layer6ai
Layer 6 AI