Papers·어제
LLM이 평가한 연구 질문의 참신함, 사람과 정반대 — RQ-Bench로 드러난 novelty mirage

DeCLaRe Lab이 arXiv 논문 기반 RQ-Bench를 구축해 LLM이 생성한 연구 질문(RQ)의 참신함을 평가한 결과, LLM 심사자는 생성된 RQ를 높이 평가한 반면 도메인 전문가는 저자-앵커 RQ를 선호하는 역전 현상(novelty mirage)을 발견했습니다. LLM 심사자는 생성된 RQ가 좁거나 출처에 종속된 점을 잘 포착하지 못해, LLM으로 과학적 참신함을 평가하는 신뢰성에 심각한 의문을 제기합니다.
LLM이 생성하고 평가하는 과학 아이디어의 참신함을 객관화하기 위해, 연구 질문(RQ) 단위로 정밀 분석한 벤치마크가 나왔습니다.
핵심 결론
- 태스크 — 연구 질문(RQ) 생성 및 참신함 평가 — arXiv 논문 기반 RQ-Bench 구축.
- 결과 — LLM 심사자는 생성된 RQ를 참신하다고 평가했지만, 도메인 전문가는 저자-앵커 RQ를 더 선호했습니다.
- 문제 — LLM 심사가 생성 RQ의 좁은 범위나 출처 의존성을 놓쳐 novelty mirage를 유발합니다.
방법
- RQ-Bench — 최근 arXiv 논문에서 저자의 인용 배경, 연구 간극, 기여를 바탕으로 저자-앵커 RQ를 추출한 벤치마크.
- 평가 방식 — 단독 LLM 판단, 비교 LLM 판단, 인간 전문가 평가 — 세 가지를 비교했습니다.
- 발견 — 비교 평가에서 LLM의 생성 RQ 선호가 더 강해지며, 좁은 RQ를 구분하지 못하는 경향이 확인됐습니다.
한계·조건
- 범위 — RQ 단위 평가로 한정 — 방법·실험·결과를 포함한 전체 아이디어 평가로 일반화하기 어렵습니다.
- 데이터 — arXiv 논문만 사용해 특정 분야(CS, 물리 등)에 편향될 가능성이 있습니다.
- 재현성 — 코드와 데이터는 공개 예정이지만, 현재는 abstract와 figure만 확인 가능합니다.
편집자 한 줄
LLM 심사가 인간 전문가와 정반대 결론을 내리는 현상은, AI 기반 피어 리뷰 자동화에 경고등을 켜는 결과네요.
- #llm
- #novelty-evaluation
- #research-questions
- #benchmark
- #arxiv
Deep Cognition and Language Research (DeCLaRe) Lab