Papers·1개월 전

서울대, 캐릭터 심리 궤적을 반영한 롤플레잉 에이전트 평가 벤치마크 ArcANE 공개

서울대 연구팀이 소설 속 캐릭터가 이야기 전반에 걸쳐 변화하는 가치관과 행동을 평가하는 벤치마크 ArcANE을 제안했습니다. 17개 소설, 80명 주인공의 심리 축을 따라 장면을 분할하고, 원문 내/외 시나리오에서 동일 질문을 던져 일관성을 측정합니다. 6개 모델 실험 결과, Character Arc를 조건으로 제공하는 방식이 모든 전략을 능가했으며, 특히 원문 외 시나리오에서 격차가 두드러졌습니다. 추가로 ArcANE-8B/32B 파인튜닝 모델도 공개했습니다.

서울대 연구팀이 캐릭터 심리 궤적을 반영한 롤플레잉 에이전트 평가 벤치마크 ArcANE을 제안했습니다.

핵심 결론

벤치마크 — 17개 소설, 80명 주인공 대상으로 Character Arc 단위로 심리 축을 따라 장면 분할.
평가 — 원문 내/외 시나리오에서 동일 질문을 던져 캐릭터 일관성을 측정합니다.
결과 — 6개 모델 실험에서 Character Arc를 조건으로 제공하는 방식이 모든 전략을 능가.

방법

Character Arc — 소설의 내러티브를 심리 축을 따라 여러 단계로 나누고, 각 단계마다 동일한 프롬프트를 적용해 응답 변화를 추적합니다.
자동 구축 — LLM을 활용해 소설 텍스트에서 Arc를 자동 추출하고, 원문 내/외 시나리오를 생성하는 파이프라인을 설계했습니다.
파인튜닝 — ArcANE-8B/32B 모델을 공개 — 원문 외 시나리오에서 Arc 조건의 이점이 더욱 두드러집니다.

한계·조건

데이터 — 17개 소설로 제한되어 장르·문화권 다양성이 부족할 수 있습니다.
재현성 — Arc 추출 파이프라인은 LLM 기반이라 오류 가능성이 있으며, 수동 검증이 필요합니다.
코드 — Hugging Face에 데이터셋과 모델 가중치가 공개되어 있습니다.

편집자 한 줄

캐릭터 일관성 평가의 새로운 기준이 될 만한 벤치마크네요. 원문 외 시나리오에서의 격차가 특히 인상적입니다.

#role-playing
#evaluation
#benchmark
#seoul-national-university

Seoul National University

원문 보기 →

서울대, 캐릭터 심리 궤적을 반영한 롤플레잉 에이전트 평가 벤치마크 ArcANE 공개

핵심 결론

방법

한계·조건

Comments