Papers·5일 전
LoSoNA: LLM이 그룹챗의 암묵적 규범을 추론할 수 있을까 — Gemini 3.1 Pro 84.2%

Humalike 팀이 LLM 기반 에이전트가 온라인 그룹챗의 암묵적 지역 규범을 추론하고 적응하는 능력을 평가하는 벤치마크 LoSoNA를 공개했습니다. 8개 모델을 네 가지 프롬프트 조건에서 평가한 결과, 명시적 규범 인식 프롬프트가 도움되지만 모델별 편차가 컸습니다. Gemini 3.1 Pro가 84.2%, Claude Fable 5가 81.6%로 가장 높았고, 일부 모델은 오히려 성능이 하락했습니다. 단일 턴 응답으로 규범 추론을 측정하는 태스크라 실제 대화 맥락보다 단순화된 조건이라는 한계가 있습니다.
Humalike 팀이 LLM이 그룹챗의 암묵적 지역 규범을 추론할 수 있는지 평가하는 LoSoNA 벤치마크를 공개했습니다.
핵심 결론
- 태스크 — 각 시나리오는 숨겨진 지역 규범이 담긴 그룹챗 대화를 제공하고, 마지막 발화에 대한 응답으로 규범 추론 여부를 측정합니다.
- 최고 성능 — 명시적 규범 인식 프롬프트 조건에서 Gemini 3.1 Pro 84.2%, Claude Fable 5 81.6% 달성.
- Naive 프롬프트에서는 대부분 모델이 제한된 성능을 보였으며, 규범 인식 프롬프트의 효과는 모델별로 불균등했습니다.
방법
- 데이터 — 온라인 그룹챗에서 수집한 암묵적 규범(예: 특정 주제 회피, 말투 통일 등)을 기반으로 시나리오를 구성했습니다.
- 평가 — 8개 frontier 및 오픈웨이트 모델을 네 가지 프롬프트 조건(Naive, 규범 인식, 규범 명시, 규범 예시)에서 비교.
- 단일 턴 응답으로 규범 추론을 측정하여, 이전 대화를 증거로 삼아야 하는 구조입니다.
한계·조건
- 태스크 범위 — 단일 턴 응답만 평가하므로 실제 다중 턴 대화에서의 적응 능력은 추가 연구가 필요합니다.
- 규범 다양성 — 벤치마크에 포함된 규범 유형이 제한적이며, 문화적·언어적 편향 가능성이 있습니다.
- 코드 공개 — LoSoNA 데이터셋과 평가 코드는 Hugging Face에 공개되었습니다.
편집자 한 줄
프롬프트 엔지니어링만으로 규범 추론 성능이 크게 좌우되는 점이 흥미롭네요. 실제 멀티턴 에이전트에 적용하려면 추가 작업이 필요해 보입니다.
- #llm
- #social-norm
- #benchmark
- #humalike
Humalike