Papers·1개월 전

JHU, LLM 규칙 추론을 위한 에이전틱 프레임워크 DAR — DeonticBench에서 최대 12% 개선

JHU CLSP 팀이 법률·정책 규칙을 적용하는 deontic reasoning 태스크를 위해 에이전틱 추론 프레임워크 DAR(Deontic Agentic Reasoning)을 제안했습니다. 모델이 추론 중 필요할 때마다 규정집(statute)을 조회하는 방식으로, 긴 규칙을 한 번에 처리하는 기존 LLM의 한계를 우회합니다. DeonticBench의 어려운 subset에서 여러 harness를 평가한 결과, 에이전틱 방식이 전반적으로 성능을 끌어올렸지만 약한 모델은 수치 태스크에서 오히려 성능이 떨어지고 token 소모가 급증하는 불균일한 개선을 보였습니다.

LLM이 법률·정책 규칙을 정확히 적용하는 deontic reasoning을 위해, JHU 팀이 모델이 추론 중 규정을 동적으로 조회하는 에이전틱 프레임워크 DAR을 공개했습니다.

핵심 결론

태스크 — DeonticBench의 hard subset에서 DAR 기반 에이전틱 harness가 기존 비에이전틱 방식 대비 최대 12% 정확도 향상.
모델 — GPT-4, Claude 3.5 Sonnet, Llama 3 70B 등에서 평가, 강한 모델일수록 이득이 큼.

방법

에이전틱 루프 — 모델이 추론 단계마다 필요한 규칙을 검색(read)하거나, 규칙을 적용(apply)하는 action을 선택.
규칙집은 chunk 단위로 나뉘어 검색되며, 모델은 검색 결과를 바탕으로 추론을 진행합니다.

한계·조건

비균일 개선 — 약한 모델(Llama 3 8B)은 수치 계산 태스크에서 성능이 떨어지고 token 소모가 3배 이상 증가.
비용 — 에이전틱 harness는 추론당 token 수가 크게 늘어나, 강한 모델에서는 실용성과 비용 사이 trade-off 존재.
코드 — GitHub에 코드 및 벤치마크 공개 예정.

편집자 한 줄

에이전틱 추론이 법률·정책 영역에서 효과적일 수 있다는 점은 흥미롭지만, 약한 모델에서의 성능 저하와 token 폭증은 실사용 시 고려할 부분이네요.

#deontic-reasoning
#agentic-reasoning
#jhu
#llm

Center for Language and Speech Processing @ JHU

원문 보기 →

JHU, LLM 규칙 추론을 위한 에이전틱 프레임워크 DAR — DeonticBench에서 최대 12% 개선

핵심 결론

방법

한계·조건

Comments