Papers·1개월 전

Agent-BRACE: LLM 에이전트의 신념 상태를 추상화와 확신 레이블로 표현 — 부분 관측 환경에서 +14.5%

Agent-BRACE는 부분 관측 가능한 긴-지평 환경에서 LLM 에이전트의 신념 상태를 자연어 주장과 확신 레이블(확실~알 수 없음)로 구조화해 표현하는 방법입니다. 신념 모델과 정책 모델을 분리하고 강화학습으로 공동 최적화하여, Qwen2.5-3B-Instruct 기준 +14.5%, Qwen3-4B-Instruct 기준 +5.3%의 절대 성능 향상을 달성했습니다. 에피소드 길이와 무관하게 컨텍스트 윈도우가 일정하게 유지되며, 신념의 보정(calibration)이 시간에 따라 개선되는 점이 특징입니다.

#llm-agents
#belief-state
#partial-observability
#reinforcement-learning
#qwen

Joykirat Singh

원문 보기 →

Agent-BRACE: LLM 에이전트의 신념 상태를 추상화와 확신 레이블로 표현 — 부분 관측 환경에서 +14.5%

Comments