Papers·1개월 전

HKUST, RL rollout 만으로 world model 을 함께 학습하는 PaW — agent task 3개 벤치에서 일관된 개선

HKUST 팀이 RL rollout 데이터를 그대로 활용해 world model(WL)을 공동 학습하는 PaW 프레임워크를 제안했습니다. 기존 WM 방식은 별도 시뮬레이터나 추가 학습 단계가 필요했지만, PaW는 on-policy RL rollout의 (action, next observation) 쌍을 auxiliary supervision으로 사용해 inference 부담 없이 성능을 높입니다. action-entropy 기반 데이터 선택, noise-tolerant loss, reward-adaptive loss balancing 세 가지 요소로 안정성을 확보했고, 세 가지 agentic task 벤치마크에서 강력한 RL baseline 대비 일관된 개선을 보였습니다. 단, 실험은 특정 task 도메인에 국한되어 있어 일반화 가능성은 추가 검증이 필요합니다.

HKUST 팀이 RL rollout 데이터만으로 world model을 함께 학습하는 PaW 프레임워크를 제안했습니다.

핵심 결론

벤치 — 세 가지 agentic task 벤치마크(ALFWorld, WebShop, ScienceWorld)에서 PPO 및 Reinforce baseline 대비 성공률 2~8%p 향상.
모델 — Llama 3.1 8B 및 Mistral 7B 기반 에이전트에서 모두 일관된 개선을 확인했습니다.

방법

핵심 아이디어 — RL rollout의 (action, next observation) 쌍을 world model 학습용 auxiliary supervision으로 재활용. 별도 시뮬레이터나 추가 추론 비용이 없습니다.
세 가지 구성 — action-entropy 기반 WM 데이터 선택(불확실한 action 위주로 샘플링), noise-tolerant WM loss(rollout의 stochasticity 대응), reward-adaptive loss balancing(RL vs WM 손실 동적 조절).

한계·조건

도메인 — 세 가지 텍스트 기반 agentic task에만 검증되어, 복잡한 시각적 환경이나 실제 로봇 task로의 확장은 미검증.
코드 — 논문 발표 시점에 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

RL rollout 데이터를 WM 학습에 재활용한다는 발상은 간단하지만, 세 가지 안정화 기법이 실제로 ablation에서 유의미한 차이를 만든 점이 인상적입니다. 다만 벤치마크가 모두 텍스트 기반이고 task 수가 적어, 더 다양한 환경에서의 검증이 필요해 보입니다.

#reinforcement-learning
#world-model
#llm-agent
#hkust

HKUST

원문 보기 →

HKUST, RL rollout 만으로 world model 을 함께 학습하는 PaW — agent task 3개 벤치에서 일관된 개선

핵심 결론

방법

한계·조건

Comments