Papers·어제

Qwen, 언어 세계 모델로 7개 도메인 에이전트 환경 시뮬레이션 — 35B/397B 모델 공개

Qwen 팀이 언어 모델 기반 세계 모델 Qwen-AgentWorld-35B-A3B와 Qwen-AgentWorld-397B-A17B를 공개했습니다. 7개 도메인의 1천만 개 이상 환경 상호작용 궤적으로 학습한 이 모델은 긴 chain-of-thought 추론을 통해 에이전트 환경을 시뮬레이션하며, AgentWorldBench에서 기존 최첨단 모델을 크게 능가합니다. 흥미로운 점은 세계 모델 학습이 에이전트 기반 모델의 사전 훈련(warm-up)으로도 효과적이라는 점입니다. 단, 모델 크기가 35B(활성 3B)와 397B(활성 17B)로 상당한 컴퓨팅 자원이 필요하며, 코드는 공개되었습니다.

Qwen 팀이 언어 모델로 에이전트 환경을 시뮬레이션하는 세계 모델을 제안했습니다.

핵심 결론

모델 — Qwen-AgentWorld-35B-A3B와 Qwen-AgentWorld-397B-A17B — 7개 도메인(웹, 게임, 로봇 등) 환경 시뮬레이션 가능.
성능 — AgentWorldBench에서 GPT-4, Claude 3.5 등 기존 모델 대비 큰 폭 우위.
세계 모델 학습이 에이전트 downstream 태스크(7개 벤치마크) 성능 향상에도 기여.

방법

데이터 — 7개 도메인 실제 환경에서 수집한 1천만 개 이상의 상호작용 궤적 사용.
훈련 — 3단계 파이프라인: CPT(상태 전이 동역학 + 전문 코퍼스 주입), SFT(다음 상태 예측 추론 활성화), RL(하이브리드 rubric+rule 보상으로 시뮬레이션 충실도 향상).
긴 chain-of-thought 추론을 통해 환경 동역학을 예측하는 점이 특징.

한계·조건

리소스 — 35B/397B 규모로 추론에 상당한 컴퓨팅 필요.
도메인 — 7개 도메인에 특화되어 있으며, 새로운 도메인 일반화 성능은 추가 검증 필요.
코드 — GitHub에 공개되어 재현 가능.

편집자 한 줄

세계 모델을 에이전트 학습의 warm-up으로 쓰는 발상이 실용적으로 느껴지네요.

#world-model
#agent
#qwen
#simulation
#benchmark

Qwen

원문 보기 →

Qwen, 언어 세계 모델로 7개 도메인 에이전트 환경 시뮬레이션 — 35B/397B 모델 공개

핵심 결론

방법

한계·조건

Comments