Papers·2일 전
텍스트 월드 모델(TWM) 종합 서베이 — LLM 에이전트를 위한 상태 전이 모델 구축·활용·평가

SUSTech 연구진이 LLM 기반 에이전트가 상호작용 환경(웹, 코드, 도구, 대화)에서 상태 전이를 예측하는 텍스트 월드 모델(TWM)을 체계적으로 정리한 서베이를 공개했습니다. TWM을 상태 표현과 도메인 기준으로 분류하고, LLM-as-WM과 code-as-WM 두 패러다임의 구축 방법, 훈련 시 경험 합성과 추론 시 계획·검증·적응에의 활용, 그리고 모델 자체 평가와 에이전트 평가 환경으로서의 사용까지 전 과정을 다룹니다. 아직 실용화 초기 단계라 설계 공간이 넓고, 평가 벤치마크가 표준화되지 않았다는 점이 주요 한계입니다.
SUSTech 연구진이 LLM 기반 에이전트가 환경의 상태 전이를 예측하는 텍스트 월드 모델(TWM)을 체계적으로 정리한 서베이를 공개했습니다.
핵심 결론
- 범위 — 웹 내비게이션, 코드 편집, 도구 사용, 장기 대화 등 텍스트 기반 상호작용 환경 전반을 포괄합니다.
- 분류 — TWM을 상태 표현(자연어/구조화)과 도메인(개방형/폐쇄형) 두 축으로 체계화했습니다.
- 활용 — 훈련 시 경험 합성, 추론 시 계획·검증·적응에 쓰이며, 특히 계획(planning)에서 효과가 두드러집니다.
방법
- LLM-as-WM — LLM 자체를 월드 모델로 사용 — 프롬프트 엔지니어링이나 fine-tuning으로 상태 전이를 예측하게 합니다.
- Code-as-WM — 환경의 규칙을 코드(예: Python 시뮬레이터)로 명시적으로 구현 — 정확하지만 구축 비용이 큽니다.
- 하이브리드 — 두 패러다임을 결합해 코드로 기본 규칙을 잡고 LLM으로 예외를 처리하는 접근도 소개됩니다.
한계·조건
- 표준 부재 — TWM 평가를 위한 통일된 벤치마크가 없어 연구 간 비교가 어렵습니다.
- 스케일링 — 복잡한 환경(예: 긴 대화, 대규모 코드베이스)에서는 상태 표현이 길어져 계산 비용이 급증합니다.
- 일반화 — 대부분의 TWM이 특정 도메인에 맞춰져 있어, 도메인 간 전이 성능은 아직 검증되지 않았습니다.
편집자 한 줄
서베이 자체는 방법론 분류에 충실하지만, 각 방법의 정량적 비교(예: 정확도, 샘플 효율)가 빠져 있어 실무 선택 기준으로는 아쉬운 점이 있습니다.
- #text-world-model
- #llm-agent
- #survey
- #sustech
NLP Group in SUSTech