Papers·1주 전
LLM 사전지식으로 POMDP 세계모델 학습 — Pinductor, 소량 궤적으로 기존 대비 샘플 효율 2배 이상

Pinductor는 LLM이 몇 개의 관찰-행동 궤적으로부터 POMDP 모델을 제안하고 반복 정제하여, 은닉 상태 접근 없이도 기존 LLM 기반 방법과 동등한 성능을 내면서 샘플 효율을 크게 높였습니다. 핵심은 LLM의 사전지식을 활용해 탐색 공간을 좁히는 것인데, 환경 의미 정보를 제거해도 성능이 완만히 하락해 언어 prior의 실용성을 보여줍니다. 단, 실험은 비교적 단순한 POMDP 환경에 국한되어 있어 복잡한 현실 환경으로의 일반화는 추가 검증이 필요합니다.
- #pomdp
- #world-model
- #llm-prior
- #sample-efficiency
- #pinductor
Valentin Six