Papers·5일 전
WorldLines: 장기 기억 벤치마크로 가정용 로봇의 부분 관측·상태 덮어쓰기 문제를 드러내다

WorldLines는 가정용 로봇의 장기 기억 능력을 평가하는 프로젝트 기반 벤치마크로, 메모리 QA와 태스크 플래닝에서 부분 관측성·상태 덮어쓰기·장기 기억의 계획 활용 등 지속적 과제를 드러냅니다. 제안된 ObsMem 프레임워크는 관찰자 기반 가시성 인식 메모리와 행동-네이티브 상태 추적을 도입해 더 강력한 참조 아키텍처를 제공합니다.
WorldLines는 실제 가정 환경에서 장시간 인간을 보조하는 임바디드 에이전트의 장기 기억 능력을 평가하기 위해 설계된 프로젝트 기반 벤치마크입니다.
핵심 결론
- 벤치마크 — WorldLines는 가정용 로봇의 장기 기억을 평가하는 첫 프로젝트 기반 벤치마크로, 메모리 QA와 임바디드 태스크 플래닝 두 가지 태스크를 포함합니다.
- 주요 발견 — 부분 관측성, 덮어쓰인 월드 상태, 장기 기억의 계획 활용 등 세 가지 지속적 과제를 실험으로 확인했습니다.
방법
- 데이터 구성 — 시간적으로 확장된 가정용 트레이스(대화, 행동, 실행 피드백, 객체·디바이스 상태 변화)를 수집해 증거-연결 샘플로 변환합니다.
- ObsMem — 관찰자 기반 가시성 인식 메모리와 행동-네이티브 상태 추적을 결합한 프레임워크로, 상태 인식 결정을 지원합니다.
한계·조건
- 환경 — 시뮬레이션 기반 가정 환경에서 수집된 데이터로, 실제 물리적 환경과의 차이가 있을 수 있습니다.
- 재현성 — 데이터셋과 코드는 공개 예정이나 현재 시점에서는 미공개 상태입니다.
편집자 한 줄
장기 기억 벤치마크가 부족한 현 상황에서 WorldLines는 임바디드 AI 커뮤니티에 유용한 기준점을 제공합니다.
- #embodied-ai
- #long-term-memory
- #benchmark
- #household-robotics
Yehang Zhang