Papers·1개월 전

JAMEL: 에이전트 메모리와 탐험 정책을 함께 학습하는 프레임워크 — GUI 환경에서 novelty 신호로 감독

JAMEL은 언어 모델 에이전트의 탐험 성능을 높이기 위해 메모리 모듈과 탐험 정책을 novelty 신호로 함께 학습하는 프레임워크입니다. 코드 커버리지 같은 GUI 환경의 novelty 신호를 활용해 별도 주석 없이 메모리를 학습하며, 오픈웨이트 베이스라인을 능가하고 일부 폐쇄형 모델에 필적하는 탐험 깊이를 보이면서 토큰 소모는 줄였습니다. 단, GUI 도메인에 특화된 novelty 신호에 의존하므로 다른 환경으로의 일반화는 추가 검증이 필요합니다.

JAMEL은 에이전트의 탐험과 메모리가 상호 의존적이라는 관찰에서 출발해, novelty 신호로 두 모듈을 동시에 학습하는 프레임워크입니다.

핵심 결론

태스크 — GUI 환경에서 언어 모델 에이전트의 탐험 성능 향상.
성능 — 오픈웨이트 베이스라인 대비 탐험 깊이 우위, 폐쇄형 모델(예: GPT-4V)과 유사한 수준.
효율 — 토큰 소모를 크게 줄이면서도 탐험 커버리지 유지.

방법

핵심 아이디어 — 메모리 모듈과 탐험 정책을 novelty 신호로 공동 학습. novelty 신호는 코드 커버리지 같은 GUI 특화 지표를 사용해 자동 생성.
메모리 — 잠재 메모리(latent memory)로 상호작용 이력을 압축, novelty 신호를 감독으로 활용.
탐험 정책 — 메모리 정보를 바탕으로 이미 시도한 행동과 새로운 행동을 구분해 탐험 유도.
상호 의존 루프: 탐험은 메모리를 필요로 하고, novelty-seeking 상호작용은 메모리 학습에 필요한 감독 신호를 제공합니다.

한계·조건

도메인 — novelty 신호가 GUI 도메인의 코드 커버리지에 특화되어 있어, 다른 환경(예: 게임, 로봇)으로의 일반화는 추가 연구 필요.
재현성 — 코드와 모델은 GitHub에 공개되어 재현 가능.
비교 — 폐쇄형 모델과의 비교는 탐험 깊이만 평가, 정확도나 태스크 완료율은 별도 측정.

편집자 한 줄

GUI 에이전트에서 novelty 신호를 자동 생성하는 접근은 실용적이지만, 환경이 바뀌면 신호 설계를 다시 해야 한다는 점이 걸림돌이네요.

#agent
#exploration
#memory
#gui
#jamel

Shizuo Tian

원문 보기 →

JAMEL: 에이전트 메모리와 탐험 정책을 함께 학습하는 프레임워크 — GUI 환경에서 novelty 신호로 감독

핵심 결론

방법

한계·조건

Comments