Papers·4일 전
ECHO: CLI 에이전트 RL에 환경 피드백을 밀집 신호로 재활용 — GRPO 대비 pass@1 2배

Microsoft Research 팀이 CLI 에이전트 RL에서 환경 응답(stdout, 오류 등)을 단순한 컨텍스트가 아닌 밀집 보조 손실로 활용하는 ECHO(Environment Cross-entropy Hybrid Objective)를 제안했습니다. GRPO의 희소 보상 대신, 에이전트가 자신의 행동으로 인한 환경 관찰 토큰을 예측하도록 학습시켜 모든 롤아웃에서 밀집 신호를 제공합니다. TerminalBench-2.0에서 Qwen3-8B는 pass@1이 2.70%에서 5.17%로, Qwen3-14B는 5.17%에서 10.79%로 각각 2배 향상되었습니다. 한계로는 CLI 도메인에 특화되어 있으며, 환경 관찰 예측 손실만으로도 일부 OOD 태스크에서 검증자 없는 자기 개선이 가능하다는 점이 흥미롭습니다.
CLI 에이전트 RL에서 환경 피드백을 버리지 말고, 밀집 예측 손실로 재활용하자 — ECHO는 GRPO의 단일 패스로 추가 롤아웃 없이 pass@1을 2배 올립니다.
핵심 결론
- 성능 — TerminalBench-2.0에서 Qwen3-8B pass@1: 2.70% → 5.17%, Qwen3-14B: 5.17% → 10.79% (GRPO 대비 2배).
- 환경 예측 — ECHO는 정책이 생성하지 않은 궤적에서도 환경 토큰 cross-entropy를 크게 줄이며, GRPO는 거의 변화 없음.
- 검증자 불필요 — 환경 예측 손실만으로도 OOD 태스크에서 검증자 없는 자기 개선이 가능한 경우가 있음.
방법
- 핵심 아이디어 — GRPO의 행동 토큰에 대한 정책 그래디언트 손실에, 환경 관찰 토큰을 예측하는 보조 손실을 추가. 동일 forward pass 재사용.
- 차별점 — 기존 GRPO는 실패한 롤아웃에서 sparse reward로 인해 정책 그래디언트 신호가 약한 반면, ECHO는 모든 롤아웃에서 밀집 신호를 제공.
- 구현 — 추가 롤아웃 없이 GRPO와 동일한 rollout 데이터를 사용하므로 계산 오버헤드가 거의 없음.
한계·조건
- 도메인 — CLI 에이전트 환경에 특화되어 있으며, 다른 embodied 설정으로의 일반화는 검증되지 않음.
- 비교 — 전문가 SFT 후 GRPO 대비 절반 정도의 이점만 회복했으며, 전문가 SFT 없이도 유사 성능을 달성한 것은 주목할 만함.
- 재현성 — 코드 공개 여부는 명시되지 않았으며, Qwen3 기반 실험 결과만 보고됨.
편집자 한 줄
CLI 에이전트라는 좁은 도메인이지만, RL에서 환경 피드백을 밀집 신호로 재활용하는 아이디어는 다른 상호작용 태스크에도 확장 가능해 보입니다.
- #rl
- #cli-agent
- #microsoft-research
- #reinforcement-learning
- #terminalbench
Microsoft Research