Papers·5일 전

TongyiLab, LLM 에이전트가 경험을 통해 스스로 개선하는 CoD 프레임워크 공개

TongyiLab 팀이 장기 배치 에이전트가 환경 탐색과 작업 수행을 반복하며 스스로 컨텍스트를 업데이트하는 'Connect the Dots(CoD)' 메타 능력을 강화학습(RL)으로 학습시키는 프레임워크를 제안했습니다. GRPO 스타일의 세밀한 크레딧 할당 RL 알고리즘과 맞춤형 태스크 환경을 통해, 학습 도메인 내·교차 도메인·Ralph-loop 설정까지 일반화 가능성을 보여줬습니다. 코드는 GitHub에 공개되었습니다.

TongyiLab이 LLM 기반 에이전트가 장기 배치 중 경험을 통해 스스로 개선하는 메타 능력을 강화학습으로 학습시키는 CoD 프레임워크를 공개했습니다.

핵심 결론

태스크 — 장기 배치 에이전트가 환경 탐색과 작업 수행을 반복하며 컨텍스트를 업데이트하는 CoD 메타 능력 학습.
성과 — GRPO 기반 RL 훈련으로 학습 도메인 내·교차 도메인·Ralph-loop 설정에서 일반화 가능 확인.
공개 — GitHub에 구현체 공개 (https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod).

방법

알고리즘 — GRPO 스타일 RL에 세밀한 크레딧 할당을 적용해 긴 롤아웃 시퀀스에서 solve-task와 update-context 에피소드를 교차 학습.
환경 — CoD 메타 능력에 특화된 태스크와 환경을 설계해 도메인 일반 능력과 분리.
에이전트는 작업 수행 후 환경 정보를 컨텍스트에 반영하고, 이후 작업에서 이를 활용하도록 훈련됩니다.

한계·조건

범위 — 현재는 proof-of-concept 수준이며, 실제 복잡한 환경에서의 확장성은 추가 검증 필요.
리소스 — 긴 롤아웃 시퀀스와 RL 훈련으로 상당한 compute 요구가 예상됩니다.
재현성 — 코드는 공개되었으나, 환경 구성과 하이퍼파라미터 세부 사항은 추가 문서가 필요할 수 있습니다.

편집자 한 줄

장기 에이전트의 자기 개선 능력을 RL로 직접 학습하려는 시도는 흥미롭지만, 실제 배포 환경에서의 안정성과 효율은 좀 더 지켜봐야 할 부분입니다.

#llm
#reinforcement-learning
#agent
#tongyilab

TongyiLab

원문 보기 →

TongyiLab, LLM 에이전트가 경험을 통해 스스로 개선하는 CoD 프레임워크 공개

핵심 결론

방법

한계·조건

Comments