Papers·1개월 전

LLM 진화 프레임워크 LIMEN — RL 태스크 인터페이스(관찰+보상)를 raw state에서 자동 합성

LIMEN은 LLM 기반 진화 프레임워크로, raw simulator state로부터 관찰 매핑과 보상 함수를 포함한 RL 태스크 인터페이스를 자동으로 생성합니다. 후보 인터페이스를 실행 가능한 프로그램으로 표현하고 정책 학습 피드백을 통해 반복 개선합니다. 다양한 그리드월드 및 연속 제어 도메인에서 관찰과 보상을 공동 진화하면 trajectory 수준의 성공 메트릭만으로 효과적인 인터페이스를 발견하며, 단일 구성요소 최적화는 최소 하나의 도메인에서 실패합니다. 단, 평가 스위트 내 도메인에 국한된 결과이며 재현성은 코드 공개로 뒷받침됩니다.

#reinforcement-learning
#llm
#task-interface
#evolution
#lime

Lossfunk

원문 보기 →

LLM 진화 프레임워크 LIMEN — RL 태스크 인터페이스(관찰+보상)를 raw state에서 자동 합성

Comments