Ships·4개월 전

MiniMax, 에이전트 RL 프레임워크 Forge 공개 — M2.5 모델 학습에 활용

Hugging Face 블로그를 통해 MiniMax가 자체 개발한 확장형 에이전트 RL 프레임워크 Forge를 공개했습니다. 시스템 처리량, 학습 안정성, 에이전트 유연성이라는 '불가능한 삼각 관계'를 해결한 것이 핵심으로, 표준화된 상호작용 프로토콜을 통해 임의의 에이전트 스캐폴드 학습을 지원합니다. MiniMax M2.5 모델 구축 과정에서 10만 개 이상의 에이전트 스캐폴드와 환경을 처리했으며, 최대 200K 컨텍스트 길이에서 일간 수백만 샘플 규모의 처리량을 유지했다고 합니다. CISPO 알고리즘과 복합 보상 프레임워크를 통합해 실제 생산성 향상에 초점을 맞춘 점이 눈에 띕니다.

#huggingface
#minimax
#forge
#reinforcement-learning
#agents

Hugging Face

원문 보기 →

MiniMax, 에이전트 RL 프레임워크 Forge 공개 — M2.5 모델 학습에 활용

Comments