Papers·3개월 전

AMD, GRPO 기반 추론 압축에서 SAS로 정확도 유지하며 길이 16.3% 단축

AMD 연구진이 GRPO 기반 추론 압축에서 발생하는 정확도 저하를 해결하는 Step-level Advantage Selection (SAS)을 제안했습니다. SAS는 추론 단계별로 신뢰도가 낮은 올바른 rollout과 검증 실패 rollout에서 신뢰도가 높은 단계에 zero advantage를 할당해, 길이 보상 없이도 평균 Pass@1 정확도를 0.86점 개선하고 추론 길이를 16.3% 줄였습니다. 단, 이 방법은 GRPO 프레임워크에 종속적이며, 다양한 벤치마크에서의 일반화 가능성은 추가 검증이 필요합니다.

#grpo
#reasoning-compression
#amd
#llm
#efficiency

AMD

원문 보기 →

AMD, GRPO 기반 추론 압축에서 SAS로 정확도 유지하며 길이 16.3% 단축

Comments