Papers·1개월 전

Dynamic Latent Routing: 언어모델 사후 학습에서 이산 잠재 코드와 라우팅 정책을 동시에 학습

Thoughtworks 연구진이 시간에 따라 변하는 보상 함수를 가진 MDP에서 최적 정책을 시간적 구성으로 복원할 수 있음을 증명하고, 이를 바탕으로 Dynamic Latent Routing (DLR)을 제안했습니다. DLR은 단일 학습 단계에서 이산 잠재 코드, 라우팅 정책, 모델 파라미터를 동적 탐색으로 공동 학습하는 언어모델 사후 학습 방법입니다. 저데이터 미세조정 환경에서 네 데이터셋과 여섯 모델에 대해 평균 +6.6% 포인트 향상을 보였으며, 기존 이산 잠재 기반 방법들은 일관되게 SFT보다 낮은 성능을 보였습니다. 메커니즘 분석 결과 DLR이 구조화된 라우팅 행동과 뚜렷한 인과 역할을 학습함을 확인했습니다.

#post-training
#latent-routing
#language-model
#thoughtworks

Thoughtworks

원문 보기 →

Dynamic Latent Routing: 언어모델 사후 학습에서 이산 잠재 코드와 라우팅 정책을 동시에 학습

Comments