Papers·2개월 전

UMD, LLM 추론을 위한 동적 프로그램-of-layers (PoLar) — 수학 추론 정확도 3% 향상, 레이어 수는 더 적게

University of Maryland 팀이 LLM 추론 시 레이어를 입력별로 동적으로 건너뛰거나 반복하는 training-free 방법 PoLar를 제안했습니다. 수학 추론 벤치마크에서 표준 추론 대비 정확도가 최대 3% 향상되었고, 동시에 실행 레이어 수는 줄었습니다. 단, PoLar 예측 네트워크의 추가 학습이 필요하며, 현재는 수학 태스크에 국한된 결과입니다.

UMD 연구진이 고정 깊이 추론의 한계를 넘어, 입력별로 레이어를 동적으로 조합하는 PoLar 방법을 제안했습니다.

핵심 결론

벤치 — GSM8K, MATH 등 수학 추론 벤치마크에서 표준 추론 대비 정확도 1~3% 향상, 동시에 평균 실행 레이어 수 10~20% 감소.
일반화 — OOD 평가에서도 일관된 성능 향상을 보였으며, 기존 동적 깊이 방법보다 우수했습니다.

방법

핵심 아이디어 — 사전 학습된 레이어를 모듈로 간주하고, 입력별로 skip 또는 loop을 결정하는 경량 PoLar 예측 네트워크를 학습합니다.
이 예측 네트워크는 각 레이어의 hidden state를 입력으로 받아 이진 결정을 내리며, 전체 모델의 1% 미만 파라미터로 구성됩니다.
훈련 — PoLar 예측 네트워크는 강화 학습(REINFORCE)으로 학습되며, base LLM의 가중치는 고정됩니다.

한계·조건

태스크 — 현재 수학 추론에만 검증되었으며, 일반 NLP 태스크에서의 효과는 추가 실험이 필요합니다.
비용 — PoLar 예측 네트워크 학습에 추가 연산이 필요하며, 추론 시에도 예측 오버헤드가 존재합니다.
코드 — 논문에서 코드 공개를 약속했으나 현재는 미공개 상태입니다.

편집자 한 줄

레이어 단위 동적 실행은 기존에도 시도가 있었지만, skip과 loop를 모두 허용한 점이 새롭네요. 다만 수학 태스크 외 일반화가 관건입니다.

#llm
#inference
#dynamic-depth
#umd

University of Maryland College Park

원문 보기 →

UMD, LLM 추론을 위한 동적 프로그램-of-layers (PoLar) — 수학 추론 정확도 3% 향상, 레이어 수는 더 적게

핵심 결론

방법

한계·조건

Comments