Papers·1개월 전

LayerRoute: Qwen2.5-0.5B 에서 툴 호출과 추론 단계별로 FLOPs 15% 차등 생략

Accenture 팀이 에이전트 언어모델의 이질적인 스텝(툴 호출 vs 추론)에 동일한 compute를 쓰는 비효율을 해결하는 LayerRoute를 제안했습니다. 각 트랜스포머 블록에 897개 파라미터의 라우터와 LoRA 어댑터를 달아, 입력별로 블록을 건너뛰도록 학습합니다. Qwen2.5-0.5B-Instruct 기준 3,000 스텝(6.4분) 훈련으로 툴 호출에서 15.25% FLOPs를 절감하면서도 perplexity는 오히려 개선되었습니다. 단, 0.5B 모델만 실험되었고 스케일 확장 시 추세가 유지될지는 추가 검증이 필요합니다.

Accenture 팀이 에이전트 언어모델의 툴 호출(짧고 결정적)과 추론(길고 복잡) 단계에 차등 compute를 할당하는 LayerRoute를 공개했습니다.

핵심 결론

태스크 — Qwen2.5-0.5B-Instruct에서 툴 호출과 추론 단계의 FLOPs 차등 생략.
절감 — 툴 호출 15.25% FLOPs 감소, 추론 단계는 2.34%만 생략 — 차이 12.91%p.
Perplexity는 LoRA 덕분에 오히려 개선(툴 -1.29, 추론 -1.30).

방법

라우터 — 각 블록에 Linear(896,1) 라우터(897 파라미터)를 추가, straight-through estimator로 이진 게이트 출력.
LoRA — Q/K/V/O attention에 rank 8 LoRA 어댑터(약 1.08M 파라미터)를 함께 학습.
훈련 — Hermes, Glaive, GSM8K, Turing 데이터로 3,000 스텝(6.4분 on A100 40GB). 게이트 정규화 항으로 블록 생략 유도.

한계·조건

모델 — Qwen2.5-0.5B-Instruct 단일 모델만 실험. 스케일 확장 시 추세 불확실.
벤치 — Perplexity 외 downstream 태스크 성능 측정은 미포함.
코드 — 공개 여부 명시되지 않음.

편집자 한 줄

6분 훈련으로 얻는 효율 대비 품질 유지가 인상적이지만, 0.5B 모델 특화 결과일 가능성도 염두에 둘 필요가 있겠네요.

#agentic
#efficient-inference
#layer-skipping
#qwen
#accenture

Accenture

원문 보기 →

LayerRoute: Qwen2.5-0.5B 에서 툴 호출과 추론 단계별로 FLOPs 15% 차등 생략

핵심 결론

방법

한계·조건

Comments