Papers·2일 전
LLM 추론을 에너지-토큰 생산 문제로 재정의 — Token Production Function 제안
저자는 LLM 추론 평가가 정확도·지연시간·처리량에만 집중되어 있다고 지적하며, 실제 배포 환경에서는 전력·냉각·PUE·가동률이 성능 제약 조건이 된다고 주장합니다. 추론을 '에너지-토큰 생산'으로 보는 Token Production Function을 제안하고, 시스템 최적화(KV cache 압축, 양자화, 라우팅 등)를 FLOPs/token 및 joules/token 절감 레버로 재해석합니다. 논문과 벤치마크에 Joules/token, 활성 제약 조건, PUE 조정 전력, 가동률 반영 토큰 출력을 포함할 것을 촉구합니다.
- #llm-inference
- #energy-efficiency
- #token-production-function
- #system-optimization
Xiang Liu