Papers·1개월 전

Virginia Tech, 추론 검증을 선택적으로 적용해 토큰 26.8% 절약 — MATH-500에서 76.3% 정확도

Virginia Tech 연구팀이 frozen solver의 초기 답변을 보존하거나 능동 검증을 호출할지 결정하는 서빙 레이어 컨트롤러 SEVRA를 제안했습니다. Qwen3-4B 기반으로 MATH-500에서 항상 검증 시 75.5% 대비 76.3% 정확도를 달성하면서도 post-generation 토큰을 26.8% 줄이고 유해한 답변 변경(harmful flips)을 2.2%에서 1.0%로 감소시켰습니다. 단, 초기 solve 토큰을 8,192개로 늘리면 76.0% 정확도에 총 토큰 28% 감소가 가능해, 선택적 검증이 유용하지만 최적의 비용-정확도 트레이드오프는 아니라는 점이 한계입니다.

Virginia Tech 팀이 추론 검증을 선택적으로 적용해 토큰 효율을 높이는 서빙 레이어 컨트롤러 SEVRA를 공개했습니다.

핵심 결론

태스크 — MATH-500에서 선택적 검증(SEVRA)이 항상 검증 대비 76.3% vs 75.5% 정확도, 토큰 26.8% 절감, harmful flips 2.2%→1.0%.
전이 — GSM8K로 frozen transfer 시 검증 비율 3.0%만으로 정확도 93.4%→94.5%, 검증 토큰 91.2% 감소.

방법

접근 — 새로운 검증기(verifier)를 학습하는 대신, frozen solver의 초기 답변을 그대로 쓸지 능동 검증을 호출할지 결정하는 서빙 레이어 게이트를 학습.
게이트 — 서빙 시 관찰 가능한 attempt state(예: 생성 로그, 확률)로부터 recoverability-aware gate를 학습해 개입 여부를 판단.

한계·조건

비용 비교 — 초기 solve 토큰을 8,192개로 늘리면 76.0% 정확도에 총 토큰 28% 감소로, SEVRA보다 더 나은 cost frontier를 보임.
태스크 의존 — CommonsenseQA에서는 항상 검증이 오히려 정확도를 낮추며, Self-Consistency@5가 더 나은 선택.
배포 규칙 — 저자는 초기 예산을 먼저 튜닝하고, 명시적 검증·재시도 제한·감사 가능성·회귀 위험 통제가 중요할 때만 선택적 복구를 쓰라고 조언.

편집자 한 줄

검증기 자체 성능이 아니라 배포 관점에서의 선택적 검증을 다룬 점이 실용적입니다. 다만 초기 solve 길이를 늘리는 단순 baseline이 더 효율적인 경우가 많아, SEVRA의 실질적 이점은 제한적인 시나리오에 국한될 수 있겠네요.

#reasoning
#verification
#inference
#virginia-tech

Virginia Polytechnic Institute and State University

원문 보기 →

Virginia Tech, 추론 검증을 선택적으로 적용해 토큰 26.8% 절약 — MATH-500에서 76.3% 정확도

핵심 결론

방법

한계·조건

Comments