Papers·1개월 전

LongAttnComp: 100k+ 토큰 컨텍스트에서 코드 추론 정확도 유지하며 프리필 비용 절감

SambaNova 팀이 100k+ 토큰 컨텍스트에서 프리필 비용을 줄이면서도 코드 추론 정확도를 유지하는 LongAttnComp를 공개했습니다. 기존 training-free attention 압축 방식이 코드 추론에서 크게 떨어지는 문제를 해결하기 위해, 경량 cross-attention scoring layer를 fine-tuning하고 토큰 수준 청킹, token-budget top-p 알고리즘, 위치 재정렬, 포맷 불문 쿼리 파서를 도입했습니다. InfiniteBench Code-Debug에서 full-context 정확도와 동등하거나 더 나은 성능을 보였고, LongBench v2에서도 multi-document reasoning 격차를 크게 줄였습니다.

SambaNova 팀이 100k+ 토큰 컨텍스트에서 프리필 비용을 줄이면서 코드 추론 정확도를 유지하는 LongAttnComp를 공개했습니다.

핵심 결론

벤치 — InfiniteBench Code-Debug에서 full-context 정확도와 동등하거나 더 나은 성능을 보였고, training-free baseline을 크게 능가했습니다.
전이 — 세 모델 패밀리의 네 가지 target 모델에 대해 전이 가능함을 확인했습니다.
LongBench v2 — 두 단계 fine-tuning 레시피로 multi-document reasoning에서 Stage 1 대비 격차를 크게 줄였습니다.

방법

구조 — 경량 cross-attention scoring layer를 fine-tuning하여 중요 토큰을 선택적으로 유지합니다.
기법 — 토큰 수준 청킹, token-budget top-p 알고리즘, 위치 재정렬, 포맷 불문 쿼리 파서를 새로 도입했습니다.
학습 — 2단계 fine-tuning: Stage 1은 NIAH 스타일 데이터로 검색 기반 학습, Stage 2는 multi-hop 및 추론 데이터로 확장합니다.

한계·조건

데이터 — 두 번째 단계 fine-tuning에 사용된 multi-hop 및 추론 데이터의 규모와 구성은 논문에 상세히 공개되지 않았습니다.
코드 — 현재 코드 공개 여부는 확인되지 않았습니다.
범위 — 주로 코드 추론 태스크에 특화되어 있으며, 다른 도메인에서의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

코드 추론이라는 까다로운 long-context 태스크에서 training-free 방식의 한계를 fine-tuning으로 메운 점이 인상적입니다. 다만 fine-tuning 데이터 구성이 성능에 큰 영향을 미칠 것으로 보여, 재현성을 위해 데이터 공개가 필요해 보입니다.

#context-compression
#long-context
#sambanova
#attention
#code-reasoning

SambaNova

원문 보기 →

LongAttnComp: 100k+ 토큰 컨텍스트에서 코드 추론 정확도 유지하며 프리필 비용 절감

핵심 결론

방법

한계·조건

Comments