Papers·2일 전

FocuSFT: SFT 시 attention 희석 문제 해결 — 16K 컨텍스트에서 RULER CWE 72.9%→81.1%

Microsoft Research와 공동 연구진이 SFT 과정에서 attention budget이 위치적으로 특권화된 토큰에 집중되는 'attention dilution' 문제를 해결하는 FocuSFT를 제안했습니다. 내부 루프에서 경량 파라미터로 컨텍스트에 대한 parametric memory를 형성해 관련 콘텐츠에 attention을 집중시키고, 외부 루프에서 이 sharpened representation에 조건화된 SFT를 수행하는 bilevel 최적화 구조입니다. BABILong에서 4K~32K 컨텍스트 길이에 걸쳐 최대 +14pp 정확도 향상, GPQA agentic tool use에서 pass@1 24% 상대 개선을 보였으며, attention sink mass가 529배 감소하고 컨텍스트 engagement가 3배 증가했습니다. 단, 이 방식은 학습 시간에 추가 최적화 루프가 필요해 학습 비용이 증가한다는 점을 고려해야 합니다.

#sft
#attention
#long-context
#microsoft

Zehua Pei

원문 보기 →

FocuSFT: SFT 시 attention 희석 문제 해결 — 16K 컨텍스트에서 RULER CWE 72.9%→81.1%

Comments