Papers·1개월 전

HiLight: 증거 선택과 추론 분리 — 긴 문맥에서 LLM 성능 일관 개선

HiLight는 긴 노이즈 문맥에서 결정적 증거가 묻힐 때 LLM 추론 성능이 떨어지는 문제를 해결합니다. 증거 선택을 위한 경량 Emphasis Actor를 RL로 학습해 원본 입력을 변경하지 않고 핵심 구간에 태그만 삽입, frozen Solver가 추론하게 합니다. sequential recommendation과 long-context QA에서 강력한 프롬프트 기반/자동 최적화 기준선보다 일관된 성능 향상을 보였고, 학습된 정책이 API 기반 Solver를 포함한 다른 크기의 모델로 제로샷 전이됩니다. 단, Actor 학습에 Solver의 task reward만 사용하므로 증거 레이블이 필요 없고 Solver 접근/수정이 불필요합니다.

#llm
#long-context
#reinforcement-learning
#evidence-selection
#hilight

Shaoang Li

원문 보기 →

HiLight: 증거 선택과 추론 분리 — 긴 문맥에서 LLM 성능 일관 개선

Comments