Papers·5일 전

ContextRL: 컨텍스트 인식 강화학습으로 긴 문맥·멀티모달 추론 개선 — 평균 +2.2%

Princeton 대학 연구팀이 LLM이 긴 문맥에서 중요한 증거를 찾지 못하는 문제를 해결하기 위해 ContextRL을 제안했습니다. 기존 GRPO에 비해 5개 장기 추론 벤치마크에서 평균 +2.2%, 12개 VQA 벤치마크에서 +1.8% 향상되었습니다. 핵심은 쿼리-답변 쌍을 지지하는 컨텍스트를 선택하도록 보상을 주는 간접 목적 함수로, 추가 데이터만으로는 개선이 미미했다는 점이 방법의 효과를 뒷받침합니다.

Princeton 대학 연구팀이 긴 문맥에서 중요한 증거를 찾지 못하는 LLM의 문제를 해결하기 위해 컨텍스트 인식 강화학습(ContextRL)을 제안했습니다.

핵심 결론

성능 — 5개 장기 추론 벤치마크에서 GRPO 대비 평균 +2.2%, 12개 VQA 벤치마크에서 +1.8% 향상.
데이터 — 코딩 에이전트용 1K 쌍(조건 필터링), 멀티모달용 7K 쌍(생성적 편집+유사도 검색)을 구축.

방법

간접 목적 — 최종 답변만 보상하는 대신, 쿼리-답변 쌍을 지지하는 컨텍스트를 선택하도록 보상하는 간접 목적 함수를 사용.
대조 컨텍스트 — 두 개의 유사한 컨텍스트 중 올바른 것을 선택하도록 학습, 세밀한 근거 파악 능력 향상.
데이터 증강만으로는 개선이 거의 없어, 제안된 목적 함수의 효과가 대조 데이터 자체보다 중요함을 입증.

한계·조건

벤치마크 — 특정 도메인(코딩, VQA)에 한정, 일반화 가능성은 추가 연구 필요.
데이터 구축 — 대조 컨텍스트 데이터 구축에 수작업 또는 생성적 편집이 필요, 확장성에 제약.
공개 — 코드 및 데이터 공개 여부는 명시되지 않음.

편집자 한 줄

간접 목적 함수의 효과를 데이터 증강과 분리한 실험이 깔끔합니다. 다만 벤치마크가 한정적이라 실제 배포 환경에서의 이득은 더 검증이 필요해 보입니다.

#reinforcement-learning
#long-context
#multimodal
#princeton

Princeton University

원문 보기 →

ContextRL: 컨텍스트 인식 강화학습으로 긴 문맥·멀티모달 추론 개선 — 평균 +2.2%

핵심 결론

방법

한계·조건

Comments