Papers·1주 전
CORE: 성공/실패 추론 궤적 대조로 빠른 자기 개선 — 5개 샘플로 GRPO 능가

Stanford 팀이 성공/실패 추론 궤적을 대조해 통찰(insight)을 생성하는 비모수 학습 알고리즘 CORE를 제안했습니다. 4개 추론 태스크에서 GRPO, GEPA 등보다 적은 rollout으로 더 빠른 성능 향상을 보였고, 5개 학습 샘플만으로도 기존 방법과 동등 이상의 개선을 달성했습니다. 단, 실험은 제한된 태스크에서만 검증되었고, 통찰의 일반화 가능성은 추가 연구가 필요합니다.
Stanford 팀이 적은 샘플로도 빠르게 추론 능력을 개선하는 비모수 학습 알고리즘 CORE를 공개했습니다.
핵심 결론
- 성능 — 4개 추론 태스크(수학, 논리 등)에서 GRPO, GEPA, MemRL 등 기존 방법보다 적은 rollout으로 더 큰 성능 향상.
- 샘플 효율 — 5개 학습 샘플만으로도 각 baseline과 동등 이상의 개선폭을 기록했습니다.
방법
- 아이디어 — 성공/실패 추론 궤적을 대조해 차이를 설명하는 짧은 자연어 통찰(insight)을 생성, 이를 프롬프트에 주입.
- 비모수 — 가중치 업데이트 없이 프롬프트 최적화 방식으로 동작, rollout 수를 크게 줄입니다.
한계·조건
- 태스크 범위 — 4개 태스크로 제한적이며, 복잡한 추론 체인이 긴 도메인에서는 효과가 검증되지 않았습니다.
- 통찰 품질 — 생성된 통찰의 품질이 성능에 민감하게 작용할 가능성이 있습니다.
편집자 한 줄
적은 샘플로 빠른 개선이 가능하다는 점은 실용적이지만, 통찰의 재현성과 일반화는 추가 검증이 필요해 보입니다.
- #reasoning
- #self-improvement
- #contrastive-learning
- #stanford
Stanford University