Papers·1개월 전

ADR: 원자적 분해·재조합으로 RLVR 훈련용 코드 태스크 생성 — 난이도·참신성 모두 개선

RLVR(Reinforcement Learning with Verifiable Rewards) 훈련용 코드 태스크의 부족 문제를 해결하기 위해 Atomic Decomposition and Recombination(ADR) 프레임워크를 제안합니다. 기존 heuristic seed 확장 방식 대신, 태스크를 원자적 요소로 분해한 뒤 통제된 재조합을 통해 참신하고 도전적인 검증 가능 코드 태스크를 생성합니다. 실험 결과, ADR은 참신성, 난이도, 다양성, 테스트 품질에서 기존 방법을 능가했으며, 알고리즘 프로그래밍, 도구 사용, 데이터 과학 등 다양한 하위 도메인에서 RLVR을 통한 코드 능력 향상 폭이 일관되게 더 컸습니다.

RLVR 훈련용 검증 가능 코드 태스크의 참신성과 난이도를 높이는 ADR 프레임워크를 소개합니다.

핵심 결론

태스크 — RLVR 훈련용 검증 가능 코드 태스크 생성 — 기존 heuristic 확장 대비 참신성·난이도·다양성·테스트 품질 모두 개선.
효과 — 알고리즘 프로그래밍, 도구 사용, 데이터 과학 등 여러 하위 도메인에서 RLVR 훈련 시 코드 능력 향상 폭이 더 큼.

방법

분해·재조합 — 기존 코드 태스크를 원자적 요소(연산, 조건, 루프 등)로 분해한 뒤, 이를 통제된 방식으로 재조합해 새로운 태스크를 생성합니다.
검증 가능성 유지: 재조합 과정에서 입출력 쌍과 검증기가 자동으로 생성되므로 RLVR 훈련에 바로 사용 가능합니다.

한계·조건

벤치 — 실험은 특정 LLM(예: CodeLlama) 기반으로 진행되었으며, 다른 모델 패밀리에서의 일반화는 추가 검증이 필요합니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

데이터 부족이 RLVR 확장의 병목이라는 점을 정면으로 해결한 접근이네요. 다만 원자적 요소의 정의와 재조합 규칙이 도메인에 따라 달라질 수 있어, 일반화 비용이 얼마나 들지가 관건입니다.

#rlvr
#code-generation
#data-synthesis
#reinforcement-learning

ICIP

원문 보기 →

ADR: 원자적 분해·재조합으로 RLVR 훈련용 코드 태스크 생성 — 난이도·참신성 모두 개선

핵심 결론

방법

한계·조건

Comments