Papers·2주 전
연세대, RL 후학습 데이터 오염 탐지 프레임워크 LaRA 제안 — 층별 표현 분석으로 기존 대비 12%p 향상

연세대 연구팀이 RL 후학습 과정에서 데이터 오염을 탐지하는 층별 표현 분석 프레임워크 LaRA를 제안했습니다. 기존 출력 기반 탐지(우도, 엔트로피)가 RL 특성상 신뢰도가 낮은 문제를 해결하기 위해, 세 가지 보완 지표(섭동 민감도, 방향 붕괴, 국소 표현 강성)를 도입해 층별 기하학적 편차를 측정합니다. RL 후학습 추론 모델 실험에서 기존 방법 대비 탐지 정확도가 12%포인트 개선되었지만, 다양한 RL 알고리즘과 모델 규모에 대한 일반화 검증은 추가로 필요합니다.
연세대 연구팀이 RL 후학습 LLM의 데이터 오염을 탐지하는 층별 표현 분석 프레임워크 LaRA를 공개했습니다.
핵심 결론
- 태스크 — RL 후학습 LLM에서 데이터 오염 탐지 — 기존 출력 기반(우도, 엔트로피) 대비 층별 표현 분석이 더 효과적임을 입증.
- 성능 — RL 후학습 추론 모델 실험에서 기존 방법 대비 탐지 정확도 12%p 향상.
방법
- 세 가지 지표 — 섭동 민감도(perturbation sensitivity), 방향 붕괴(directional collapse), 국소 표현 강성(local representation rigidity) — 오염된 샘플에서 층별로 증폭되는 기하학적 편차를 포착.
- 탐지 프로토콜 — 층과 지표 전반의 표현 수준 편차를 종합해 오염 여부를 판단하는 집계 방식.
한계·조건
- 범위 — 실험은 특정 RL 후학습 추론 모델에 국한 — 다양한 RL 알고리즘(PPO, GRPO 등)과 모델 규모에 대한 일반화 검증은 추가 필요.
- 코드 — 현재 코드 공개 여부는 명시되지 않음.
편집자 한 줄
RL 후학습 특성(궤적 보상)을 고려한 오염 탐지라는 점에서 실용적이나, 다양한 RL 설정에서의 robustness 검증이 뒤따라야 할 것 같습니다.
- #reinforcement-learning
- #data-contamination
- #llm
- #yonsei-university
Yonsei University