Papers·1개월 전

다중 도메인 RL에서의 간섭 메커니즘 — 희소 파라미터 편집과 저차원 충돌 부분공간

단일 도메인 RL 후훈련이 다른 도메인의 성능을 저하시키는 간섭 현상을 분석한 연구입니다. 저자들은 도메인별 RL이 희소하고 작은 크기의 파라미터 편집을 생성하며, 다른 도메인이 공유하는 활성 경로 위에서 업데이트 방향이 충돌할 때 간섭이 발생함을 발견했습니다. 이를 바탕으로 후속 도메인 훈련이 이전 도메인을 해치는 주된 경로가 2차 손상 항(second-order damage term)이며, 이 항이 저차원 공유 충돌 부분공간에 집중된다는 이론을 증명했습니다. 짧은 도메인 리프레시(refresh)가 이 부분공간의 유해 성분을 수축시켜 선택적 회복을 가능하게 하며, 수학 도메인에서 57.66→66.04 회복을 확인했습니다.

단일 도메인 RL 후훈련이 다른 도메인의 성능을 떨어뜨리는 간섭을 희소 파라미터 편집과 저차원 충돌 부분공간으로 설명한 연구입니다.

핵심 결론

간섭 메커니즘 — 단일 도메인 RL은 희소하고 작은 크기의 파라미터 편집을 생성하며, 다른 도메인이 공유하는 활성 경로 위에서 업데이트 방향이 충돌할 때 간섭이 발생합니다.
이론적 증명 — 후속 도메인 훈련이 이전 도메인을 해치는 주된 경로는 2차 손상 항이며, 이 항은 저차원 공유 충돌 부분공간에 집중됩니다.
회복 전략 — 짧은 도메인 리프레시(refresh)가 충돌 부분공간의 유해 성분을 수축시켜 선택적 회복을 가능하게 합니다.

방법

실험 설정 — LLM을 수학, 코드, QA, 창작 글쓰기(CW) 순서로 RL 훈련하고 각 단계별 성능을 측정했습니다.
리프레시 효과 — Code → Math → QA → CW 순서 후 Math 리프레시를 적용한 결과, Math 성능이 57.66에서 66.04로 회복되면서 다른 도메인 성능은 거의 유지되어 평균 66.39를 기록했습니다.
프록시 증거 — 훈련 없이 희소 프록시 충돌 좌표 집합에 대한 롤백(rollback)으로 Math-QA 쌍에서 Math를 부분 회복시켜 국소적 손상 증거를 제시했습니다.

한계·조건

도메인 순서 — 실험은 특정 도메인 순서(Code → Math → QA → CW)에 기반하며, 순서 변경 시 결과가 달라질 수 있습니다.
리프레시 비용 — 리프레시는 추가 RL 훈련을 필요로 하므로 완전한 훈련보다는 적지만 여전히 계산 비용이 듭니다.
일반화 — 이론은 로컬 섭동 모델(local perturbation model)에 기반하며, 더 큰 규모의 모델이나 더 많은 도메인에서의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

간섭의 기하학적 구조를 밝혀낸 점이 인상적이며, 리프레시 전략의 실용성은 도메인 수가 많아질수록 더 중요해질 만합니다.

#reinforcement-learning
#multi-domain
#interference
#llm
#alignment

Lei Yang

원문 보기 →

다중 도메인 RL에서의 간섭 메커니즘 — 희소 파라미터 편집과 저차원 충돌 부분공간

핵심 결론

방법

한계·조건

Comments