Papers·1개월 전

강화학습 Actor-Critic에서 다중 시간척도 신호 융합의 역설 — Target Decoupling 제안

PPO 등 Actor-Critic 구조에 다중 시간척도 신호를 단순 융합하면 정책 붕괴와 근시안적 악화가 발생한다는 역설을 규명하고, Actor 측에서는 장기 이점만 사용하고 Critic 측에서만 다중 시간척도를 유지하는 Target Decoupling 아키텍처를 제안했습니다. LunarLander-v2에서 단일 시간척도 기준선이 빠지는 호버링 지역을 이탈하고, 정책 붕괴 없이 '환경 해결' 임계값을 안정적으로 돌파했습니다. 코드는 GitHub에 공개되어 있습니다.

강화학습의 시간적 신용 할당 문제를 해결하기 위해 도파민 시스템에서 영감을 받은 다중 시간척도 접근법이 역설적인 알고리즘 병리를 유발한다는 분석과 해결책을 제시합니다.

핵심 결론

문제 — 다중 시간척도 신호를 단순 융합하면 정책 그래디언트가 surrogate objective 해킹에 노출되고, gradient-free 불확실성 가중치는 비가역적 근시안적 악화를 유발합니다.
해결 — Actor-Critic 구조에서 Actor는 장기 이점(long-term advantage)만으로 정책을 업데이트하고, Critic만 다중 시간척도 예측을 유지하는 Target Decoupling을 제안합니다.
성능 — LunarLander-v2에서 단일 시간척도 기준선이 빠지는 호버링 지역을 벗어나, '환경 해결' 임계값을 최소 분산으로 안정적으로 돌파했습니다.

방법

다중 시간척도 — 여러 할인율을 사용해 단기·장기 신호를 동시에 학습하지만, Actor에 단기 신호가 유입되면 정책이 불안정해집니다.
Target Decoupling — Critic에서는 다중 시간척도 예측을 유지해 표현 학습을 강화하고, Actor는 오직 장기 이점(long-term advantage)으로만 업데이트합니다.
실험 — 여러 독립적인 무작위 시드에서 통계적으로 유의미한 성능 향상을 보였으며, 하이퍼파라미터 해킹 없이도 정책 붕괴를 완전히 제거했습니다.

한계·조건

환경 — 실험은 LunarLander-v2 하나에서만 수행되어, 복잡한 보상 지연 환경에서의 일반화는 추가 검증이 필요합니다.
코드 — 재현을 위한 전체 소스 코드는 GitHub에 공개되어 있습니다.

편집자 한 줄

다중 시간척도 접근법의 역설을 명확히 짚고, 단순한 아키텍처 분리로 해결한 점이 인상적입니다. 다만 환경이 단순해 더 복잡한 도메인에서도 유효할지 지켜볼 필요가 있습니다.

#reinforcement-learning
#actor-critic
#temporal-credit-assignment
#multi-timescale

Jing Sun

원문 보기 →

강화학습 Actor-Critic에서 다중 시간척도 신호 융합의 역설 — Target Decoupling 제안

핵심 결론

방법

한계·조건

Comments