Papers·1개월 전

FlowTracer — attention 그래프로 토큰 단위 RL 보상 설계, 추론 태스크 평균 12% 개선

Zhichen Dong 팀이 LLM RL에서 토큰 단위 신용 할당 문제를 해결하는 FlowTracer를 제안했습니다. attention 가중치로 방향성 그래프를 구성하고, 정답에 도달하는 정보 흐름 경로를 추적해 토큰별 중요도를 계산, 이를 RL 보상에 반영합니다. GSM8K, MATH, BBH 등 여러 추론 벤치마크에서 기존 RL 대비 평균 12% 성능 향상을 보였습니다. 단, 그래프 구축에 추가 연산이 필요해 학습 오버헤드가 15% 정도 증가하는 조건이 붙습니다.

FlowTracer는 attention 그래프 위에서 정보 흐름을 추적해 토큰 단위 RL 보상을 설계, 추론 태스크 성능을 평균 12% 끌어올렸습니다.

핵심 결론

벤치 — GSM8K, MATH, BBH, ARC-Challenge 등 6개 추론 태스크에서 기존 RL(PPO, Reinforce) 대비 평균 12% 성능 향상.
모델 — Llama 2 7B, Mistral 7B, Gemma 7B 등 다양한 7B급 모델에서 일관된 개선을 확인했습니다.

방법

그래프 구성 — 토큰을 노드로, attention 가중치를 엣지 용량으로 하는 방향성 비순환 그래프(DAG)를 만듭니다.
흐름 추적 — 질문→정답 경로에 기여하는 정보 흐름만 남기도록 엣지 재가중치를 적용하고, 국소 흐름 보존을 강제합니다.
토큰 점수 — 각 토큰의 flow throughput(흐름 처리량)을 계산해 높은 점수를 받은 토큰에 RL 보상을 집중합니다.

한계·조건

오버헤드 — 그래프 구축 및 흐름 계산에 추가 연산이 필요해 학습 시간이 약 15% 증가합니다.
범위 — 현재는 7B급 모델에서만 검증되었으며, 더 큰 모델에서의 확장성은 추가 실험이 필요합니다.
코드 — GitHub에 공개 예정 — 현재는 논문과 부록만 공개되어 있습니다.

편집자 한 줄

attention 기반 그래프로 토큰 단위 신용 할당을 global하게 푼 점이 신선합니다. 다만 오버헤드가 무시할 수준은 아니라서, 효율성 개선이 후속 과제로 남았네요.

#reinforcement-learning
#llm
#credit-assignment
#attention
#reasoning

Zhichen Dong

원문 보기 →

FlowTracer — attention 그래프로 토큰 단위 RL 보상 설계, 추론 태스크 평균 12% 개선

핵심 결론

방법

한계·조건

Comments