Papers·1개월 전

Set-to-set 거리 보상으로 흉부 X-ray 판독문 생성 — BERTScore 6.8%·RadGraph F1 7.8% 개선

Gevaert Lab 팀이 흉부 X-ray 판독문 생성을 위해 set-to-set 거리를 보상으로 사용하는 방법을 제안했습니다. 판독문을 문장 단위로 분할해 frozen sentence transformer로 임베딩한 뒤, 생성문과 참조문 간의 집합-집합 거리를 연속적이고 순열 불변인 보상으로 활용합니다. Qwen3-VL-2B/4B, Gemma3-4B 모델에 GRPO로 후학습한 결과, 지도 미세조정이나 exact-match GRPO보다 BERTScore 6.8%, RadGraph F1 7.8%, CheXbert F1 4.45% 향상되었습니다. 또한 test-time best-of-N 선택과 중간 생성 중 pruning에도 적용 가능해 토큰 수를 50% 이상 줄이면서도 품질을 유지했습니다. 코드는 공개되었습니다.

Gevaert Lab이 흉부 X-ray 판독문 생성을 위해 set-to-set 거리 기반 보상으로 GRPO 후학습과 test-time scaling을 통합한 방법을 제안했습니다.

핵심 결론

태스크 — 흉부 X-ray 판독문 생성 — set-to-set 거리 보상으로 GRPO 후학습.
개선폭 — Qwen3-VL-2B/4B, Gemma3-4B에서 BERTScore 6.8%, RadGraph F1 7.8%, CheXbert F1 4.45% 상대 향상.
test-time — Best-of-N 선택 시 BERTScore 16.4% 상대 개선, mid-generation pruning으로 토큰 50%+ 절감.

방법

핵심 아이디어 — 판독문을 문장 단위로 분할해 frozen sentence transformer로 임베딩한 후, 생성문과 참조문의 집합 간 거리를 보상으로 사용.
보상 특성 — 연속적이고 순열 불변이라 unordered findings에 적합하며, exact-match나 step-level reward보다 더 풍부한 신호를 제공.
학습 — GRPO로 후학습 — set-to-set 거리를 보상으로 사용해 supervised fine-tuning보다 일관되게 우수.

한계·조건

도메인 — 흉부 X-ray 판독문에 특화되어 있으며, 다른 의료 영상이나 일반 텍스트 생성으로의 일반화는 검증되지 않음.
데이터셋 — 두 데이터셋에서 평가했으나 데이터 규모나 다양성에 대한 추가 분석은 부족.
코드 — 익명 저장소에 공개되어 재현 가능.

편집자 한 줄

set-to-set 거리라는 단순한 아이디어로 GRPO 후학습과 test-time scaling을 동시에 개선한 점이 인상적입니다. 다만 흉부 X-ray라는 특수 도메인에 국한되어 있어 일반화 가능성은 지켜봐야겠네요.

#reinforcement-learning
#reward-design
#medical-imaging
#set-distance
#cxr-generation

Gevaert Lab

원문 보기 →

Set-to-set 거리 보상으로 흉부 X-ray 판독문 생성 — BERTScore 6.8%·RadGraph F1 7.8% 개선

핵심 결론

방법

한계·조건

Comments