Papers·2개월 전

IC-Seg: 사용자 의도를 다중 턴 대화로 명확히 하는 참조 분할 프레임워크 — 모호한 질의에서 기존 대비 15% 향상

iSEE-Laboratory 팀이 모호한 텍스트 질의에 대해 다중 턴 대화로 사용자 의도를 명확히 한 후 분할하는 IC-Seg 프레임워크를 제안했습니다. 핵심은 Hi-GRPO라는 계층적 강화학습 최적화 전략으로, 대화 궤적·턴·단계별로 밀집된 보상을 주어 불필요한 상호작용을 줄이고 의도 명확화 효율을 높였습니다. 모호한 질의를 포함한 Ambi-RVOS 벤치마크에서 기존 방법 대비 큰 폭으로 개선되었으며, 표준 추론 분할 벤치마크에서도 SOTA를 유지합니다. 단, 현재는 비디오 객체 분할에 초점이 맞춰져 있고 이미지 분할로의 일반화는 추가 검증이 필요합니다.

모호한 사용자 질의를 다중 턴 대화로 명확히 한 후 분할하는 에이전틱 프레임워크 IC-Seg가 공개되었습니다.

핵심 결론

벤치 — 모호한 질의를 포함한 Ambi-RVOS 벤치마크에서 기존 방법 대비 mIoU 15% 이상 향상.
표준 — RefCOCO/RefCOCO+ 등 표준 추론 분할 벤치마크에서도 SOTA 수준 유지.

방법

프레임워크 — 에이전트가 사용자와 다중 턴 대화를 통해 모호한 질의를 구체화한 후, 기존 참조 분할 모델로 전달.
Hi-GRPO — 계층적 강화학습 최적화로 궤적·턴·단계별 보상을 설계, 불필요한 턴을 줄이고 대화 품질을 높임.

한계·조건

범위 — 현재 비디오 객체 분할(Ref-VOS)에 특화; 이미지 분할로의 확장은 검증되지 않음.
데이터 — Ambi-RVOS는 사람이 수집한 모호한 질의 1,000개로 구성; 규모가 작아 일반화에 주의.
코드 — GitHub 공개 예정 (https://github.com/iSEE-Laboratory/IC-Seg).

편집자 한 줄

다중 턴 대화로 모호성을 해소하는 접근은 실용적이지만, 대화 비용(턴 수, 지연)이 실제 서비스에서 허용 가능한 수준인지는 추가 실험이 필요해 보입니다.

#referring-segmentation
#multi-turn-dialogue
#hierarchical-rl
#iSEE-Laboratory

iSEE-Laboratory

원문 보기 →

IC-Seg: 사용자 의도를 다중 턴 대화로 명확히 하는 참조 분할 프레임워크 — 모호한 질의에서 기존 대비 15% 향상

핵심 결론

방법

한계·조건

Comments