← Back to feed
Papers·2주 전

IC-Seg: 사용자 의도를 다중 턴 대화로 명확히 하는 참조 분할 프레임워크 — 모호한 질의에서 기존 대비 15% 향상

IC-Seg: 사용자 의도를 다중 턴 대화로 명확히 하는 참조 분할 프레임워크 — 모호한 질의에서 기존 대비 15% 향상

iSEE-Laboratory 팀이 모호한 텍스트 질의에 대해 다중 턴 대화로 사용자 의도를 명확히 한 후 분할하는 IC-Seg 프레임워크를 제안했습니다. 핵심은 Hi-GRPO라는 계층적 강화학습 최적화 전략으로, 대화 궤적·턴·단계별로 밀집된 보상을 주어 불필요한 상호작용을 줄이고 의도 명확화 효율을 높였습니다. 모호한 질의를 포함한 Ambi-RVOS 벤치마크에서 기존 방법 대비 큰 폭으로 개선되었으며, 표준 추론 분할 벤치마크에서도 SOTA를 유지합니다. 단, 현재는 비디오 객체 분할에 초점이 맞춰져 있고 이미지 분할로의 일반화는 추가 검증이 필요합니다.

모호한 사용자 질의를 다중 턴 대화로 명확히 한 후 분할하는 에이전틱 프레임워크 IC-Seg가 공개되었습니다.

핵심 결론

  • 벤치모호한 질의를 포함한 Ambi-RVOS 벤치마크에서 기존 방법 대비 mIoU 15% 이상 향상.
  • 표준RefCOCO/RefCOCO+ 등 표준 추론 분할 벤치마크에서도 SOTA 수준 유지.

방법

  • 프레임워크에이전트가 사용자와 다중 턴 대화를 통해 모호한 질의를 구체화한 후, 기존 참조 분할 모델로 전달.
  • Hi-GRPO계층적 강화학습 최적화로 궤적·턴·단계별 보상을 설계, 불필요한 턴을 줄이고 대화 품질을 높임.

한계·조건

  • 범위현재 비디오 객체 분할(Ref-VOS)에 특화; 이미지 분할로의 확장은 검증되지 않음.
  • 데이터Ambi-RVOS는 사람이 수집한 모호한 질의 1,000개로 구성; 규모가 작아 일반화에 주의.
  • 코드GitHub 공개 예정 (https://github.com/iSEE-Laboratory/IC-Seg).

편집자 한 줄

다중 턴 대화로 모호성을 해소하는 접근은 실용적이지만, 대화 비용(턴 수, 지연)이 실제 서비스에서 허용 가능한 수준인지는 추가 실험이 필요해 보입니다.

  • #referring-segmentation
  • #multi-turn-dialogue
  • #hierarchical-rl
  • #iSEE-Laboratory
iSEE-Laboratory
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —