Papers·1주 전
텍스트와 시각 프롬프트 통합 이미지 편집 — TV-Edit, 정밀도·의도 충실도 동시 향상

VCLab 팀이 텍스트 명령의 의미 표현력과 드래그·포인트 기반 시각 프롬프트의 공간 정밀도를 통합한 이미지 편집 프레임워크 TV-Edit를 제안했습니다. 동영상에서 추출한 23K 쌍의 텍스트-시각 지시 데이터셋으로 학습해, 텍스트-온리나 드래그-온리 방식보다 공간 제어 정확도와 의도 충실도가 높아졌습니다. 단, 벤치마크(TV-Edit-Bench)가 합성 데이터 기반이라 실제 사용자 시나리오와의 괴리는 추가 검증이 필요합니다.
텍스트 명령만으로는 공간 제어가 거칠고, 드래그 같은 시각 프롬프트는 의미 모호성이 있어 두 장점을 합친 프레임워크가 나왔습니다.
핵심 결론
- 태스크 — 텍스트-시각 공동 지시 기반 이미지 편집 — 정밀한 공간 제어와 의미 충실도를 동시에 달성.
- 성능 — 기존 instruction-based 및 drag-based SOTA 대비 공간 정렬, 의미 충실도, 구조 일관성 모두 우위.
방법
- 동영상 프레임 간 차이를 활용해 텍스트(변화 설명)와 시각(드래그 포인트) 쌍을 23K 샘플로 자동 생성.
- TV-Edit — 드래그/포인트 기반 시각 지시를 이미지-텍스트 의미와 결합해 semantic-aware control representation 으로 변환, 사전학습된 편집 백본에 주입.
한계·조건
- 데이터 — 데이터셋이 동영상 기반이라 실제 정적 이미지 편집 요구와 분포 차이가 있을 수 있음.
- 벤치 — TV-Edit-Bench 는 합성 ground-truth 기준 평가로, 사용자 선호도 연구는 별도 필요.
- 코드 — GitHub 공개 예정 — 현재는 abstract + figure 만 열람 가능.
편집자 한 줄
텍스트와 시각을 동시에 조건으로 주는 아이디어 자체는 직관적이지만, 23K 데이터가 커버하는 편집 다양성이 충분한지는 좀 더 지켜볼 점입니다.
- #image-editing
- #text-to-image
- #visual-prompt
- #vclab
VCLab