Papers·1주 전

텍스트와 시각 프롬프트 통합 이미지 편집 — TV-Edit, 정밀도·의도 충실도 동시 향상

VCLab 팀이 텍스트 명령의 의미 표현력과 드래그·포인트 기반 시각 프롬프트의 공간 정밀도를 통합한 이미지 편집 프레임워크 TV-Edit를 제안했습니다. 동영상에서 추출한 23K 쌍의 텍스트-시각 지시 데이터셋으로 학습해, 텍스트-온리나 드래그-온리 방식보다 공간 제어 정확도와 의도 충실도가 높아졌습니다. 단, 벤치마크(TV-Edit-Bench)가 합성 데이터 기반이라 실제 사용자 시나리오와의 괴리는 추가 검증이 필요합니다.

텍스트 명령만으로는 공간 제어가 거칠고, 드래그 같은 시각 프롬프트는 의미 모호성이 있어 두 장점을 합친 프레임워크가 나왔습니다.

핵심 결론

태스크 — 텍스트-시각 공동 지시 기반 이미지 편집 — 정밀한 공간 제어와 의미 충실도를 동시에 달성.
성능 — 기존 instruction-based 및 drag-based SOTA 대비 공간 정렬, 의미 충실도, 구조 일관성 모두 우위.

방법

동영상 프레임 간 차이를 활용해 텍스트(변화 설명)와 시각(드래그 포인트) 쌍을 23K 샘플로 자동 생성.
TV-Edit — 드래그/포인트 기반 시각 지시를 이미지-텍스트 의미와 결합해 semantic-aware control representation 으로 변환, 사전학습된 편집 백본에 주입.

한계·조건

데이터 — 데이터셋이 동영상 기반이라 실제 정적 이미지 편집 요구와 분포 차이가 있을 수 있음.
벤치 — TV-Edit-Bench 는 합성 ground-truth 기준 평가로, 사용자 선호도 연구는 별도 필요.
코드 — GitHub 공개 예정 — 현재는 abstract + figure 만 열람 가능.

편집자 한 줄

텍스트와 시각을 동시에 조건으로 주는 아이디어 자체는 직관적이지만, 23K 데이터가 커버하는 편집 다양성이 충분한지는 좀 더 지켜볼 점입니다.

#image-editing
#text-to-image
#visual-prompt
#vclab

VCLab

원문 보기 →

텍스트와 시각 프롬프트 통합 이미지 편집 — TV-Edit, 정밀도·의도 충실도 동시 향상

핵심 결론

방법

한계·조건

Comments