Papers·3일 전
GGT-100K: 멀티모달 파운데이션 모델로 만든 실제 이미지 복원용 10만 쌍 데이터셋

VCLab 팀이 실제 저화질 이미지에 대해 Nano-Banana-2 같은 멀티모달 파운데이션 모델(MFM)로 고화질 타겟을 합성하는 GGT(Generative Ground Truth) 기법을 제안했습니다. 9개 MFM을 평가한 결과 Nano-Banana-2가 VLM 기반 적응형 프롬프트로 가장 사실적이고 내용에 충실한 고화질 출력을 생성했고, 이를 활용해 103,707쌍의 GGT-100K 데이터셋을 구축했습니다. 다양한 IR 모델의 실제 환경 일반화를 일관되게 개선했으며, 특히 생성형 IR 모델의 파인튜닝에 큰 효과를 보였습니다. 단, MFM 자체의 추론 비용이 크고, 합성된 고화질 이미지가 완전히 실제와 같지는 않다는 한계가 있습니다.
VCLab이 멀티모달 파운데이션 모델(MFM)을 활용해 실제 저화질 이미지에 대응하는 고화질 타겟을 합성, 10만 쌍 규모의 IR 데이터셋 GGT-100K를 구축했습니다.
핵심 결론
- 데이터셋 — GGT-100K는 103,707개의 LQ-HQ 학습 쌍과 500개의 테스트 쌍으로 구성, 다양한 실제 열화 유형을 포함합니다.
- 성능 — 기존 IR 모델(UNet 기반, 생성형 등)의 실제 환경 일반화를 일관되게 향상시켰으며, 생성형 IR 모델 파인튜닝에서 특히 큰 폭의 개선을 보였습니다.
방법
- MFM 평가 — 9개 최신 MFM(Nano-Banana-2, GPT-Image-2 등)을 다양한 장면과 열화 유형에 대해 체계적으로 평가했습니다.
- 선정 모델 — Nano-Banana-2에 VLM 기반 적응형 프롬프팅을 적용한 방식이 지각적 사실성과 내용 충실도에서 가장 우수했습니다.
- 파이프라인 — 다단계 품질 관리를 포함한 GGT 합성 파이프라인을 구축, 신뢰할 수 있는 LQ-HQ 쌍을 생성했습니다.
한계·조건
- 비용 — MFM 추론 자체에 상당한 컴퓨팅 자원이 필요하며, 대규모 데이터셋 생성 시 비용이 높을 수 있습니다.
- 완전성 — 합성된 HQ 이미지가 실제 고화질 이미지와 완전히 동일하지는 않으며, 특정 열화 유형에서는 성능 향상이 제한적일 수 있습니다.
- 코드 — 데이터셋과 파이프라인 코드는 공개 예정이나 현재는 논문과 일부 샘플만 확인 가능합니다.
편집자 한 줄
MFM을 IR 데이터 증강에 활용한 발상 자체는 참신하지만, 생성된 GT의 품질이 결국 MFM 성능에 의존한다는 점에서 한계도 명확합니다.
- #image-restoration
- #multimodal-foundation-model
- #dataset
- #vclab
VCLab