← Back to feed
Papers·2일 전

FID 재현성 분석 — 같은 레시피로 재학습하면 FID가 3.2배 더 흔들린다

FID 재현성 분석 — 같은 레시피로 재학습하면 FID가 3.2배 더 흔들린다

Kyutai 연구진이 FID를 확률변수로 보고 수백 개의 SiT 네트워크를 학습해 재현성을 측정했습니다. 같은 레시피로 재학습 시 FID가 재샘플링보다 3.2배 더 변동하며, 이는 초기화·데이터 순서·flow-matching 노이즈 때문입니다. 모델 크기나 compute를 늘려도 변동 계수(CoV)는 1-2%에 머물러, 단일 FID 수치 대신 오차 막대와 함께 보고할 것을 권장합니다.

FID 하나만 믿고 논문을 비교해왔다면, 이 연구는 그 수치가 생각보다 훨씬 불안정하다는 걸 보여줍니다.

핵심 결론

  • 변동성같은 학습 레시피로 seed만 바꿔 재학습하면 FID가 재샘플링보다 3.2배 더 크게 움직입니다.
  • 요인초기화·데이터 순서·flow-matching 노이즈가 주 원인이며, compute나 모델 크기를 늘려도 CoV는 1-2%로 좁혀지지 않습니다.
  • 가이던스per-cell CFG 튜닝으로 변동 폭을 절반으로 줄일 수 있지만, 최적 seed는 바뀝니다.

방법

  • class-conditional ImageNet 256x256에서 수백 개의 SiT 네트워크를 학습해 FID를 training seed와 generation seed의 2축 패널로 측정했습니다.
  • 각 셀에서 CFG 스케일을 개별 최적화(per-cell optimal guidance)해 변동을 줄이는 프로토콜을 제안합니다.

한계·조건

  • 벤치SiT + class-conditional ImageNet 256x256에 국한된 결과로, 다른 아키텍처나 데이터셋에서도 동일할지는 추가 검증이 필요합니다.
  • 코드코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

FID 하나로 순위를 매기던 관행에 꽤 의미 있는 반성점을 던집니다. CoV 1.3% 이하의 차이는 '유의미하지 않다'는 기준도 실용적이네요.

  • #fid
  • #reproducibility
  • #image-generation
  • #kyutai
Kyutai
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —