Papers·2일 전
FID 재현성 분석 — 같은 레시피로 재학습하면 FID가 3.2배 더 흔들린다

Kyutai 연구진이 FID를 확률변수로 보고 수백 개의 SiT 네트워크를 학습해 재현성을 측정했습니다. 같은 레시피로 재학습 시 FID가 재샘플링보다 3.2배 더 변동하며, 이는 초기화·데이터 순서·flow-matching 노이즈 때문입니다. 모델 크기나 compute를 늘려도 변동 계수(CoV)는 1-2%에 머물러, 단일 FID 수치 대신 오차 막대와 함께 보고할 것을 권장합니다.
FID 하나만 믿고 논문을 비교해왔다면, 이 연구는 그 수치가 생각보다 훨씬 불안정하다는 걸 보여줍니다.
핵심 결론
- 변동성 — 같은 학습 레시피로 seed만 바꿔 재학습하면 FID가 재샘플링보다 3.2배 더 크게 움직입니다.
- 요인 — 초기화·데이터 순서·flow-matching 노이즈가 주 원인이며, compute나 모델 크기를 늘려도 CoV는 1-2%로 좁혀지지 않습니다.
- 가이던스 — per-cell CFG 튜닝으로 변동 폭을 절반으로 줄일 수 있지만, 최적 seed는 바뀝니다.
방법
- class-conditional ImageNet 256x256에서 수백 개의 SiT 네트워크를 학습해 FID를 training seed와 generation seed의 2축 패널로 측정했습니다.
- 각 셀에서 CFG 스케일을 개별 최적화(per-cell optimal guidance)해 변동을 줄이는 프로토콜을 제안합니다.
한계·조건
- 벤치 — SiT + class-conditional ImageNet 256x256에 국한된 결과로, 다른 아키텍처나 데이터셋에서도 동일할지는 추가 검증이 필요합니다.
- 코드 — 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
FID 하나로 순위를 매기던 관행에 꽤 의미 있는 반성점을 던집니다. CoV 1.3% 이하의 차이는 '유의미하지 않다'는 기준도 실용적이네요.
- #fid
- #reproducibility
- #image-generation
- #kyutai
Kyutai