Reproduction
DDPM 재현 중 시드별 FID 분산이 생각보다 큽니다
CIFAR-10에서 동일 config로 시드만 바꿔 학습했더니 FID가 1.5포인트 정도 출렁이네요. EMA(0.9999)로 줄긴 하는데 완전히 사라지진 않습니다. 다들 비슷하게 보시나요? 학습을 800k step 이상으로 길게 가져가면 분산이 줄어드는지 궁금합니다.
CIFAR-10에서 동일 config로 시드만 바꿔 학습했더니 FID가 1.5포인트 정도 출렁이네요. EMA(0.9999)로 줄긴 하는데 완전히 사라지진 않습니다. 다들 비슷하게 보시나요? 학습을 800k step 이상으로 길게 가져가면 분산이 줄어드는지 궁금합니다.
Accepted answer
저도 CIFAR-10에서 같은 현상 봤어요. EMA decay 0.9999 + 800k step 이상으로 가면 시드 분산이 눈에 띄게 줄었습니다. 짧게 끊으면 운 나쁜 시드에서 FID가 튀더라고요.
Worth reporting mean±std over seeds rather than a single number — this kind of variance is exactly why single-run FID comparisons are so fragile.