[Paper Review] Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
Paper Review
제목 : Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
저널 : ICLR 2022 (Spotlight).
저자 : Zhisheng Xiao, Karsten Kreis, Arash Vahdat
일시 : 15 Dec 2021
연구 : The University of Chicago | NVIDIA
해당 논문 리뷰는 위 링크의 논문을 리뷰한 것입니다.
오류나 내용 정정 요청에 대한 문의는 언제나 환영입니다.
Background
본 논문을 읽기 전 Diffusion Models, DDPM, 그리고 GANs에 대한 개념은 필수적입니다.
아래 링크 중 Background에 대한 부분을 숙지해주세요.
그리고 간략하게 GAN과 DDPM에 대한 개념을 짚고 넘어가겠습니다.
Diffusion Models
확산 모델은 딥러닝 기반의 생성 모델 중 하나입니다. 이 모델의 기본 아이디어는, 원래의 데이터 분포를 noise가 많은 데이터로 점차 변형시키는 일련의 forward process(확산 프로세스)를 통해 데이터를 생성하는 것입니다. 즉, 원래의 데이터에서 시작하여, 각 단계마다 작은 양의 noise를 추가함으로써 데이터를 점진적으로 변형시킵니다. 최종적으로는 noise가 가득한 데이터에서 원래의 데이터로 되돌아가는 과정을 통해 새로운 샘플을 생성합니다.
DDPM(Denoising Diffusion Probabilistic Models)
DDPM은 확산 모델의 한 형태로, noise가 섞인 데이터를 원래의 데이터로 복원하는 denoising 단계를 포함합니다. 이 모델은 여러 단계에 걸쳐 noise를 점진적으로 제거함으로써 원래의 데이터로 되돌립니다. 각 단계에서, 모델은 noise가 있는 현재의 데이터와 다음 단계에서 얻을 수 있는 데이터 사이의 확률적 관계를 학습합니다.
GAN(Generative Adversarial Networks)
GAN은 생성 모델의 한 종류로, 두 개의 네트워크, 즉 생성자(Generator)와 판별자(Discriminator)로 구성됩니다. Generator는 실제 데이터와 유사한 새로운 데이터를 생성하려고 시도하며, Discriminator는 주어진 데이터가 실제 데이터인지 생성자가 생성한 데이터인지를 구분하려고 시도합니다. 이 두 네트워크는 서로 적대적인 관계에(Adversarial) 있어, Generator는 Discriminator를 속이려고 노력하며, Discriminator는 Generator를 더 잘 구별하려고 노력합니다. 이 경쟁적인 학습 과정을 통해, Generator는 실제 데이터와 매우 유사한 고품질의 데이터를 생성하게 됩니다.
Diffusion Models에서의 forward process에서는 점진적으로 data에 noise를 time step T까지 더해나갑니다.
이때, pred-defined된 variance schedule $ \beta_t $를 따릅니다.
수식은 다음과 같습니다.
위 수식에서 $ q(x_0) $는 data-generation distribution입니다.
그리고 reverse denoising process는 다음과 같이 정의됩니다.
여기서 denoising model의 mean, variance가 있고, $ \theta $는 그것의 parameters입니다.
훈련의 목적은 다음의 수식의 likelihood를 최대화 하는 것이며,
ELBO(evidence lower bound)를 최대화함으로써 진행된다.
ELBO는 true denoising distribution과 parameterized denoising model을 사용하여 다음과 같이 쓰일 수 있다.
C는 $ \theta $와 독립적인 상수항이며, $ D_{KL} $은 Kullvack_Leibler(KL) divergence를 의미한다.
아래 항은 intractable하다.
대신하여 다른 term이 필요해진다.
Sohl-Dickstein et al.(2015)는 위 ELBO 항이 tractable한 다른 형태로 작성될 수 있음을 보였습니다.
Ho et al.(2020)은 이 형식이 denoising score matching으로 훈련된 score-based models과 동일함을 보였습니다.
diffusion models은 일반적으로 두 가지 주요한 가정이 있습니다.
- denoising distribution은 Gaussian distribution으로 modeling됩니다.
- denoising step T는 수백에서 수천 단계의 order로 가정되곤 합니다.
이 논문에서는 discrete-time diffusion models에 중점을 둡니다.
continuous-time diffusion models에서의 비슷한 가정이 시간을 작은 시간 단계로 discretizing할 때 sampling 시간에도 이루어집니다.
그럼 내용을 조금 더 자세히 살펴봅시다.
Abstract
지난 10년 동안 개발된 다양한 Deep Generative Models은 종종 high sample quality, mode coverage, fast sampling을 포함한 세 가지 핵심 요구사항을 동시에 처리하는 데 어려움을 겪습니다.
이 3가지 요구사항에 의해 나온 Chanllenge를 Generative Learning Trilemma라고 부릅니다.
Denoising Diffusion Models은 impressive sample quality와 diversity를 보였지만 expensive sampling으로 인해 real-world에서 적용하기가 어렵습니다.
본 논문에서는 이러한 slow sampling이 Denosing step에서의 Gaussian assumption 때문이라고 주장하며,
이 Gaussian assumption은 small step size에 대해서만 정당화됩니다.
그래서 본 논문에서는 large step으로 denoising이 가능하게 하며, denoising step의 수를 줄이기 위해서,
complex multimodal distribution을 사용하여 denoising distribution을 Modeling하려고 합니다.
그래서 multimodal conditional GAN을 이용하여 각 denoising step을 modeling하는 일명,
denoising diffusion generative adversarial networks (Denoising Diffusion GANs,DDGANs)을 제안합니다.
여러 광범위한 평가를 통해, denoising diffusion GANs은 원래의 diffusion models과 경쟁력 있는 sample quality와 diversity를 얻으면서 CIFAR-10 dataset에서 2000배 빠르게 작동하는 것을 보여줍니다.
Traditional GANs과 비교하여 DDGANs은 더 나은 Mode coverage와 sample diversity를 보여줍니다.
DDGANs은 Real world applications에서 저렴하게 적용될 수 있을 정도로 diffusion models의 비용을 줄이는 첫 모델입니다.
Introudction
지난 10년 동안 다양한 분야에 deep generative moldels이 많이 개발되었지만, 현재의 모델들은 high-quality sampling, mode coverage & sample diversity, fast & computationally inexpensive sampling의 세 가지 핵심 requirements를 동시에 만족시키는 데 어려움이 있습니다.
결국 위에서 언급한 것처럼 이것을 generative learning trilemma 문제라고 부릅니다.
정리하자면 다음과 같습니다.
Generative Learning Trilemma
- High-quality sampling
- mode coverage & sample diversity
- fast & computationally inexpensive sampling
위 Figure 1은 주요 generative frameworks가 trilemma를 어떻게 다루는지를 요약합니다.
GANs은 빠르게 high-quality samples를 생성하지만, mode coverage가 부족합니다.
반대로, VAEs와 normalizing flows는 data modes를 충실히 다루지만, sample quality가 낮게 나타납니다.
최근 diffusions models은 image generation에서 GANs보다 뛰어난 sample-quality를 보이며, high likelihood로 좋은 mode coverage를 얻습니다.
그러나 이 sampling은 실제로 매우 비싼 작업입니다.
본 논문에서는,
strong mode coverage와 sample quality를 유지하면서, denoising diffusion models을 fast sampling을 위해 재구성함으로써 generative learning trilemma를 해결합니다.
본 논문의 저자들은 diffusion models의 slow sampling problem을 조사하고, diffusion models이 denoising distribution이 Gaussian distribution으로 근사화한다는 일반적인 가정을 관찰했습니다.
그러나 Gaussian 가정(Gaussian Assumption)은 small denoising steps에서 무한소한 한계에서만 유효하다는 것이 알려져 있습니다. (Sohl-Dickstein et al., 2015; Feller, 1949).
이로 인해, reverse process에서 large number of steps이 필요한 것입니다.
이때, reverse process에서 더 큰 step 크기를 사용할 때 (즉, denoising steps가 더 적을 때) denoising distribution을 modeling하기 위해서 non-Gaussian multimodal distribution이 필요합니다.
직관적으로, image synthesis에서는 여러 가능성 있는 clean images가 동일한 noise가 있는 image에 해당할 수 있다는 사실로 인해multimodal distribution이 발생합니다.
이러한 observation에 영감을 받아,
큰 단계의 denoising을 가능하기 위해 표현력 있는 multimodal distribution으로 denoising distribution을 paramterize하기를 제안합니다.
특히, denoising distributions이 조건부 GANs으로 modeling되는 새로운 generative models인 "denoising diffusion GAN'을 제안합니다.
DDGANs은 Image generation에서 denoising step을 2번만 사용하더라도 diffusion models과 경쟁력 있는 sample quality와 mode coverage를 얻는다는 것을 관찰했습니다.
이는 CIFAR-10에서 Song et al. (2021c)의 predictor-corrector sampling에 비해 sampling 속도가 약 2000배 빠릅니다.
전통적인 GANs과 비교하여,
DDGANs은 sample diversity에서 SOTA GANs을 크게 능가하면서도 sample fidelity에서 경쟁력을 유지한다는 것을 보여줍니다.
요약된 contributions은 다음과 같습니다.
Contributions
- diffusion models의 slow sampling을 denoising distribution의 Gaussian assumption에 기인한다고 보고, 복잡한 multimodal denoising distribution을 사용하도록 제안.
- reverse process가 conditional GANs으로 parameterized된 diffusion models인 denoising diffusion GANs(DDGANs)을 제안.
- 신중한 평가를 위해서, DDGANs이 image generation과 editing에 있어 현재 diffusion models에 비해 수배의 속도 향상을 달성한다는 것을 보임.
즉, DDGANs이 큰 부분에서 generative learning trilemma를 극복하며, diffusion models을 처음으로 계산 비용이 낮은 대화식 실세계 응용 프로그램에 적용할 수 있게 한다는 것을 보여줍니다.
Denoising Diffusion GANs
1) Multimodal Denoising Distributions for Large Denoising Steps
우선, multimodal denoising distribution을 학습하는 데 있어, denoising steps을 줄이는 것이 왜 필요한지 언급합니다.
앞서 언급했 듯, forward process와 reverse process에서 true denoising distribution은 Gaussian 의 형태를 취합니다.
1. 무한히 작은 크기의 $ \beta_t $에서 Bayes' Rule의 곱은 $ q(x_t | x_{t-1}) $ 에 의해 지배되며, diffusion process의 반전은 forward process와 동일한 기능 형태를 가집니다. (Feller, 1949)
따라서, $ \beta_t $가 충분히 작다면, $ q(x_t | x_{t-1}) $ Gaussian을 따르므로 denoising distribution $ q(x_{t-1} | x_{t}) $ 또한 Gaussian입니다.
그러므로 현재 diffusion models에 의해 사용되는 approximation이 정확하다고 볼 수 있습니다.
이를 만족시키기 위해 diffusion models은 종종 작은 $ \beta_t $를 가진 수천 단계를 가집니다.
2. 둘째로, data marginal $ q(x_t) $가 Gaussian인 경우, denoising distribution $ q(x_{t-1}}|x_t) $ 또한 Gaussian distribution입니다.
VAE encoder를 사용하여 data distribution $ q(x_0) $와 그 결과로 $ q(x_t) $를 Gaussian에 가깝게 만드는 아이디어는 최근 LSGM(Vahdat et al., 2021)에서 탐구 되었습니다.
그러나 Data를 Gaussian으로 변환하는 문제 자체가 도전적이며 VAE encoder는 완벽하게 이를 해결할 수 없습니다.
이것이 LSGM이 복잡한 dataset에서 수십에서 수백의 steps을 필요로하는 이유입니다.
이 논문에서는 두 조건 중 어느 것도 충족되지 않을 때, 즉 denoising step이 크고 data distribution이 non-Gaussian일 때,
denoising distribution에 대한 Gaussian Assumption이 유효하다는 보장이 없다고 주장합니다.
이를 위해 아래 figure 2에서는 다양한 denoising step size에 대한 실제 denoising distribution을 시각화했습니다.
위 내용은 data의 noise를 제거하는 과정에서 사용되는 'step size'에 따라 data distribution이 어떻게 변화하는지를 시각적으로 보여준 것입니다.
그래서 위에서 multimodal data distribution을 다루는 데 있어 많은 step이 필요하다고 언급하고 있습니다.
2) Modeling Denoising Distributions with Conditional GANs
본 저자들은 다음과 같은 목표를 세웠습니다.
1. diffusion model의 reverse process에서 필요한 denoising diffusion step 수 T를 줄이는 것.
2. 위에서의 관찰에 영감을 받아서, denoising distribution을 expressive multimodal distribution으로 modeling하려고 함.
cGAN(conditional GAN)이 image 영역에서 complex conditional distribution을 modeling하는 데 효과적이라고 밝혀졌기 때문에, 실제 denoising distribution $ q(x_{t-1}|x_t) $ 를 근사하기 위해 그것들을 채택합니다. (Mirza & Osindero, 2014; Ledig et al., 2017;Isola et al., 2017)
모델 구조를 더 자세히 살펴봅시다.
먼저, forward diffusion은 Eq.1과 유사하게 설정됩니다.
주요 Assumption은 T가 작다고 가정되는 것(T <= 8)과 각 diffusion step이 더 큰 $ \beta_t $ 값을 가진다는 것입니다.
Training은 cGAN generator $ p_\theta(x_{t-1}|x_t) $ and $ q(x_{t-1}|x_t) $ 를 adversarial loss를 사용하여 일치시키는 방식으로 구성됩니다.
$ D_\text{adv} $는 adversarial training setup에 따라 Wasserstien distance, Jenson-Shannon divergence, or f-difvergence가 될 수 있습니다. (Arjovsky et al., 2017; Goodfellow et al., 2014; Nowozin et al., 2016)
본 논문에서는,
StyleGANs과 같은 성공적인 GAN framework에서 널리 사용되는 non-saturating GANs에 의존합니다. 이 경우, $ D_\text{adv} $는 원래의 diffusion model training에서 사용된 forward KL-divergence와는 다른 f-divergence의 특별한 instance인 $ softened reverse KL $으로 사용됩니다.
Adversarial training을 설정하기 위해서, time-dependent discriminator를 $ D_\phi(x_{t-1}, x_t, t) : \mathbb{R}^N x \mathbb{R}^N x \mathbb{R} \rightarrow [0, 1]$로 표시합니다. 이것은 N 차원의 $ x_{t-1} $과 $ x_t $를 입력으로 받아 $ x_{t-1} $ 이 $ x_t $의 타당한 denoised version인지 결정합니다. distriminator는 다음의 방식으로 훈련합니다.
여기서 $ p_\theta(x_{t-1}|x_t) $에서의 가짜 샘플은 $ q(x_{t-1}|x_t) $에서의 진짜 sample과 대조됩니다.
첫 번째 expectation은 unknown $ q(x_{t-1}|x_t) $에서 sampling을 필요로 합니다.
그러나 저자들은 첫 번째 expectation을 다시 작성하기 위해 identity $ q(x_t, x_{t-1}) = \int dx_0q(x_0)q(x_t, x_{t-1}|x_0) = \int dx_0q(x_0)q(x_{t-1}|x_0)q(x_t|x_{t-1}) $를 사용합니다.
discriminator가 주어지면, 저자들은 Non-saturating GAN 목적으로 $ max_\theta\Sigma_{t\geq1}\mathbb{E}_{q(x_t)}\mathbb{p_\theta(x_{t-1}|x_t)\left[log\left(D_\phi(x_{t-1}, x_t, t)\right)\right]} $에 의해 generator를 훈련시킵니다.
Parametrizing the implicit denoising model:
denoising step에서 $ x_{t-1} $을 직접 예측하는 대신, diffusion models (Ho et al., 2020)은 $ p_\theta(x_{t-1}|x_t) \colonequal q(x_{t-1}|x_t, x_0 = f_\theta(x_t, t))$ 를 통해 denoising models을 parameterizaing 하는 것으로 해석할 수 있습니다.
여기서 먼저 $ x_0 $는 denoising model $ f_\theta(x_t, t) $를 사용하여 예측 되고, 그 다음 $ x_{t-1} $은 예측된 $ x_0 $와 주어진 $ x_t $를 가지고 posterior distribution $ q(x_{t-1}|x_t, x_0) $를 사용하여 추출됩니다.
분포 $ q(x_{t-1}|x_0, x_t) $는 직관적으로 $ x_t $에서 $ x_0 $ 방향으로 denoising 할 때의 $ x_{t-1} $에 대한 분포이며, Eq.1의 diffusion step에 대해서는 data distribution의 step size와 complexity에 상관 없이 항상 Gaussian form을 띕니다.
마찬가지로 다음과 같이 $ p_\theta(x_{t-1}|x_t) $를 다음과 같이 정의합니다:
여기서 $ p_\theta(x_0|x_t)는 GAN generator $ G_\phi(x_t, z, t) : \mathbb{R}^N x \mathbb{R}^L x \mathbb{R} \rightarrow \mathbb{R}^N $에 의해 생성되는 $ x_0 $를 출력하는 Implicit distribution입니다.
이는 $ x_t $와 $L$-dimensional latent variable $ z ~ p(z) \colonequals \mathcal(N) (z; 0, I)를 주어져서입니다.
이렇게 저자들은 parameterization에 몇 가지 장점을 언급합니다.
1. $ p_\theta(x_{t-1}|x_t) 는 DDPM과 유사하게 구성되어 있다.
따라서 DDPM에서의 network architecture와 같은 inductive bias를 사용할 수 있습니다.
주요 차이점은, DDPM에서는 $ x_0 $가 $ x_t $의 deterministic mapping으로 예측되는 반면, 본 논문의 경우 $ x_0 $는 random latent variable $ z $와 함께 generator에 의해 생성됩니다.
이것은 denoising distribution $ p_\theta(x_{t-1}|x_t) $가 DDPM의 unimodal denoising model과 대조적으로 multimodal mode와 복잡해질 수 있게 하는 핵심 차이점입니다.
2. 다른 t에 대해 $ x_t $는 다른 수준의 왜곡을 가진다.
따라서 다양한 t에서 $ x_{t-1} $ 을 직접 예측하는 단일 network를 사용하는 것은 어려울 수 있습니다.
그러나 본 논문의 경우, generator는 unperturbed $ x_0 $만 예측하고 그 다음 $ q(x_{t-1} | x_t, x_0) $를 사용하여 왜곡을 다시 추가합니다.
figure 3은 training pipeline을 시각화합니다.
Advantage over one-shot generator:
DDGAN에 대한 자연스러운 질문은 왜 전통적인 설정을 사용하여 sample을 한 번에 생성할 수 있는 GAN을 훈련시키지 않고, sample을 반복적으로 denoising하여 생성하는 본 논문의 model과 대조적이지 않은지에 대한 것입니다.
본 논문의 모델은 전통적인 GAN에 비해 여러 가지 장점이 있습니다. GAN은 training instability과 mode collapse(Kodali et al., 2017; Salimans et al., 2016)로부터 고통 받는 것으로 알려져 있으며, 그 일부 가능한 이유는 complex distribution에서 sample을 한 번에 직접 생성하는 어려움과 discriminator가 깨끗한 sample만을 살펴보는 overfitting 문제 때문입니다.
반면, 본 논문의 모델은 생성 과정을 $ x_t $에 대한 강한 조건화 때문에 modeling하기 상대적으로 간단한 여러 조건부 denoising diffusion step으로 나눕니다. 게다가, diffusion 과정은 data distribution을 부드럽게 만들어(Lyu, 2012) discriminator가 overfitting될 가능성을 줄입니다.
따라서, 본 논문의 모델이 더 나은 training stability와 mode collapse를 나타낼 것으로 기대합니다.
Experiments
본 논문에서 image synthesis problem에 해당 DDGANs을 적용하고 평가한다.
generator는 NCSN++ architecture를 사용한다.
Overcoming the Generative Learning Trilemma
모델에 대한 강조할 점은, 모델이 generative learning trilemma에 있어 3가지 기준을 초과한다는 것이다.
sample, fidelity, sample diversity, sampling time에 대한 모델의 성능일 평가하고 CIFAR-10 benchmark dataset에 대해서 다양한 모델과 성능을 비교한다.
Evaluation criteria :
- sample fidelity
- Fr´echet inception distance (FID)
- Inception Score (IS)
- sample diversity
- improved recall score
- sampling time
- the number of function evaluations (NFE)
- clock time
결과 table은 아래와 같다.
sample quality는 다른 diffusion model 및 GANs과 비교하여 competitive하다는 것을 볼 수 있다.
몇 models들이 IS, FID가 더 좋은 것이 있었지만 sampling time에서 떨어지는 것을 보인다.
이 경우 time step은 4를 사요했으며 predictor-corrector에 의한 것보다 2000배 빠르고, FastDDPM보다 20배 빠르다.
아래 Figure 4도 본 DDGANs이 다른 model보다 좋음을 보인다.
한편,
DDGANs을 GANs와 비교할 때, apative data augmentation을 가진 StyleGAN2만이 약간 더 나은 Sample quality를 보인다는 것을 관찰할 수 있습니다.
그러나 table 1에서 GANs는 0.5 미만의 recall 점수로 샘플 다양성이 제한적이라는 것을 볼 수 있습니다.
반면, DDGAN은 많은 고급 가능도 기반 모델보다도 높은 recall 점수를 얻고, diffusion models 중에서도 경쟁력이 있습니다.
저자들은 figure 5에서 CIFAR-10의 질적 샘플을 보여줍니다.
요약하면, DDGANs은 sample quality, sample diversity, sampling speed에서 동시에 뛰어나며, generative learning trilemma 큰 폭으로 극복합니다.
아래는 CIFAR-10에 대한 samples입니다.
Ablation Studies
Number of denoising steps:
table 2의 첫 부분에서는 denoising step(T)의 수를 달리 사용하는 것의 효과를 연구합니다.
T = 1은 조건 $x_t$가 $x_0$에 대한 정보를 거의 포함하지 않기 때문에 unconditional GAN을 training하는 것과 같습니다.
여기서, T = 1이 recall 점수가 낮은 sample diversit가 부족하며, 결과가 상당히 나쁘다는 것을 관찰합니다.
이는 생성을 여러 denoising step으로 분할하는 이점을 확인하며, 특히 sample diversit를 향상시키는 데 특히 중요합니다.
T>1을 달리할 때, T=4가 최상의 결과를 보이는 반면, T가 크면 성능이 약간 저하된다는 것을 관찰합니다.
각 denoising step마다 conditional GAN이 필요하기 때문에, T를 더 크게 수용하기 위해서는 훨씬 더 큰 용량이 필요할 것이라는 가설을 세웠습니다.
Diffusion as data augmentation:
DDGANs는 GANs에 data augmentation을 적용하는 최근의 연구(Karras 등, 2020a; Zhao 등, 2020)와 일부 유사점이 있습니다.
입력을 변형하는 효과를 연구하기 위해, data augmentation으로 forward diffusion process를 사용하여 (Zhao 등, 2020)의 protocol을 따라 저자들의 network structure로 one-shot GAN을 훈련합니다.
table 2의 두 번째 그룹에 표시된 결과는 DDGANs보다 훨씬 나쁘다는 것을 나타내며, 이는 DDGANs이 discriminatior를 적용하기 전에 data augmentation하는 것과 동일하지 않다는 것을 나타냅니다.
Parameterization for $ p_\theta(x_{t-1}|x_t) $:
동일한 T = 4 설정에서 denoising distribution을 parameterization하는 두 가지 대안 방법을 연구합니다.
generator가 $ x_0 $의 estimated sample 을 생성하는 대신, generator가 posterior sampling 없이 직접 denoised sample $ x_{t−1} $을 출력하게 설정하거나, clean image를 변형하여 $ x_t $를 생성하는 노이즈 $ \epsilon_t $를 출력하게 합니다. 후자의 경우는 네트워크가 변형 noise를 결정적으로 예측하는 대부분의 diffusion model과 밀접한 관련이 있습니다.
table 2에서, 이러한 대안적 parameterization이 상당히 잘 작동한다는 것을 보여주지만, 주요 parameterization가 그들을 큰 폭으로 능가한다는 것을 보여줍니다.
Importance of latent variable:
latent variable z를 제거하면 저자들의 denoising model이 unimodal distribution으로 변환됩니다.
table 2의 마지막 줄에서는 잠재 변수 z 없이 DDGAN 성능을 연구합니다. 저자들은 샘플 품질이 상당히 나쁘다는 것을 보며, multimoal denoising distribution의 중요성을 제안합니다.
Figure 8에서는 fixed noisy observation인 $ x_1 $을 사용하여 $ p_\theta(x_0|x_1) $ 의 샘플을 보여주면서 latent variable의 효과를 시각화합니다.
저자들은 조건 $ x_1 $의 대부분의 정보가 보존되는 반면, latent variable 때문에 샘플이 다양하다는 것을 볼 수 있습니다.
Additional Studies
table 1의 Recall 이외에도 인기있는 25-Gaussians과 StackedMNIST에서 DDGANs의 mode coverage를 평가합니다.
25-Gaussians dataset은 grid에 배열된 25개의 2차원 Gaussian distribution의 혼합으로 생성된 2-D toy dataset입니다.
위와 같이 DDGANs은 4개의 denoising step으로 훈련하고, Figure 6에서 다른 모델들과 위와 같이 비교합니다.
Basic GAN은 mode collapse에서 심각하게 약하며, WGAN-GP와 같은 기술은 mode coverage를 향상시키지만 sample quality는 여전히 제한적입니다.
반대로, DDGANs은 모든 mode를 커버하며 high-quality sample을 유지합니다.
또한, diffusion model을 훈련시키고 100, 500 denoising steps으로 생성된 sample을 그립니다.
여기서, diffusion model이 high sample quality를 유지하기 위해서 많은 step이 필요함을 볼 수 있습니다.
StackMNIST는 3개의 MNIST image를 random하게 선택하고 RGB 채널을 따라 쌓아서 generated image를 포함하고 있습니다.
따라서 data distribution은 1000개의 modes를 가지고 있습니다.
Lin et al.(2018)의 설정에 따라 table 3에서 생성된 sample의 1000개 카테고리에 대한 categorical distribution과 실제 data의 KL divergence와 covered mode의 수를 보고합니다.
DDGANs이 모든 mode를 충실히 cover하며, 특히 더 나은 mode coverage를 위해 설계된 GAN이나 최고의 sample quality를 가진 것으로 알려진 StyleGAN2와 비교하여 가장 낮은 KL을 달성한다는 것을 관찰합니다.
Training Stability
저자들은 본 section에서 DDGANs의 훈련 안정성에 대해 논의합니다.
High resolution image:
본 section에서는 CelebA-HQ (Karras 등, 2018)와 LSUN Church (Yu 등, 2015)와 같은 더 큰 이미지가 포함된 datasets에서 256 x 256px resolution으로 DDGANs을 훈련합니다.
본 저자들은 table 4와 5에서 이 두 데이터셋에 대한 FID를 보고합니다.
CIFAR-10과 유사하게, DDGANs은 최고의 diffusion models과 GAN 중에서 경쟁력 있는 sample quality를 얻습니다.
특히 LSUN Church에서, DDGANs은 DDPM과 ImageBART를 능가합니다(figure 7과 부록 E의 샘플 참조).
비록, 일부 GAN은 이 데이터셋에서 더 나은 성능을 보이지만, 그들의 모드 커버리지는 FID 점수에 반영되지 않습니다.
Stroke-based image synthesis:
최근 Meng et al, (2021b)은 diffusion models을 stroke-based generation에 적용하는 흥미로운 방법을 제안했습니다.
구체적으로, 그들은 stroke image에 forward diffusion process를 적용하여 painting을 변조시킨 후 diffusion models로 noise를 제거합니다.
이 방법은 특히 target dataset에서 unconditional generative models만 학습해야 하며, stroke painting과 pair를 이룬 이미지를 학습할 필요가 없기 때문에 GAN 기반 방법(Sangkloy et al., 2017; Park et al., 2019)에 비해 매력적입니다.
저자들은 DDGAN을 stroke-based image synthesis에 적용하여 figure 9에서 질적 결과를 보여줍니다.
generated samples은 현실적이며 다양하며, stroke painting의 조건이 충실히 보존됩니다.
Meng et al.(2021b)에 비해 DDGANs은 1100배 빠른 생성 속도를 자랑하는데, 256 resolution에서 image 하나를 생성하는 데 0.16초밖에 걸리지 않습니다.
반면 Meng et al.(2021b)는 181초가 걸립니다.
이 실험은 DDGANs이 확산 모델을 이미지 편집과 같은 대화형 응용 프로그램에 적용할 수 있음을 확인합니다.
Conclusions
Deep Generative Learing Frameworks는 여전히 generative learning trilemma를 해결하는 데 어려움을 겪고 있습니다.
diffusion models은 특히 high-quality와 다양한 샘플링을 달성합니다.
그러나 그들의 slow sampling과 높은 계산 비용은 아직 실제 세계 응용 프로그램에서 광범위하게 적용되지 않게 합니다.
본 논문에서는 diffusion models의 slow sampling의 주요 원인 중 하나는 매우 작은 denoising step에만 타당한 denoising distribution의 Gaussian Assumption이라고 주장했습니다.
이를 해결하기 위해, 저자들은 complex multimodal distribution을 사용하여 각 denoising step을 모델링하는 denoising diffusion GAN(DDGAN)을 제안했습니다.
이로써 큰 denoising step을 취할 수 있습니다.
광범위한 실험에서, DDGAN은 원래의 diffusion model에 경쟁력 있는 높은 샘플 품질과 다양성을 달성하면서 샘플링에서 몇 배 더 빠르다는 것을 보여주었습니다.
Traditional GAN과 비교하여, DDGANs은 더 나은 mode coverage와 샘플 다양성을 누릴 수 있습니다.
DDGAN은 큰 폭으로 생성 학습 삼중고를 극복하여, 낮은 계산 비용으로 실제 문제에 확산 모델을 적용할 수 있게 합니다.
ETHICS AND REPRODUCIBILITY STATEMENT
훈련 데이터의 다양성을 충실히 나타내면서 고품질의 샘플을 생성하는 것은 생성 학습에서 어려운 도전이었습니다.
mode coverage와 높은 다양성은 생성 모델의 bias을 줄이고 인구의 소수 집단을 표현하는 데 필요한 핵심 요건입니다.
diffusion models은 높은 샘플 품질과 다양성을 모두 달성하지만, 그들의 비싼 샘플링은 많은 실제 문제에서의 응용을 제한합니다.
DDGAN은 확산 모델의 계산 복잡도를 충분히 줄여 실용적인 응용 프로그램에서 저렴한 비용으로 이러한 모델을 적용할 수 있게 합니다.
따라서 장기적으로, DDGAN은 데이터 다양성을 포착하는 데 실패한 기존 생성 모델의 부정적인 사회적 영향을 줄이는 데 도움이 될 수 있다고 예상합니다.
References
Background :
https://arxiv.org/abs/1406.2661
https://arxiv.org/abs/2006.11239
https://arxiv.org/abs/2209.00796
https://arxiv.org/abs/1503.03585
Related Paper & Page & Github :
https://arxiv.org/abs/2112.07804
https://github.com/NVlabs/denoising-diffusion-gan
https://nvlabs.github.io/denoising-diffusion-gan/
https://arxiv.org/pdf/2106.05931.pdf
https://kimjy99.github.io/논문리뷰/denoising-diffusion-gan/#introduction