GAN Inversion / Encoder : Image2stylegan, IDInvert, pSp, e4e



StyleGAN은 standard Gaussian latent space $Z$가 아니라 learnt intermediate latent space $W$를 사용하여 이미지를 생성. $W$는 $Z$에 비해 disentanglement하기 때문에 이를 활용하면 이미지 조작이 쉬움.

최근에는 StyleGAN의 이러한 성질을 이용하기 위해 실제 이미지를 $W$로 inversion한 후, latent manipulation을 통해 이미지를 조작하려는 시도가 많아짐 (Image Editing)

  1. GAN Inversion
  2. Latent space manipulation

GAN Inversion

Inversion: Image → style code $w \in W$ ⭐️ (1) reconstruction (2) editability (latent manipulation → meaningful image editing)


  1. Latent Optimization
  2. Encoder
    • ALAE: Adversarial latent autoencoders (github)
    • pSp: Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
  3. Hybrid approach

1. Image2StyleGAN

Image2StyleGAN : extended latent space $W+$를 제안

  • conventional StyleGAN: 512-dim $z \in Z=\mathcal{N}\left(\mu, \sigma^{2}\right)$ → 8 MLP512-dim $w \in \mathcal{W} \subsetneq \mathbb{R}^{512}$

  • 기존의 StyleGAN은 하나의 style vector $w$를 여러 AdaIN block의 input으로 사용하였다면, Image2StyleGAN에서는 extended latent space $W+$를 제안하여 18 different 512-dim w vector 를 사용 : $w \in \mathcal{W}^k \subsetneq \mathbb{R}^{k \times 512}$
  • $\mathcal{W+}$에서 (1) early layers는 layout을 control, (2) middle layers는 object를 control, (3) late layers은 final rendering을 control함.

Latent Optimization : select a random initial latent code → optimize it using gradient descent

2. IDInvert

  • 기존 모델의 문제점 : 기존의 Inversion model들은 이미지를 단순히 reconstruction하는 것이 목적이어서 inverted code가 original latent space의 semantic domain 내에 있지 않았음.

In-domain GAN inversion : image의 reconstruction은 당연히 잘되며 inverted code가 riginal latent space의 semantic domain 내에 있기 때문에 이를 조작함으로써 image editing이 가능해짐

(1) domain-guided encoder : image를 in-domain latent space로 inversion (2) domain-regularized optimization : inverted code를 optimize해서 target image로의 recon이 더 잘되도록 함

real image → Encoder → extended latent space $W+$ (18개의 512-dim w vector→ image optimization

3. pSp : pixel2Style2pixel

(1) StyleGAN encoder

  • real image를 $W+$ latent domain으로 encoding. (추가적으로 optimization 과정이 필요 없음)
  • Encoder는 Feature Pyramid Network 구조를 따름.

(2) Image-to-Image translation

  • 기존의 sota model보다 더 좋은 성능을 냄.
  • simplification of the training process : pretrained StyleGAN Generator를 이용하므로 adversarial 하게 학습할 필요 없음(학습과정에서 D 필요 X)
  • 다양한 multi-modal I2I translation 가능

4. e4e : Encoder for Editing

  • Paper : Designing an Encoder for StyleGAN Image Manipulation (arxiv 2021 /Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, Daniel Cohen-Or)
  • Github

  • GAN Inversion : reconstruction, editability ⭐️
  • Reconstruction : 2가지로 평가되어야함
    1. distortion : $\mathbb{E}{x \sim p{X}}[\Delta(x, G(w)]$
    2. perceptual quality : $\Delta(x, G(w)$
  • Editablity
    • latent space의 disentanglement
    • image editing 후에도 perceptual quality가 높게 유지되는 것이 중요
notation latent space

E4E : ecoder-based method → (1) inference time 빠름 (2) encoder가 CNN으로 되어있기 때문에 image editing에 좋음

approach for getting closer to $\mathcal{W}$

  1. Minimize Variation
    • encoder는 single $\mathcal{W_}$을 추론하도록 훈련. 이후 network에서 $\Delta_i$를 학습하여 $\mathcal{W_}$에서 $\mathcal{W_*^k}$로 확장
    • $L_2$ delta-regularization loss
  2. Minimize Deviation From $\mathcal{W^k}$ : encoder는 $\mathcal{W^k}$과 close한 $\mathcal{W_*^k}$을 추론하도록 훈련.
