[Paper Review] ScreenStyle: Manga Filling Style Conversion with Screentone Variational Autoencoder 논문 리뷰

업데이트:

  • We propose a novel variational model, ScreenVAE, to characterize the local texture property at a single point, without the interference of boundary and overlapping fine details, as an interpolative ScreenVAE feature map.
  • With the ScreenVAE unifying the property of screentone and color, we propose to learn and convert between screening and color-filling styles.
  • The proposed ScreenVAE effectively simplifies the complex patterns in manga, and assists manga inpainting effectively.

ScreenStylePermalink

  • ScreenVAE
    • ScreenEncoder(SE): screened manga image를 Input Im 으로 받아 intermediate ScreenVAE map Is 을 생성
      • intermediate Screen VAE map Is : 이미지의 texture 정보를 담고 있는 feature map, 특정 픽셀의 주변부에 있는 local neighborhood의 texture 특징까지를 encoding
      • 이미지의 content나 region semantics을 추출해내는 part
    • ScreenDecoder(DE): ScreenVAE map Is 을 다시 screened manga Im 로 decoding
      • 이미지에 screentone을 입히는 부분
      • dataset에 있는 다양한 screentone을 표현할 수 있음
    • multi-scale design
      • ScreenEncoder, ScreenDecoder 모두 multi-scale로 디자인하여 이미지의 content region을 잘 뽑아낼 뿐만 아니라 특정 region의 screentone이 일정할 수 있도록 함
  • Bidirectional Translation Model
    • screen manga domain과 color comic domain간의 자유로운 translation이 가능하도록 하는 모델
    • Screen2Color G: ScreenVAE map Is 을 color comic Isarrowc 으로 변환
    • Color2Screen G: color comic Isarrowc 을 ScreenVAE map Is 으로 변환
    • cycle-consistency하게 두 도메인간의 변환이 잘되도록 저자들은 adv-loss 기반의 tailored bidirectional style translation model를 제안하였음
  • ScreenEncoder와 ScreenDecoder를 함께 사용하면 흑백의 manga image가 생성되고
  • ScreenEncoder와 Screen2Color를 함께 사용하면 color comics image가 생성됨

ScreenVAEPermalink

Network ArchitecturePermalink

  • The ScreenVAE map has the same resolution as the input manga.
  • Each pixel in the ScreenVAE map summarizes the texture characteristics of a local neighborhood in the input manga within the receptive field
    • 실험을 해보니 ScreenVAE maps은 4 channel이면 충분하다고 함
  • ScreenEncoder
    • downscaling-upscaling network with 6 residual blocks
  • ScreenDecoder
    • 5-level U-net structure with strided de-convolutional operations
    • structure를 잘 유지하면서도 다양한 scale의 screentone 생성이 가능해짐

ObjectivesPermalink

\[\mathcal{L}_{\text {scr }}=\lambda_{\text {rec }} \mathcal{L}_{\text {rec }}+\lambda_{\text {spp }} \mathcal{L}_{\text {spp }}+\lambda_{z} \mathcal{L}_{z}+\lambda_{\mathrm{adv}} \mathcal{L}_{\mathrm{adv}}\]
  • Reconstruction Loss
    • Input Manga Im과 recon manga Rm 이 비슷하도록 강제하는 loss
    • decoder SD 가 잘 학습되도록 도와주는 term
    • pixel-wise mean square error (MSE) loss

      \[\mathcal{L}_{\text {rec }}=\mathbb{E}_{I_{m} \sim \mathcal{I}_{m}}\{\|R_{m}-I_{m}\|_{2}\}\]
  • Superpixel Loss
    • ScreenVAE map Is 이 input manga의 texture를 잘 encoding하도록 도와주는 term, 이때 region 별로 tone이 일정해야함
    • To extract constant-tone regions
      1. total-variation based smoothing → input manga의 tonal intensity map It 를 얻음
      2. tonal intensity map It 에 simple linear iterative clustering (SLIC)를 적용하여 super-pixel map Ispp 를 얻음
        • super-pixel map Ispp 를 얻기 위해 superpixel pooling network(SPN)을 사용했으며, 이를 통해 region representation이 uniform하게 만들었다.
      3. regional texture feature variances를 추정해서 super-pixel map Ispp 에서 다양한 tone의 region이 나오는 것을 제거
        • 만약 두 영역간의 tone은 같지만 texture가 다르다면, super-pixel map Ispp 에서 두 superpixel을 분리
    • Loss

      \[\mathcal{L}_{\mathrm{spp}}=\mathbb{E}_{I_{m} \sim I_{m}}\{w_{l}\|I_{s}-\operatorname{Superpixel}(I_{s}, I_{\mathrm{spp}})\|^{2}\}\]

  • KL Regularization Loss
    • ScreenVAE map이 normally distribute하도록 정규화해주는 term
    \[Lz=EImIm{KL(N(μ,σ)N(0,I))}KL(N(μ,σ),N(0,I))=12(σ2+μ2log(σ2)1)\]
  • Adversarial Loss
    • 위의 세 loss만 사용하면 이미지가 blurry하게 생성됨
    • clear하고 screentone이 잘 뽑히는 이미지를 생성하기 위해 adv-loss를 사용
    • Discrimator Dsr(Rm) with 4 strided downscaling blocks
    • WGAN-gp을 채택하여 훈련의 안정성을 높임
    \[Ladv=EImIm{Dsr(Im)Dsr(Rm)}+EˆImˆIm{(ˆImDsr(ˆIm)21)2}\]
    • ˆIm : image ImRm 을 linearly interpolate

ScreenVAE는 manga image를 dense한 pixel-wise ScreenVAE map으로 잘 translate

  • 이 ScreenVAE map는 local neighborhood를 고려하여 이미지의 texture를 encoding하며,
  • interpolation이 가능하기 때문에 dataset에서 보지 못했던 high-quality의 screentone 생성이 가능


Bidirectional Style TranslationPermalink

Network ArchitecturePermalink

  • paired dataset 없이 두 도메인간의 translation을 자유롭게 하기 위해 unsupervised learning
  • CycleGAN과 비슷하게 bidirectional translation model을 도입
    • 2개의 generator: Screen2Color G, Color2Screen G
    • 7-level U-net structure
      • 각 level은 2개의 conv block(conv + normalization + ReLU)로 구성되어있음
    • style extractor Est
      • 로 style vector vr 를 추출한 후 이를 hint로 사용하기 위해 Screen2Color G에 주입 (by AdaIN)
      • reference image Ir 와 output color comic image Gm2c(Is,vr) 가 비슷한 color composition을 가지도록 강제
      • style vector를 따로 사용하지 않고 random vector를 Screen2Color G에 넣어줘도 colorful comics image가 생성됨
      • 5 strided downscaling blocks and FC layer

ObjectivesPermalink

\[Lbi=αcyc(Lccyc+Lscyc)+αGAN(LcGAN+LsGAN)+αstyLsty+αklLkl\]
  • Bidirectional Cycle-Consistency Loss
    • color → screen → color
    • screen → color → screen
    \[Lccyc=EIcIcGsarrowc(Gcarrows(Ic))Ic1Lscyc=EIsIsGcarrows(Gsarrowc(IS))Is1\]
  • Adversarial Loss
    • high-quality의 color comics & screen manga image가 생성되도록 도와주는 term
    \[LcGAN=EIcIc{Dc(Ic)}EIsIs{Dc(Gsarrowc(Is))}+EˆIcˆIc{(|ˆIcDc(ˆIc)|21)2}LsGAN=EIsIs{Ds(Is)}EIcIc{Ds(Gcarrows(Ic))}+EˆIsˆIs{(|ˆIsDs(ˆIs)|21)2}\]
  • Style Loss
    • 생성된 color comic 이미지가 reference image의 style과 비슷하도록 style loss 사용
    • style feature는 illustration2vec network ϕ 로 추출했다고 함
    \[Lsty=E(Is,Ic)(If,I)(lmean(ϕl(Ic)).mean(ϕl(Gsarrowc(Is,Est(zIc))))2+lstd(ϕl(Ic)std(ϕl(Gsarrowc(Is,Est(zIc))))2)\]
  • Style Regularization Loss
    • style vector를 normalize
    \[\mathcal{L}_{\mathrm{kl}}=\mathbb{E}_{I_{c} \sim I_{c}} K L(E_{s t}(z, I_{c}) \mid \mathcal{N}(\mathbf{0}, \mathrm{I}))\]

ResultsPermalink

댓글남기기