数枚の画像で動きを転移できるFew shot vid2vid(Few shot video to video Synthesis)

  • 前者は、領域分割マスク等を元にそれらしき動画を合成することができるGAN、vid2vidに関する論文です。
  • 後者は、前者をさらに発展させて、少数の参照画像があればそれと領域分割マスク等をもとに動画を構成することができるGAN、Few shot vid2vidに関する論文です。

Video-to-Video Synthesis

概要

[3]より引用。city space datasetで生成した例

問題設定

Generator(F)

Fの構造
背景を構成する部分と、前景を構成する部分にhを分解する

Discriminator

[3]より引用

目的関数

vid2vidの目的関数
目的関数のうち、Image Discriminatorに関する部分(L_I)
目的関数のうち、Video Discriminatorに関する部分(L_V)

学習方法

[3]より引用

結果

(Left)Pix2pixHD. (Center)COVST, (Right) vid2vid

Few-shot Video-to-Video Synthesis

概要

  1. 合成したビデオの直前のフレームと合成したい時刻の参照画像(semantic image, key pointや領域分割マスク)からOptical Flow WとOcclusion Map M を抽出
  2. 合成したいサンプルの特徴量をEで抽出し、合成元の情報と合わせてパラメータを可変にしたSPADE ResBlockに入れ込む
(Left)vid2vid, (Right)Few shot vid2vid

Few shotのためのアーキテクチャ改善

  1. (e_K, s_K)からEncoder(E_P)を用いて、各フレーム毎に特徴量を抽出し、Encoderの層毎に特徴量q^l (lは層のID)を計算する
  2. 各フレーム毎にAttention Weightを計算し、Attentionで重み付けしたqを算出する
  3. Attentionで重み付けしたqと参照画像sを、パラメータを可変にしたSPADEを使ってGenerator Hに入れ込む
Few shot合成に必要な手順
SPADEが用いられているGauGANのデモ。 https://www.nvidia.com/en-us/research/ai-playground/ より引用
SPADE ResBlk(左)とSPADE(右)

結果

ダンスの動きを転移させた例。上がサンプルe, 左が参照画像のシーケンスs

まとめ

Reference

  1. Ting-Chun Wang et al. Video-to-Video Synthesis arXiv:1808.06601,2018
  2. Ting-Chun Wang et al. Few-shot Video-to-Video Synthesis, arXiv:1910.12713,2019
  3. Research at NVIDIA: Video to Video Synthesis ,https://www.youtube.com/watch?v=GrP_aOSXt5U&feature=youtu.be
  4. Taesung Park et al. Semantic Image Synthesis with Spatially-Adaptive Normalization. arXiv:1903.07291, 2019

--

--

--

Data Scientist (Engineer) in Japan Twitter : https://twitter.com/AkiraTOSEI LinkedIn : https://www.linkedin.com/mwlite/in/亮宏-藤井-999868122

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Akihiro FUJII

Akihiro FUJII

Data Scientist (Engineer) in Japan Twitter : https://twitter.com/AkiraTOSEI LinkedIn : https://www.linkedin.com/mwlite/in/亮宏-藤井-999868122

More from Medium

From 0 to GAN and

Can You Leverage Computer Vision To Make Money With NFTs?

GAN Computer Generate Art: A GANs Survey