Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
SH
Uploaded by
Shion Honda
PPTX, PDF
5,112 views
画像認識 第9章 さらなる話題
画像認識 第9章 さらなる話題 中身はGANの最新サーベイです。 CVPaper Challenge 2019/04/06
Data & Analytics
◦
Related topics:
Computer Vision Insights
•
Deep Learning
•
Read more
15
Save
Share
Embed
Embed presentation
Download
Downloaded 45 times
1
/ 32
2
/ 32
3
/ 32
4
/ 32
5
/ 32
6
/ 32
7
/ 32
8
/ 32
9
/ 32
10
/ 32
11
/ 32
12
/ 32
13
/ 32
14
/ 32
15
/ 32
16
/ 32
17
/ 32
18
/ 32
19
/ 32
20
/ 32
21
/ 32
22
/ 32
23
/ 32
24
/ 32
25
/ 32
26
/ 32
27
/ 32
28
/ 32
29
/ 32
30
/ 32
31
/ 32
32
/ 32
More Related Content
PDF
敵対的生成ネットワーク(GAN)
by
cvpaper. challenge
PDF
How good is my GAN?
by
Shunsuke NAKATSUKA
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
by
Tenki Lee
PDF
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
by
Deep Learning JP
PDF
画像処理分野における研究事例紹介
by
nlab_utokyo
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
by
Tenki Lee
PPTX
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
by
enoken
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
by
harmonylab
敵対的生成ネットワーク(GAN)
by
cvpaper. challenge
How good is my GAN?
by
Shunsuke NAKATSUKA
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
by
Tenki Lee
[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)
by
Deep Learning JP
画像処理分野における研究事例紹介
by
nlab_utokyo
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
by
Tenki Lee
CartoonGAN@名古屋CV・PRML勉強会 2018-06-23
by
enoken
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
by
harmonylab
Similar to 画像認識 第9章 さらなる話題
PDF
[IBIS2017 講演] ディープラーニングによる画像変換
by
Satoshi Iizuka
PDF
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
by
SSII
PPTX
Ocha 20191204
by
Atsushi Hashimoto
PDF
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
by
SSII
PDF
先端技術とメディア表現 第4回レポートまとめ
by
Digital Nature Group
PPTX
Image net classification with Deep Convolutional Neural Networks
by
Shingo Horiuchi
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
by
Deep Learning JP
PDF
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
by
Koichi Hamada
PDF
前景と背景の画像合成技術
by
Morpho, Inc.
PDF
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
by
Daiki Shimada
PDF
20180622 munit multimodal unsupervised image-to-image translation
by
h m
PDF
Explanation of SinGAN
by
TakayaOgawa1
PPTX
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
by
Yusuke Iwasawa
PDF
Transformer 動向調査 in 画像認識(修正版)
by
Kazuki Maeno
PDF
[論文紹介] Convolutional Neural Network(CNN)による超解像
by
Rei Takami
PPTX
20190831 3 d_inaba_final
by
DaikiInaba
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
by
Deep Learning JP
PPTX
Globally and Locally Consistent Image Completion
by
harmonylab
PPTX
Bridging between Vision and Language
by
Shion Honda
PPTX
2017.10.12 PRMU 研究会
by
Tomohiro Takahashi
[IBIS2017 講演] ディープラーニングによる画像変換
by
Satoshi Iizuka
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
by
SSII
Ocha 20191204
by
Atsushi Hashimoto
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
by
SSII
先端技術とメディア表現 第4回レポートまとめ
by
Digital Nature Group
Image net classification with Deep Convolutional Neural Networks
by
Shingo Horiuchi
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
by
Deep Learning JP
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
by
Koichi Hamada
前景と背景の画像合成技術
by
Morpho, Inc.
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
by
Daiki Shimada
20180622 munit multimodal unsupervised image-to-image translation
by
h m
Explanation of SinGAN
by
TakayaOgawa1
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
by
Yusuke Iwasawa
Transformer 動向調査 in 画像認識(修正版)
by
Kazuki Maeno
[論文紹介] Convolutional Neural Network(CNN)による超解像
by
Rei Takami
20190831 3 d_inaba_final
by
DaikiInaba
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
by
Deep Learning JP
Globally and Locally Consistent Image Completion
by
harmonylab
Bridging between Vision and Language
by
Shion Honda
2017.10.12 PRMU 研究会
by
Tomohiro Takahashi
More from Shion Honda
PDF
BERTをブラウザで動かしたい!―MobileBERTとTensorFlow.js―
by
Shion Honda
PPTX
Graph U-Nets
by
Shion Honda
PPTX
Deep Learning Chap. 12: Applications
by
Shion Honda
PPTX
Deep Learning Chap. 6: Deep Feedforward Networks
by
Shion Honda
PPTX
Towards Predicting Molecular Property by Graph Neural Networks
by
Shion Honda
PPTX
画像認識 6.3-6.6 畳込みニューラルネットワーク
by
Shion Honda
PPTX
深層学習による自然言語処理 第2章 ニューラルネットの基礎
by
Shion Honda
PDF
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
by
Shion Honda
PPTX
IaGo: an Othello AI inspired by AlphaGo
by
Shion Honda
PDF
Planning chemical syntheses with deep neural networks and symbolic AI
by
Shion Honda
BERTをブラウザで動かしたい!―MobileBERTとTensorFlow.js―
by
Shion Honda
Graph U-Nets
by
Shion Honda
Deep Learning Chap. 12: Applications
by
Shion Honda
Deep Learning Chap. 6: Deep Feedforward Networks
by
Shion Honda
Towards Predicting Molecular Property by Graph Neural Networks
by
Shion Honda
画像認識 6.3-6.6 畳込みニューラルネットワーク
by
Shion Honda
深層学習による自然言語処理 第2章 ニューラルネットの基礎
by
Shion Honda
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
by
Shion Honda
IaGo: an Othello AI inspired by AlphaGo
by
Shion Honda
Planning chemical syntheses with deep neural networks and symbolic AI
by
Shion Honda
画像認識 第9章 さらなる話題
1.
画像認識 第9章 さらなる話題 (GANの最新サーベイ) 東京大学大学院 情報理工学系研究科 M2 本田志温 @shion_honda @shionhonda @shionhonda
2.
概要 • セマンティックセグメンテーション • 画像キャプション生成 •
画像生成とGAN(本発表のメイン) 2019/4/6 Shion HONDA 2
3.
自己紹介 2019/4/6 Shion HONDA
3 • 医学系の研究室でAI創薬をしています • NLP/CVも勉強中 • 勉強したことを発信しています! • 趣味: 音楽鑑賞, 料理, 旅行, サッカー, 水泳など • SFと神経科学も好き
4.
セマンティックセグメ ンテーション 2019/4/6 Shion HONDA
4
5.
Semantic Segmentation • 物体の輪郭検出+認識 •
encoder-decoderを利用 • encoderのプーリングなどで特徴マップの空間情報 は失われている →decode (upsample)しないと低解像度のまま • upsamplingの方法が大事 2019/4/6 Shion HONDA 5
6.
転置畳み込み(逆畳み込み) 2019/4/6 Shion HONDA
6 pad=1, stride=2 • 特徴マップを拡大する方法 • 画像生成で一般的に使われる • pixel shufflingという方法もある • 間を0で埋めて拡大後, 通常の畳 み込み • 「転置畳み込み」と呼ばれる理 由は, 教科書の行列表現を参照 • 畳込み: (4,1) = (4,16) × (16,1) • 転置畳込み: (16,1) = (16,4) × (4,1)
7.
SegNet • segmentationで使われる代表的なモデル • 全結合は使わない •
Encoderのプーリングで採用される画素の位置を記 録しておく →unpooling層では記録してい た位置以外を0で埋める →パラメータが増えない! • 特徴マップの拡大をunpooling で行う特殊な転置畳み込み 2019/4/6 Shion HONDA 7
8.
その他のモデル • Fully Convolutional
Network (FCN) • decodeを通常の転置畳み込みで行う • 全結合の代わりに1×1の畳み込み • encoderの特徴マップをdecoderの特徴マップに足 し合わせる • U-Net • encoderの特徴マップをdecoderの特徴マップに結 合させる 2019/4/6 Shion HONDA 8 FCN (Fully Convolutional Network):ディープラーニングによるSemantic Segmentation手法 | NegativeMindException
9.
画像キャプション生成 2019/4/6 NLP/CV 本田志温
9
10.
Neural Image Caption •
Show and Tell: A Neural Image Caption Generator • Vinyals+, 2015, CVPR • CNNで画像をencodeし, LSTMで文章にdecode • クロスモーダルな「翻訳」(intelligentな感じがしま せんか?) 2019/4/6 Shion HONDA 10
11.
画像生成とGAN NVIDIAの研究には「*」をつけています 2019/4/6 Shion HONDA
11
12.
GAN • 生成器はなるべく本物に近い画像を生成し, 識 別器はなるべく本物を見分けられるように学習 させる •
「生成画像の本物らしさ」を識別器に評価させ ているところがポイント 2019/4/6 Shion HONDA 12 [2] The GAN Zoo
13.
他の生成モデル • VAE • encoder-decoder •
対数尤度のELBO(変分下限)の最大化 • 分布に関して正則化をかけながら再 構成誤差を小さくする →学習が安定している • 生成画像がぼやけがちと言われている • 自己回帰モデル • PixelRNN • Flowベース • Glow 2019/4/6 Shion HONDA 13 [3]
14.
DCGAN 2019/4/6 Shion HONDA
14 • Deep Convolutional GAN • 生成器と識別器をCNNで設計 →学習の安定化とより高解像(100px^2くらい)な画 像の生成に成功 • 実装がたくさん落ちていて人気 ベッドルーム 寿司
15.
学習方法 • Unrolled GAN •
先に識別器のパラメータ更新をK回行い, その損失 で生成器のパラメータを更新 • その後識別器のパラメータは1回更新時に戻す • 賢い識別器で生成器を導くイメージ • WGAN • Wasserstein距離: 砂山pをqへ移すときの最小コス ト • 生成器の目的関数をJS距離でなくW距離とする • WGAN-GP • スペクトル正規化 • 重みをL2ノルムで正規化→Lipschitz連続性 2019/4/6 Shion HONDA 15 W距離 gradient penalty
16.
高解像度での生成 • PGGAN* • 学習が進むのに合わせ て徐々に層を深くしな がら,
与える画像も高 解像度にしていく (progressive growing) • ミニバッチ標準偏差 • 1024px^2の画像の生 成に成功 • CelebA-HQ公開 2019/4/6 Shion HONDA 16 • BigGAN • Self Attention GANの モデルを拡大 • その他, 階層的潜在空 間などのテクニック BigGAN TF Hub Demo – Colaboratory でImageNetの画像を生成できる. スマホでもGAN!
17.
StyleGAN* • 潜在変数zを一度別の空間Wにマッピング(FC) →18層のSynthesis Networkへ入力 •
各層に入力するwを途中で切り替えることでス タイルミックスが可能 • Mapping Networkは潜在変数z のdisentanglementを担う 2019/4/6 Shion HONDA 17 [6]
18.
https://thispersondoesnotexist.com/
19.
https://thisrentaldoesnotexist.com/
20.
クラス指定 • CGAN • 入力にラベルベクトルを 含めて生成画像のクラス をコントロール •
InfoGAN • ラベルyと生成画像xの相互情報量が高くなるように 学習→ラベルとノイズのdisentanglement • ACGAN • 識別器にauxiliary classifierを追加し, クラス分類も 行わせる • 良い生成画像は識別しやすいはず 2019/4/6 Shion HONDA 20 今さら聞けないGAN(6) Conditional GANの実装 - Qiita
21.
画像変換 • pix2pix • 教師ペアが必要な2ドメイン間の 変換 •
U-NetをConditional LossとL1損 失で訓練 • CycleGAN • ペア不要の2ドメイン間の変換 • U-NetをCycle Lossなどで訓練 (変換→逆変換で元に戻るか) • StarGAN • マルチドメイン間の変換 • cycle consistencyを工夫して, 生 成器/識別器を1つずつで実現 2019/4/6 Shion HONDA 21
22.
画像変換 • Video-to-Video Synthesis* •
直前の画像で条件付けて動画 を生成 • Optical flowも生成・識別 • ペアの動画が必要 • SPADE* • SPatially-Adaptive (DE)normalization • BNのパラメータ𝛾, 𝛽(テンソ ル)の値をラベルによって変 える 2019/4/6 Shion HONDA 22 恋ダンス
23.
vid2vid 2019/4/6 Shion HONDA
23
24.
SPADE 2019/4/6 Shion HONDA
24
25.
超解像 • Super-Resolution GAN •
GANの生成画像はボケにくい • 通常の損失にVGGによる perceptual lossも追加 • Enhanced SRGAN • Residual in Residual Dense Blockを利用 2019/4/6 Shion HONDA 25
26.
ESRGAN 2019/4/6 Shion HONDA
26
27.
text-to-image • StackGAN • CGANの条件を文章の潜在表現で与える •
Stage-Iで64px^2の粗い画像を生成 • Stage-IIで256px^2にrefine • ネットワークを改良したStackGAN++もある 2019/4/6 Shion HONDA 27
28.
評価指標 • Inception score
(IS) • 生成画像が学習済みInceptionネットワークで識別 しやすいほど, またラベルの事前確率が均等である ほど低くなる(低いほど良い) • モード崩壊に対応していない • 簡単なのでよく使われる • Frechet inception distance (FID) • 真の分布と生成分布とのFrechet距離(小さいほど良 い) • Multi-scale structural similarity (MS-SSIM) • 複数のスケールで画像間の類似度を評価 →多様性の指標になる 2019/4/6 Shion HONDA 28
29.
Google Brainによるメタ分析 • Are
GANs Created Equal? (2017 Nov.) • 様々に提案される手法を公平に比較 • 十分なハイパラ探索をすればどの手法でも同程度の FIDが得られた • The GAN Landscape (2018 Jul.) • 損失, アーキテクチャ, 正則化, 正規化の組を探索 • Non-saturating lossとスペクトル正規化が有効 2019/4/6 Shion HONDA 29
30.
まとめ • 高解像度での画像生成が可能になってきた • 潜在空間を操ることも可能になりつつある •
課題 • モード崩壊 • 学習の安定化 • 評価指標の確立 • 出力画像のコントロール • 応用先 • 広告やアートなどクリエイティブ系 • VR/AR • 異常検知 • NVIDIAすごい • 論文が読みやすい(ネットワーク芸になりがち?) • できるだけ多くのデータセットでの検証とablation studyをしましょう 2019/4/6 Shion HONDA 30
31.
参考文献 2019/4/6 Shion HONDA
31 [1] 原田, 画像認識, 講談社, 2017. [2] The GAN Zoo GANの名前がついた論文のリスト. [3] Variational Autoencoder徹底解説 – Qiita 図が豊富でとても親切. [4] Z. Pan et al., Recent Progress on Generative Adversarial Networks (GANs): A Survey, IEEE, 2019. 知る限り最新のサーベイ資料. なぜかNVIDIAがスルーされている. [5] 鈴木, GAN(と強化学習との関係), 2017. 理論についても丁寧に解説されている. [6] Style-based GANs – Generating and Tuning Realistic Artificial Faces | Lyrn.AI [7] 何をしたいかで有名どころのGANの種類、派生を整理 – Urusu Lambda Web [9]はじめてのGAN
32.
参考文献 2019/4/6 Shion HONDA
32 [10] テキストから画像を生成するGANまとめ - akmtn記録 [11] FCN (Fully Convolutional Network):ディープラーニングによる Semantic Segmentation手法 | NegativeMindException SegNetとU-Netの解説もありました.
Editor's Notes
#7
GANでも使われているので重要
#16
SNはPFNの宮戸さん
#22
pix2pixとCycleGANはBerkeley AI Research
#23
恋ダンス Everybody Dance Nowという論文がほぼ同時期にBerkeleyから出たが、こちらはより汎用
#33
ギャン or ガン?
Download