【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Spectral Normalisation for Deep Reinforcement Learning:
An Optimisation Perspectiveの論文紹介
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo

書誌情報
2
題目：
著者：
採録： ICML2021
概要：
注釈無しの図は本論文から抜粋
英語表記は本論文と対応
※
Atariゲームを用いた数値実験
MinAtarを用いた数値実験
価値関数の中間層を正規化しC51・RAINBOWを上回る性能を確認
高性能を発揮するAdamのパラメータの幅を確認
スペクトルノルムを用いてスケジューリングする手法を提案
Spectral Normalisation for Deep Reinforcement Learning:
An Optimisation Perspective
Florin Gogianu, Tudor Berariu, Mihaela Rosca,
Claudia Clopath, Lucian Busoniu, and Razvan Pascanu

背景
3
→強化学習にも適用することで課題解決につながると着想
強化学習の課題
学習が不安定になりやすい
高性能を発揮するパラメータの幅が狭く調整が難しい
他分野での取り組み
Generative Adversarial Network (GAN)では
Spectral Normalisation (SN)によって安定した学習を実現[1]
[1] T. Miyato et al, "Spectral normalization for generative adversarial networks," 2018.

Spectral Normalisation
4
関数𝑓がリプシッツ連続
（例）線形写像𝑦 = 𝑊𝑥が1-リプシッツ（𝑘 = 1）とは
が任意𝑥に対して成立
Spectral Normalisation（1-リプシッツ制約）
𝜌：行列𝑊の最大特異値
を満たす𝑘（𝑘 ≥ 0）が存在（𝑘：リプシッツ定数）

スペクトルノルムを用いた正規化の手法
5
方針
予備実験の結果
すべての層にSNをかけると性能が低下
→ネットワーク全体が連続であることが最適とは限らない
全体ではなく一部の層の連続性で性能が向上する可能性がある
→ SNの対象となる層を限定する
本論文での表記
SN[-1]: 出力層をSN
SN[-2]: 出力層の１つ前をSN
（Pythonのリスト要素のインデックス）

Atariゲームを用いた数値実験①
6
中間層の正規化
→C51・RAINBOWを上回る性能を発揮
RAINBOW
C51（Categorical DQN）
C51 + SN[-2]（出力層の1つ前の層を正規
化）
Atariの54種類のゲームで獲得したスコアの平均を比較

Atariゲームを用いた数値実験②
7
C51以外のアルゴリズムを用いたスコアの平均を比較
DQN
DQN + SN[-2]（出力層の1つ前の層を正規
化）
DQN + SN[-3]
DQN + SN[-4]
※ハイパーパラメータは全て同一
中間層のいずれかをSNすることで性能改善
→ 強化学習でのSNの有効性を示唆

Atariゲームを用いた数値実験のまとめ
8
DQNとC51の数値実験でSNの有効性を示唆
→ 性能改善の要因調査が必要
※最適化アルゴリズムはAdamを使用

性能改善の要因調査
9
解明すべき点
SNは最適化の性能にどう影響しているか？
学習環境はMinAtarを使用
Atariゲームの縮小版（10 x 10の解像度）
以下４つのゲームを使用
Sequest, Breakout, Asterix, Space Invaders
実験内容
Adamのパラメータ（𝜂, 𝜀）、中間層の数、ユニット数を変化させて性
能を確認

Adamのハイパーパラメータと性能の関係
10
1) ベースラインのアルゴリズムより性能が向上
2) 高性能を発揮するパラメータの幅が広がる
3) 学習性能の頭打ちを回避
高い性能を発
揮
パラメータの組み合わせを変更し性能を確認
パラメータ
（𝜂・𝜀）

SNの対象範囲と性能の関係
11
DQN + SN[-2,-3,-4]は性能低下
→ SNの対象とする層数は半分以下が望ましい
（関連研究[2,3]の結果と同様の傾向を確認）
SNの対象とする層数を変更し性能を確認
DQN
DQN + SN[-2]（出力層の1つ前の層を正規
化）
DQN + SN[-2,-3]
DQN + SN[-2,-3,-4]
[2] Y. Yoshida and M. Takeru, "Spectral norm regularization for improving the generalizability of deep learning,” 2017.
[3] M. Cisse et al, "Parseval networks: Improving robustness to adversarial examples," 2017.

提案手法 – SNと勾配計算の関係
12
ニューラルネットワーク
重み行列𝑊𝑖のSNとバイアス𝑏𝑖をスケーリング
提案手法①（divOut）
導出の流れ
→ 𝛿𝐿 ≔
𝜕ℒ
𝜕𝑧𝐿
と定義すると𝜌−1でスケーリングさ
れる
SNされていないネットワークに対し学習率𝜂をノルムでスケジュー
リング
→ SNと同等のパラメータ更新式
，
MLP SN + bias
scaling

提案手法 – SNと勾配計算の関係
13
提案手法②（divGrad）
SNされていないネットワークに対し勾配をノルムでスケジューリング
提案手法③（mulEps）
SNされていないネットワークに対しAdamのパラメータ𝜀をノルムでスケ
ジューリング
→ divGradの近似
例）Pytorch
optimizer.step()の実行直前にweightの勾配をノルムで割る
と近似して代入

14
３手法（divOut, divGrad, mulEps）はSNと同等の性能を発揮
divGradとmulEpsは全ての層に適用した場合でも高性能
→ ノルムでスケジューリングすることでDQNの性能が向上
提案手法の性能を確認

まとめ
15
Atariゲームを用いた数値実験
SNを強化学習の価値関数に適用
中間層をSNすることでC51・RAINBOWを上回る性能を発揮
高性能を発揮するAdamのパラメータの幅が広がる
SNと勾配計算の関係を明確化
SNと同等以上の性能をノルムを用いたスケジューリングで実現

【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介

More Related Content

What's hot

More from Deep Learning JP

Recently uploaded

In this document

【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介