1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Spectral Normalisation for Deep Reinforcement Learning:
An Optimisation Perspectiveの論文紹介
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo
書誌情報
2
題目:
著者:
採録: ICML2021
概要:
注釈無しの図は本論文から抜粋
英語表記は本論文と対応
※
Atariゲームを用いた数値実験
MinAtarを用いた数値実験
価値関数の中間層を正規化しC51・RAINBOWを上回る性能を確認
高性能を発揮するAdamのパラメータの幅を確認
スペクトルノルムを用いてスケジューリングする手法を提案
Spectral Normalisation for Deep Reinforcement Learning:
An Optimisation Perspective
Florin Gogianu, Tudor Berariu, Mihaela Rosca,
Claudia Clopath, Lucian Busoniu, and Razvan Pascanu
背景
3
→強化学習にも適用することで課題解決につながると着想
強化学習の課題
学習が不安定になりやすい
高性能を発揮するパラメータの幅が狭く調整が難しい
他分野での取り組み
Generative Adversarial Network (GAN)では
Spectral Normalisation (SN)によって安定した学習を実現[1]
[1] T. Miyato et al, "Spectral normalization for generative adversarial networks," 2018.
Spectral Normalisation
4
関数𝑓がリプシッツ連続
(例)線形写像𝑦 = 𝑊𝑥が1-リプシッツ(𝑘 = 1)とは
が任意𝑥に対して成立
Spectral Normalisation(1-リプシッツ制約)
𝜌:行列𝑊の最大特異値
を満たす𝑘(𝑘 ≥ 0)が存在(𝑘:リプシッツ定数)
スペクトルノルムを用いた正規化の手法
5
方針
予備実験の結果
すべての層にSNをかけると性能が低下
→ネットワーク全体が連続であることが最適とは限らない
全体ではなく一部の層の連続性で性能が向上する可能性がある
→ SNの対象となる層を限定する
本論文での表記
SN[-1]: 出力層をSN
SN[-2]: 出力層の1つ前をSN
(Pythonのリスト要素のインデックス)
Atariゲームを用いた数値実験①
6
中間層の正規化
→C51・RAINBOWを上回る性能を発揮
RAINBOW
C51(Categorical DQN)
C51 + SN[-2](出力層の1つ前の層を正規
化)
Atariの54種類のゲームで獲得したスコアの平均を比較
Atariゲームを用いた数値実験②
7
C51以外のアルゴリズムを用いたスコアの平均を比較
DQN
DQN + SN[-2](出力層の1つ前の層を正規
化)
DQN + SN[-3]
DQN + SN[-4]
※ハイパーパラメータは全て同一
中間層のいずれかをSNすることで性能改善
→ 強化学習でのSNの有効性を示唆
Atariゲームを用いた数値実験のまとめ
8
DQNとC51の数値実験でSNの有効性を示唆
→ 性能改善の要因調査が必要
※最適化アルゴリズムはAdamを使用
性能改善の要因調査
9
解明すべき点
SNは最適化の性能にどう影響しているか?
学習環境はMinAtarを使用
Atariゲームの縮小版(10 x 10の解像度)
以下4つのゲームを使用
Sequest, Breakout, Asterix, Space Invaders
実験内容
Adamのパラメータ(𝜂, 𝜀)、中間層の数、ユニット数を変化させて性
能を確認
Adamのハイパーパラメータと性能の関係
10
1) ベースラインのアルゴリズムより性能が向上
2) 高性能を発揮するパラメータの幅が広がる
3) 学習性能の頭打ちを回避
高い性能を発
揮
パラメータの組み合わせを変更し性能を確認
パラメータ
(𝜂・𝜀)
SNの対象範囲と性能の関係
11
DQN + SN[-2,-3,-4]は性能低下
→ SNの対象とする層数は半分以下が望ましい
(関連研究[2,3]の結果と同様の傾向を確認)
SNの対象とする層数を変更し性能を確認
DQN
DQN + SN[-2](出力層の1つ前の層を正規
化)
DQN + SN[-2,-3]
DQN + SN[-2,-3,-4]
[2] Y. Yoshida and M. Takeru, "Spectral norm regularization for improving the generalizability of deep learning,” 2017.
[3] M. Cisse et al, "Parseval networks: Improving robustness to adversarial examples," 2017.
提案手法 – SNと勾配計算の関係
12
ニューラルネットワーク
重み行列𝑊𝑖のSNとバイアス𝑏𝑖をスケーリング
提案手法①(divOut)
導出の流れ
→ 𝛿𝐿 ≔
𝜕ℒ
𝜕𝑧𝐿
と定義すると𝜌−1でスケーリングさ
れる
SNされていないネットワークに対し学習率𝜂をノルムでスケジュー
リング
→ SNと同等のパラメータ更新式
,
MLP SN + bias
scaling
提案手法 – SNと勾配計算の関係
13
提案手法②(divGrad)
SNされていないネットワークに対し勾配をノルムでスケジューリング
提案手法③(mulEps)
SNされていないネットワークに対しAdamのパラメータ𝜀をノルムでスケ
ジューリング
→ divGradの近似
例)Pytorch
optimizer.step()の実行直前にweightの勾配をノルムで割る
と近似して代入
MinAtarを用いた数値実験
14
3手法(divOut, divGrad, mulEps)はSNと同等の性能を発揮
divGradとmulEpsは全ての層に適用した場合でも高性能
→ ノルムでスケジューリングすることでDQNの性能が向上
提案手法の性能を確認
まとめ
15
Atariゲームを用いた数値実験
MinAtarを用いた数値実験
SNを強化学習の価値関数に適用
中間層をSNすることでC51・RAINBOWを上回る性能を発揮
高性能を発揮するAdamのパラメータの幅が広がる
SNと勾配計算の関係を明確化
SNと同等以上の性能をノルムを用いたスケジューリングで実現

【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介