NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

NIPS 2016論文紹介
Riemannian SVRG: Fast Stochastic Optimization on
Riemannian Manifolds
Takami Sato
2017/02/03NIPS2016論文紹介 1
Authors: Hongyi Zhang, Sashank J. Reddi and Suvrit Sra

論文諭旨
• SVRGをリーマン多様体上の最適化に拡張（RSVRG）
• 測地的凸関数の場合で、線形収束することを証明
– 先行研究はGDの線形収束、SGDの劣線形収束
• 測地的非凸関数場合で、局所解に劣線形収束することを証明
– 先行研究は𝑂(1/𝜖2)だが本論文は𝑂(1/𝜖)
• 勾配のノルムの上界が定数で抑えられる（Gradient Dominated）場合、
非凸でも大域的最適解に線形収束することを証明
• 主固有ベクトルを求める問題がGradient Dominatedな、
リーマン多様体上の最適化になることを証明
• PCAとRiemman centroidを求める問題に対して、
数値実験でRSVRGの優位性を検証
2017/02/03NIPS2016論文紹介 2

リーマン多様体上での最適化
基本的にこの資料を参考にしました
2017/02/03NIPS2016論文紹介 3
http://www.slideshare.net/Suurist/hiroyuki-sato-62489428
議事録もある
http://suuri.st/portfolio/%E4%BD%90%E8%97%A4%E5%AF%9B%E4%B9%8B

モチベーション
制約ありの最適化問題を、リーマン多様体上で制約なし最適化にしたい
2017/02/03NIPS2016論文紹介 4
制約あり最適化
リーマン多様体上の最適化
制約として考えずに、空間を曲げてしまう
n-1次元球面

リーマン多様体とは
2017/02/03NIPS2016論文紹介 5
リーマン多様体（Riemannian manifold）
可微分多様体Mが、M上の各点における接空間に内積が与えられている場合
多様体
• 局所的にユークリッド空間とみなせる※空間
• 遠くはわからんが、生活する分には不自由ない空間的な雰囲気
• 昔の人は、平面上に住んでると思っていたがとくに不自由はなし
可微分
• なめらか
• 局所的なユークリッド空間を滑らかになるように繋ぎ合わせた
※ユークリッド空間と同相

リーマン多様体とは
2017/02/03NIPS2016論文紹介 6
リーマン多様体（Riemannian manifold）
可微分多様体Mが、M上の各点における接空間に内積が与えられている場合
接空間（tangent space）に内積
• 多様体で“ちゃんとした”距離を定義したい
• 接空間（各点の方向微分が貼る空間を集めた空間）が内積空間だ（計量が入ってる）と良い
ユークリッド空間上の滑らかな曲線𝑐の長さは以下
（始点を０、終点を１で表した曲線）
微分の長さが定義が必要
→ 接空間で内積が定義

いろんなリーマン多様体とは
2017/02/03NIPS2016論文紹介 7
ドーナツ型
（よくあるRPGのマップ）
多様体に対して、接空間（）が外側みたいに見えますが
多様体は外側の空間なしに定義することができます。不思議！
（ただし、閉多様体はユークリッド空間に埋め込める）
球面

有限和
SGDは各反復でサンプルを母集団からサンプリング
降下方向の分散が大きい
収束させるためにステップサイズで調整するため収束が遅い
ステップサイズ固定：定数項が残って収束しない
ステップサイズ減少： sub-linear収束
普通データサイズ有限なんだし、分散押さえて評価できるんじゃね？
（Variance Reduction テクニック）
線形収束証明できたわ
2017/02/03NIPS2016論文紹介 8
← これがSVRG

SVRGが解ける問題
2017/02/03NIPS2016論文紹介 9
𝑓𝑖は平滑(smooth)かつ強凸（strongly convex） ※後述
※強凸性より
ここだけなら
線形収束
こいつのせいで
収束が遅い

SVRGとは
正確には、
2017/02/03NIPS2016論文紹介 10
SAG 『線形収束したぞ』
SVRG 『降下方向が、
勾配の普遍推定量になるようにしたぞ』
SAGA 『SAGとSVRGの中間的なの作ったぞ』

各反復の計算方法
𝑥𝑡+1 = 𝑥𝑡 − 𝛼
1
𝑛
ℎ𝑖
𝑡
𝑛
𝑖=1
𝑤𝑖𝑡ℎ ℎ 𝑡
𝑖
=
𝛻𝑓𝑖 𝑥𝑡 𝑖𝑓 𝑖 = 𝑖 𝑡
ℎ𝑖
𝑡−1
(𝑖𝑓 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)
2017/02/03NIPS2016論文紹介 11
𝑥𝑡+1 = 𝑥𝑡 − 𝛼
1
𝑛
𝛻𝑓𝑖 𝑥
𝑛
𝑖=1
+
1
𝑛
𝛻𝑓𝑖 𝑡 (𝑥𝑡) − 𝛻𝑓𝑖 𝑡 𝑥
𝑥𝑡+1 = 𝑥𝑡 − 𝛼
1
𝑛
ℎ𝑖
𝑡
𝑛
𝑖=1
+ 𝛻𝑓𝑖(𝑡) − ℎ𝑖 𝑡
𝑡
SAG （Stochastic Average Gradient）
SVRG （Stochastic Variance Reduction Gradient）
SAGA （略称謎）
各反復データ一個選んで降下方向を更新
適当なタイミングで𝛻𝑓𝑖 𝑥 をｎ個計算して、さらに各反復データ一個選んで降下方向を更新
SVRGの全部の勾配計算するところも、各反復で推定

分散縮小（Variance Reduction）
ある確率変数の分散を、相関のある別の確率変数で下げる。
MCMC法とかで使われてた手法らしい
2017/02/03NIPS2016論文紹介 12
𝑍 𝛼 = 𝛼 𝑋 − 𝑌 + 𝐸(𝑌)
𝐸(𝑍 𝛼) = 𝛼𝐸 𝑋) + 1 − 𝛼 𝐸(𝑌期待値
𝛼 = 1なら
Xの普遍推定量
𝑉(𝑍 𝛼) = 𝛼2(𝑉 𝑋) + 𝑉 𝑌 − 2𝑐𝑜𝑣(𝑋, 𝑌 )分散
𝛼 < 1なら
分散減少（SAG）
SVRG: X ≔ 𝛻𝑓𝑖 𝑡 𝑥 𝑡 , 𝑌 = 𝛻𝑓𝑖 𝑡 𝑥

収束性の速さ
最適化手法の良さを、 ε精度を得るまでの計算量のオーダーで評価
2017/02/03NIPS2016論文紹介 13
劣線形収束（sublinear convergence）
1反復で1定割合で誤差が減る場合、ε精度に必要な反復数は O(log
1
𝜖
)
線形収束（linear convergence）
k反復で誤差が1/kに減る場合、ε精度に必要な反復数は O(
1
𝜖
)
超線形収束（superlinear convergence）
線形収束より速い収束率（一定割合でなくもう少し早く減る場合）
2次収束（Second-order convergence）
1反復で反復数の2乗割合で誤差が減る場合、反復数は O(loglog
1
𝜖
)

各種アルゴリズムの収束性
有限和凸関数に各種手法の収束性は以下、nはデータ数、𝜅は条件数※後述
2017/02/03NIPS2016論文紹介 14
リプシッツ連続かつ強凸
最急降下法 𝑛𝜅 ⋅ log(
1
𝜖
)
Nesterovの加速勾
配降下法
𝑛 𝜅 ⋅ log(
1
𝜖
)
確率的勾配降下法
𝜅
𝜖
SVRG 𝑛 + 𝜅 log(
1
𝜖
)
データが多いとき、
計算量を削減

SVRGの収束性の計算方法
2017/02/03NIPS2016論文紹介 15
NIPS2016のチュートリアル資料より http://www.di.ens.fr/~fbach/fbach_tutorial_vr_nips_2016.pdf
内部ループが𝜅回の反復で、
誤差が定数割合減ることを証明
外部ループ毎に
全勾配を計算O(ｎ)
外部ループ毎に定数割合で誤差が改善（線形収束）
外部ループ毎にO(n)で全勾配計算と、O(1)の内部ループを𝜅回
𝑛 + 𝜅 log(
1
𝜖
)

SVRGの威力
SVRG元論文[Johnson+ 2013]より
2017/02/03NIPS2016論文紹介 16

• 接ベクトル方向に進むと、多様体からはみ出る
• SVRGの主要アイデア過去の勾配との足し算ができない
2017/02/03NIPS2016論文紹介 17
問題点
解決法
• 点𝑥の接空間𝑇𝑥 𝑀から𝑀への写像（レトラクション）を定義
– 多様体上でそれっぽい進行方向を得る
– 𝑇𝑥 𝑀から𝑇𝑦 𝑀への写像を定義して、過去の勾配は今の接空間に移す

• 接ベクトル方向に進むと、多様体からはみ出る
2017/02/03NIPS2016論文紹介 18
問題点
解決法
• 点𝑥の接空間𝑇𝑥 𝑀から𝑀への写像（レトラクション）を定義
– 多様体上でそれっぽい進行方向を得る
– 𝑇𝑥 𝑀から𝑇𝑦 𝑀への写像を定義して、過去の勾配は今の接空間に移す
結局、制約の空間に射影しているので、
実用レベルでは射影勾配降下法と
変わらないかも

この論文での設定
• レトラクションとして写像を構成せずに指数写像があることを仮定
• 接空間間の写像も陽に定義せず、性質のみ議論
2017/02/03NIPS2016論文紹介 19
指数写像
測地線（始点がゼロ、終点が1で最短距離を通る線）
に対して、下記を満たす測地線が存在する写像
もし任意の2点で測地線が一意に定まる場合、逆写像が存在し、
のが測地的距離
Parallel
Transport
これで勾配間の足し算ができる

各種いつもの設定をリーマン多様体上に拡張
2017/02/03NIPS2016論文紹介 20
g-convex(測地的凸)
μ-strongly g-convex(測地的強凸)
L-g-smooth(測地的リプシッツ連続)
劣勾配
τ-gradient dominated (勾配優位)

測地的凸関数の場合で線形収束
2017/02/03NIPS2016論文紹介 21
• 条件数𝜅 ≔ 𝐿/𝜇が2乗で収束性に影響
• 多様体が負の曲率を保つ場合に大きくなる𝜁が収束性に影響

証明の注意点
• 普通のSVRGの収束性解析では、
勾配の2乗をの項で押さえられたが、
RSVRGでは最適解との距離で抑えた
• （リプシッツ連続の性質があればの補題になおせる）
2017/02/03NIPS2016論文紹介 22

測地的非凸関数が局所解に劣線形収束
2017/02/03NIPS2016論文紹介 23

証明は
絶賛勉強中
2017/02/03NIPS2016論文紹介 24

測地的非凸関数が勾配優位のとき大域的最適解に線形収束
線形収束していて、
2017/02/03NIPS2016論文紹介 25
μ-strongly g-convexな関数はgradient dominatedなので
多様体が負の曲率を保つ場合に大きくなる𝜁 ≥ 1 の影響が小さくなって
何故かこっちから測地的強凸のケースを証明すると、
曲率の影響が弱まって、条件数の影響も弱まっている！！！

証明は
絶賛勉強中
2017/02/03NIPS2016論文紹介 26

主固有ベクトルを求める問題がGradient Dominated
2017/02/03NIPS2016論文紹介 27
主固有ベクトルを求める問題

証明は
絶賛勉強中
2017/02/03NIPS2016論文紹介 28

この問題𝑂 1/𝛿 で解けるか
2017/02/03NIPS2016論文紹介 29
𝑂 1/𝛿 でとけると考えられているが、
今のところ𝑂 1/𝛿2 の証明しかわかっていないらしい
y軸は精度が2倍になるのに必要なepoch（外部ループ）数
色はepochレンジに対応。epochが進むと線形になっているっぽい

数値実験： Riemman centroid
𝐴𝑖は半正定値行列
2017/02/03NIPS2016論文紹介 30
Riemman centroid
• この問題はユークリッド空間だと非凸だが
• リーマン多様体上だと測地的強凸の最適化

数値実験： Riemman centroid
𝐴𝑖は半正定値行列
2017/02/03NIPS2016論文紹介 31
Riemman centroid
行列サイズは100×100
• RSVRGが圧勝
• 準ニュートン法系の手法も試したが遅すぎて載せていない

まとめ＆議論
• SVRGをリーマン多様体上に初めて拡張
• 凸、強凸、非凸の場合の収束性を解析
• 勾配優位の場合に大域的収束性を証明
– より一般にリーマン多様体上で大域的収束性を保証できる問題群を一般
化できる可能性
• リーマン多様体上のよくあるテクニックを使った解析をしていない
– レトラクションやVector transportなど
2017/02/03NIPS2016論文紹介 32
議論
まとめ

NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

More Related Content

What's hot

Viewers also liked

Similar to NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds

Recently uploaded

NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manifolds