NeurIPS 2020の概観と
ニューラルモデルのパラメータ数削減
⾼瀬 翔
東京⼯業⼤学
2021/3/12
1
略歴
• 2008-2017︓東北⼤学(学⼠-博⼠)
– 東北⼤学乾・岡崎研で博⼠取得
• 2017-2018︓NTT CS研(ポスドク)
• 2018-2020︓東⼯⼤(研究員)
• 2020- ︓東⼯⼤(助教)
• ⾃然⾔語処理の研究に従事
– 近年は特に機械翻訳,要約などの⽣成タスクに取り組む
– ⾃然⾔語処理の会議での発表が主
• NAACL,ACL,EMNLP
– NeurIPSへの投稿は今回が初めて
• Sho Takase, Sosuke Kobayashi. All Word Embeddings from
One Embedding. NeurIPS 2020.
2
NeurIPS 2020について
3
NeurIPSとは
• Neural Information Processing Systems
– 略称の変遷
• ~ 2017︓NIPS
• 2018 ~ ︓NeurIPS
• 機械学習分野のトップ国際会議
– 神経科学,ニューラルネットの会議として発⾜
– 他の機械学習分野のトップ国際会議は
• International Conference on Machine Leaning
• International Conference on Learning Representations
4
機械学習=深層学習ではない
• NeurIPS 2020においては
– 例えばベストペーパー︓深層学習の研究は 1 / 3
• 深層学習関連︓Language Models are Few-Shot Learners
– いわゆる GPT-3 の紹介をしている論⽂
– 例えば招待講演
• 機械学習モデルの出⼒における研究者の社会的責任
– You Can’t Escape Hyperparameters and Latent Variables: Machine
Learning as a Software Engineering Enterprise
• クラウドワーカーの能率化について
– A Future of Work for the Invisible Workers in A.I.
• ただし,⾃分の発表では⾃然⾔語処理に関係する
深層学習の研究に着⽬
5
参加者・論⽂数の推移
• 機械学習分野(や応⽤分野)への注⽬の⾼まり
– 参加者数,論⽂数が加速度的に増加している
– 投稿論⽂数の増加 → 従来の論⽂選考⽅法の維持は難しい
6
NeurIPS,ICML,およびCVPR
(画像処理のトップ会議)の
参加者数の推移
NeurIPSへの論⽂投稿数と
採択数の推移
従来の論⽂選考⽅法
• 機械学習系は査読が公開される傾向にある︖
– ICLRは査読と議論が公開,NeurIPSも査読は公開
7
事象 ⽇付 何をするか︖
概要投稿締め切り 5/16 概要の投稿
論⽂投稿締め切り 5/23 論⽂の投稿
査読(3 ~ 4⼈) 6/18 ~ 7/15 論⽂に応じて割り当てられた査読者が論⽂を読み,
良い点/悪い点と採択に対する可否を評価
(NeurIPSは1 ~ 10点で点数を付与)
著者からの反論 7/25 ~ 8/1 査読に対し,査読者の誤解を解く・疑問点に回答
査読者間の議論 8⽉中 著者の反論や他の査読者の査読を読み,査読者間で
互いの問題意識について議論を⾏い,査読や点数を
必要に応じて改める
採否公開 9/4 プログラム委員が最終的な採否を決定し開⽰
NeurIPS2019のスケジュール
従来の論⽂選考⽅法
• 機械学習系は査読が公開される傾向にある︖
– ICLRは査読と議論が公開,NeurIPSも査読は公開
8
事象 ⽇付 何をするか︖
概要投稿締め切り 5/16 概要の投稿
論⽂投稿締め切り 5/23 論⽂の投稿
査読(3 ~ 4⼈)
深刻な査読者不⾜
6/18 ~ 7/15 論⽂に応じて割り当てられた査読者が論⽂を読み,
良い点/悪い点と採択に対する可否を評価
(NeurIPSは1 ~ 10点で点数を付与)
著者からの反論 7/25 ~ 8/1 査読に対し,査読者の誤解を解く・疑問点に回答
査読者間の議論 8⽉中 著者の反論や他の査読者の査読を読み,査読者間で
互いの問題意識について議論を⾏い,査読や点数を
必要に応じて改める
採否公開 9/4 プログラム委員が最終的な採否を決定し開⽰
NeurIPS2019のスケジュール
NeurIPS2020の新施策(1/3)
デスクリジェクト
• 不採択の可能性が⾼い論⽂をまず落とす
– 通常の査読プロセス前にエリアチェアが判断
9
8270
通常の査読へ
(うち1898採択)
1097
不採択
不採択候補の中から 100本を
ランダムに選択,通常の査読へ
(うち6本採択)
→ 通常の採択率(20%程度)
より⼤きく低い
(ただし1本は Spotlight)
デスクリジェクト
NeurIPS2020の新施策(2/3)
Broader Impact の記述
• 機械学習⼿法の社会への影響が増⼤
– 悪影響も⽣まれている
• ⾔語モデルで流暢な⽂書⽣成が可能
→(⼀⾒確からしい)虚偽のニュースを簡単に⽣成可能に
• 学習データに存在する偏りを強く反映
→ 雇⽤時にモデルが性差や⼈種で選別
• 社会的な利点/⽋点(悪影響や悪⽤の可能性)の
記述を全論⽂に要求
– Broader Impact として論⽂の最後に記述
– ⾃分は投稿時にこの要求に気づいてなかった
• arXiv に投稿されてる NeurIPS フォーマットの論⽂,
Broader Impact ってセクションがあるやつ多いな〜
10
NeurIPS2020の新施策(3/3)
国際会議のオンライン化
• COVID-19の影響でオンライン化
– 24時間常に何かしらのセッションがある状態
• NeurIPSは全論⽂がポスター発表を⾏う
– Spotlight はオーラル + ポスター
• ポスター発表は gather.town を利⽤
11
ポスターに近づくことで
ポスターを⾒ること,
発表者と話すことが可能
少⼈数で議論したい場合
Zoomに移⾏
発表者はここに⽴つ
(ことになっているが
いない場合も)
論⽂タイトルから⾒る傾向
• おおまかな傾向は 2019 と同じ
– neural, network, deep を含む論⽂が多い
– 採択論⽂の 11.9% が neural を含む
• 2019年は 10.8%
• bias や fairness は議論は盛んな印象だが,強い増加傾向にはない
12
2019年の論⽂タイトルに多い単語 2020年の論⽂タイトルに多い単語
(⾃然⾔語処理に関する)
ニューラルモデルのパラメータ削減
13
⾃然⾔語処理とは
• ⼈の⽤いる⾔葉(⾃然⾔語)を計算機で処理する
– 翻訳,要約,情報検索,情報抽出,…
14
ウンベルト・エーコの新作,『バウドリーノ』
は農⺠の⼦バウドリーノがバルバロッサとも呼
ばれる神聖ローマ皇帝フリードリヒ1世に寵愛
され,⼗字軍に随⾏する物語.前半は史実を元
にした展開となっているが,物語が進むにつれ
て,史実からは⼤きく外れ,想像⼒に富んだ
エーコの筆致が……
エーコの新作,
史実と想像⼒のまじわる冒険物語
Baudolino, a new novel by
Umberto Eco, is the story of
a peasant boy Baudolino
who is favored by the Holy
Roman Emperor Friedrich I,
also known as Barbarossa,
and accompanies him on
the 3rd crusade ……
作品名 バウドリーノ
著者 ウンベルト・エーコ
… …
情報抽出
要約
翻訳
事前学習モデルの台頭
• BERT や GPT など事前学習モデルが台頭
– ⼤規模コーパスで学習 → ⽬的タスクに適⽤
– 様々なタスクで⾼い性能を達成
15
ウンベルト・エー
コの新作,『バウ
ドリーノ』は農⺠
の⼦が……
Baudolino, a new
novel by Umberto
Eco, is the story of
a peasant boy ……
1. ⼤量の⽂書で
⾔語モデルを学習
ウンベルト・エー
コの新作,『バウ
ドリーノ』は農⺠
の⼦が……
Baudolino, a new
novel by Umberto
Eco, is the story of
a peasant boy ……
2. 対訳⽂で学習
Where is my cat?
私の猫はどこですか︖
⽬的タスク︓翻訳の場合
3. 翻訳を⾏う
補⾜︓事前学習⼿法の概要
16
何らかのニューラルネット
I have a
I have a dream
<BOS>
何らかのニューラルネット
MASK MASK a
I have
<BOS>
マスクド⾔語モデル(BERT系)
⼊⼒の⼀部をマスクし,その単語を予測
⼊⼒系列 X について次を最⼤化
マスクする単語を
ランダムに選択
マスクされた
単語を予測
⾔語モデル(GPT系)
与えられた⽂脈に対し次の単語を予測
⼊⼒系列 X について次を最⼤化
k-1から1つ前までの
単語を⽂脈とする
⽂脈の次の
単語を予測
• 学習⽅法で⼤別
– 構造は主に Transformer [Vaswani+ 17]
[NeurIPS 2020] Language Models are
Few-Shot Learners
• NeurIPS 2020 ベストペーパーのひとつ
• GPT-3 の紹介をしている論⽂
– GPT-3 の zero-shot での性能の検証
• Zero-shot でも多くのタスクで⾼い性能
– テスト時に使⽤する事例数に応じて性能向上
• 性能はパラメータに対数⽐例
– GPT-3のパラメータ数は 1750億
– GPT-1: Improving Language Understanding by
Generative Pre-training
– GPT-2: Language Models are Unsupervised
Multitask Learners
17
Zero-shot とは
• Zero-shot: 応⽤タスクで学習せずに解く
18
翻訳での
通常の学習
ウンベルト・エー
コの新作,『バウ
ドリーノ』は農⺠
の⼦が……
Baudolino, a new
novel by Umberto
Eco, is the story of
a peasant boy ……
対訳⽂で学習
Where is my cat?
私の猫はどこですか︖
ウンベルト・エー
コの新作,『バウ
ドリーノ』は農⺠
の⼦が……
Baudolino, a new
novel by Umberto
Eco, is the story of
a peasant boy ……
⼤量の⽂書で
⾔語モデルを学習
English to Japanese:
Where is my cat?
私の猫はどこですか︖
⾔語モデル
による
Zero-shot
翻訳
(本研究での)zero, one, few-shot
• 解く際にどの程度事例を与えるか
– どの設定でも応⽤タスクでの学習は⾏わない
• どの設定も⼀般的には Zero-shot と呼ばれる
19
English to Japanese:
Where is my cat? ->
Zero-shot:
タスクの説明と
⼊⼒のみ与える
One-shot:
タスクの説明と
事例を1つ与え,
⼊⼒を与える
English to Japanese:
This is a pen. ->
これはペンです
Where is my cat? ->
English to Japanese:
This is a pen. ->
これはペンです
Have a good night ->
良い夜を
From the nothing, with love ->
虚無より愛をこめて
Where is my cat? ->
Few-shot:
タスクの説明と
事例を複数与え,
⼊⼒を与える
性能はパラメータ数に対数⽐例
• パラメータ数に対する各データでの性能の平均値
– パラメータが多いほど性能が⾼い
• 性能は Few > One > Zero
– 推論時に事例を多く⾒るほど性能が⾼い
20
Figure 1.3: Aggregate performance for all 42 accuracy-denominated benchmarks While zero-shot performance
improves steadily with model size, few-shot performance increases more rapidly, demonstrating that larger models are
more proficient at in-context learning. See Figure 3.8 for a more detailed analysis on SuperGLUE, a standard NLP
benchmark suite.
In this paper, we test this hypothesis by training a 175 billion parameter autoregressive language model, which we call
GPT-3, and measuring its in-context learning abilities. Specifically, we evaluate GPT-3 on over two dozen NLP datasets,
図は Language Models are Few-Shot Learners より
各タスクでの性能の傾向
21
タスク GPT-3の
Few-shotでの性能
⽳埋めテスト
例︓Alice was friends with Bob.
Alice went to visit her friend, __. -> Bob
良い
(既存のトップと同等)
翻訳
(英-仏,英-独,英-露)
良い
(教師なし翻訳と同等以上,
⾔語対によっては教師ありと同等)
質問応答・⽂書読解
(⽂書に対する問題に回答
例︓センター試験英語の⻑⽂読解)
混合
(データによって性能が異なる)
常識推論・含意関係認識
(含意︓前提⽂があるとき成⽴するか
例︓A は Bの著者である
→ A は作家である)
混合
(データによって性能が異なる,
既存のトップと⽐べると低め)
[NeurIPS 2020] Language Models are
Few-Shot Learnersまとめ
• NeurIPS 2020 ベストペーパーのひとつ
• GPT-3 の zero-shot での性能の検証
– Zero-shot でも多くのタスクで⾼い性能
• テスト時に使⽤する事例数に応じて性能向上
– 性能はパラメータに対数⽐例
• GPT-3のパラメータ数は 1750億
• 常識推論や含意関係認識は性能が低い︖
22
問題︓必要な計算資源の増加
• 事前学習モデルのパラメータ数増加が著しい
– パラメータ数が増えると性能も上がる [Brown+ 20]
• 性能はパラメータ数に対数⽐例
• 学習パラメータが多い=多量の計算資源が必要
– モデルの圧縮や軽量化(パラメータ削減)が課題
23
117M
110M
1.5B
8.3B
17B
175B
1年で1000倍以上に
膨れ上がっている
パラメータ数削減の戦略
• 蒸留(Distillation)
– 学習済みモデルの出⼒を⼩規模モデルで再現
• MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers
• モデル圧縮
– 学習済みモデル内の不要なパラメータを削除
• 不要︓予測への貢献が⼩さいパラメータ
• The Lottery Ticket Hypothesis for Pre-trained BERT Networks
• Movement Pruning: Adaptive Sparsity by Fine-Tuning
• Pruning neural networks without any data by iteratively conserving
synaptic flow
• 軽量なモデルの設計
– 最初から少数のパラメータで学習
• O(n) Connections are Expressive Enough: Universal Approximability of
Sparse Transformers
• All Word Embeddings from One Embedding
24
蒸留(Distillation)
• 学習済みモデルの出⼒を⼩規模モデルで再現 [Hinton+ 14]
– ⾔語モデルの学習を例に
25
Baudolino, a new
novel by Umberto
Eco, is the story of
a peasant boy ……
元となるモデル
(教師モデル)
の学習
⼩さなモデル
(⽣徒モデル)
の学習
Baudolino, a new
novel by Umberto
Eco, is the story of
a peasant boy ……
Baudolino, a new
Baudolino, a new
novel
⽂脈を⼊⼒し,
次の単語を予測
Baudolino, a new
novel 教師モデルの
出⼒を再現する
ように学習
通常の学習
(次の単語
を予測)
[NeurIPS 2020] MiniLM: Deep Self-Attention Distillation for
Task-Agnostic Compression of Pre-Trained Transformers
• 事前学習した BERT の蒸留⼿法を提案
– 最終層の Self-attention 部分を模倣する
• 従来の蒸留した BERT よりも⾼い性能
– 同⼀のパラメータ数で⾼い性能を達成
• コード︓
https://github.com/microsoft/unilm/tree/ma
ster/minilm
26
Transformer [Vaswani+ 17] の構造
• Self-attention と Feed-forward 層からなる
27
x1 x2 x3 x4 x5
Self-attention
Feed-Forward
⼊⼒単語
埋め込み
Transformer
1層
……
Q
K
V
WK
WV
WQ
アテンション︓
各単語から単語
への重み
(V への重み)
QKT
softmax(QKT)V
を計算し,出⼒
Self-attention 部分の模倣
• 教師,⽣徒モデルの最終層の Self-attention部分を模倣
– 各⾏列の KL Divergence を最⼩化
28
Q
K
QKT
V
V VT
Q
K
V
QKT
V VT
アテンション⾏列の模倣
⾏列 V からなる⾏列の模倣
教師モデル ⽣徒モデル
実験結果
• 蒸留 → 各タスクで学習した正解率
– 教師モデル︓BERT (base)
– 8つのタスクの平均値を記載
• 詳細は論⽂を参照のこと
• 同数のパラメータで既存⼿法より⾼い性能
29
⼿法 パラメータ数 正解率
BERT (base) 109M 81.5
BERT (small) 66M 79.1
DistillBERT [Sanh+ 19] 66M 77.6
TinyBERT [Jiao+ 19] 66M 79.1
MiniLM(提案⼿法) 66M 80.4
既存の
蒸留⼿法
パラメータ数削減の戦略
• 蒸留(Distillation)
– 学習済みモデルの出⼒を⼩規模モデルで再現
• MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers
• モデル圧縮
– 学習済みモデル内の不要なパラメータを削除
• 不要︓予測への貢献が⼩さいパラメータ
• The Lottery Ticket Hypothesis for Pre-trained BERT Networks
• Movement Pruning: Adaptive Sparsity by Fine-Tuning
• Pruning neural networks without any data by iteratively conserving
synaptic flow
• 軽量なモデルの設計
– 最初から少数のパラメータで学習
• O(n) Connections are Expressive Enough: Universal Approximability of
Sparse Transformers
• All Word Embeddings from One Embedding
30
モデル圧縮
• 学習済みモデル内の不要なパラメータを削除
– 不要︓予測への貢献が⼩さいパラメータ
– 基本戦略︓パラメータの値の絶対値で判断
• 絶対値の⼩さいパラメータをゼロに
• 近年の発展︓Lottery Ticket Hypothesis
– パラメータ削除に関する妥当性と戦略の議論
31
Lottery Ticket Hypothesis とは
• ニューラルモデルは同等の性能を達成可能な部分ネット
(subnetwork)を持つ [Frankle+ 19]
– ニューラルモデルは⾼い性能を達成可能な当選クジを含む
• ⼤量のパラメータ︓抽選クジ
• 良い部分ネット︓当選クジ
• どのように良い部分ネットを発⾒するか︖
– 学習とパラメータ削除を繰り返す
32
学習
寄与の⼩さい
パラメータを
削除
残りの
パラメータを
初期値に戻す
再度学習
[NeurIPS 2020] The Lottery Ticket
Hypothesis for Pre-trained BERT Networks
• 事前学習した BERT におけるパラメータ削減について,
実験的に調査
– Lottery Ticket Hypothesis の BERT に適⽤可能かについて
調査するという主旨
• パラメータを削減したモデルはいろいろな応⽤タスク
に流⽤可能か︖
– 事前学習と同様の学習中にパラメータ削減することで可能
• コード︓https://github.com/VITA-Group/BERT-Tickets
– 実験で得た部分ネットも近⽇公開とある
33
事前学習モデル(BERT)の
パラメータ削減
• 事前学習結果のパラメータを初期値とする
• 特定の応⽤タスクでの学習と削除を繰り返す
– 削除対象とするパラメータは事前学習モデル内に限る
34
学習
寄与の⼩さい
パラメータを
削除
残りの
パラメータを
初期値に戻す
再度学習
応⽤タスク⽤
のパラメータ
事前学習結果
のパラメータ
各タスクで削減 → 別タスクに適⽤の結果
35
Figure 2: Transfer Winning Tickets. The performance of transferring IMP subnetworks between
tasks. Each row is a source task S. Each column is a target task T . Each cell is TRANSFER(S, T ):
パラメータ削減に使うタスク
適⽤先のタスク
Masked Language Model(MLM,事前学習に⽤いたタスク)を通して
パラメータの削減を⾏うと様々な応⽤タスクで⾼い性能を達成できる
⿊いセル=パラメータ削減なしのBERTと同等の性能
表はThe Lottery Ticket Hypothesis for Pre-trained BERT Networksより引⽤
[NeurIPS 2020] Movement Pruning:
Adaptive Sparsity by Fine-Tuning
• 事前学習モデルを応⽤タスクで学習した際に,
どのパラメータを削除するか︖
– 素朴な⼿法︓パラメータの寄与率=絶対値
• 事前学習結果に強く依存
• 絶対値は⼤きいが応⽤タスクでは不要なパラメータが残存
• 提案⼿法︓応⽤タスクでの勾配を元に削除
– 0 ⽅向への勾配=応⽤タスクで不要なパラメータ
• コード︓
https://github.com/huggingface/block_movement_
pruning
36
実験結果
• 事前学習モデルを応⽤タスクで学習,パラメータ削除
– 元の事前学習モデル︓BERT (base)
• 絶対値を元にパラメータ削除する⼿法と⽐べ⾼い性能
– パラメータ量を 10% → 3% にしても減衰が少ない
37
⼿法
パラメータの
残存率 SQuAD MNLI QQP
BERT (base) 100% 88.1 84.5 91.4
絶対値を元に削除 10% 78.5 77.8 78.8
提案⼿法 10% 81.5 80.7 90.5
絶対値を元に削除 3% 54.5 68.9 72.1
提案⼿法 3% 79.9 79.0 89.3
[NeurIPS 2020] Pruning neural networks without
any data by iteratively conserving synaptic flow
• 訓練データを参照せず学習前の状態において
パラメータを削減する⼿法を提案
– 削除に⽤いるスコアをパラメータの値で計算
– スコア計算と削除を反復することにより特定層の
パラメータの全削除を防ぐ
• 性能を維持しつつパラメータを削除可能
• コード︓https://github.com/ganguli-
lab/Synaptic-Flow
38
論⽂の概要
• 訓練データを⼀切⽤いずに部分ネットを発⾒する⼿法を提案
– 学習をせずにパラメータを削除する⼿法もあるが,どのパラメータを
削減するか,の計算に訓練データが必要
• 性能を維持しつつパラメータ削減に成功
39
学習
寄与の⼩さい
パラメータを
削除
残りの
パラメータを
初期値に戻す
再度学習
広く使われている,部分ネットの発⾒⼿法
提案⼿法
学習前からパラメータ削減する
既存⼿法の問題
• 訓練データで1度だけ計算し,パラメータを削減する
⼿法が存在 [Lee+ 19, Wang+ 20]
– 訓練データに対する損失を元にパラメータにスコアを付与
• スコアを付与するだけで学習は⾏わない
– スコアに基づいてパラメータを削減
40
tacle to pruning at initialization
at initialization is defined by two steps. The first step scores
to some metric and the second step masks the parameters
ording to their scores. The pruning algorithms we consider
mply removing the parameters with the smallest scores. This
ly across the network, or layer-wise. Empirically, its been
better than layer-masking, in part because it introduces fewer
pruning rates across the network [24]. However, recent works
e mode, layer-collapse, for existing pruning algorithms using
when an algorithm prunes all parameters in a single weight
remain elsewhere in the network. This renders the network
n the achievable accuracy for the network as shown in Fig. 1.
layer-collapse we will define some useful terms inspired by a
[34].
Max
Compression
Figure 1: Layer-collapse leads to a
sudden drop in accuracy. Top-1 test
accuracy as a function of the compres-
sion ratio for a VGG-16 model pruned
) is the number of
ded by the number
For example, when
only one out of a
ter pruning. Max
sible compression
ayer-collapse. For
nd N parameters,
n ratio associated
ayer. Critical com-
sion ratio a given
ng layer-collapse.
of an algorithm is
pression of the net-
tivates the follow-
pruning algorithm
図はPruning neural networks without any data by iteratively conserving synaptic flowより引⽤
ある程度削減すると
性能が⼤きく下がる
何故突然性能が下がるのか︖
→ ある層のパラメータを
すべて削ってしまうので
スコアの反復計算が重要
• 既存⼿法は訓練データでの計算が1度だけ
=スコア計算が1度だけ
– スコアはパラメータが削除された状態に対し
適宜計算される必要がある
41
図はPruning neural networks without any data by iteratively conserving synaptic flowより引⽤
学習 → パラメータ削減 → 学習…
の反復を⾏う⼀般的な⼿法でも
学習 → パラメータ削減の1度だけだと
性能が⼤きく下がる
提案⼿法︓スコアをパラメータの値から算出
• 訓練データの損失を使うと反復計算が難しい
– 訓練データ上での計算を何度も⾏う必要がある
→ パラメータの値のみでスコアを算出する
– 学習データなしにスコアの反復計算が可能に
42
the width of a layer [34]. With magnitude pruning the widest layers,
or output dimensions, are the first to be fully pruned. Gradient-based
3] and GraSP [14] also prune layers at different rates, but it is less clear
preference is. In particular, both SNIP and GraSP aggressively prune
ith the most trainable parameters, evident by the sharp peaks in Fig. 2.
we hypothesize that gradient-based scores averaged within a layer are
layer size. We examine this hypothesis by constructing a theoretical
networks. We first define a general class of gradient-based scores, prove
scores, and then use this law to prove that our hypothesis of inverse
r size and average layer score holds exactly.
-based scores. Synaptic saliency is a class of score metrics that can be
product
S(✓) =
@R
@✓
✓, (1)
ion of the output y of a feed-forward network parameterized by ✓. When
esulting synaptic saliency metric is equivalent (modulo sign) to @L
@✓ ✓,
tonization [1], one of the first network pruning algorithms. The resulting
o @L
@✓ ✓ the score used in SNIP [13], H @L
@✓ ✓ the score used in
core used in the pruning after training algorithm Taylor-FO [28]. When
スコアの⼀般的な形式,
既存研究は として訓練データの損失を利⽤
ly proportional to the width of a layer [34]. With magnitude pruning the
with largest input or output dimensions, are the first to be fully pruned. G
gorithms SNIP [13] and GraSP [14] also prune layers at different rates, but
oot cause for this preference is. In particular, both SNIP and GraSP aggre
layer, the layer with the most trainable parameters, evident by the sharp p
his observation, we hypothesize that gradient-based scores averaged with
roportional to the layer size. We examine this hypothesis by constructing
grounded in flow networks. We first define a general class of gradient-based
tion law for these scores, and then use this law to prove that our hypothe
ality between layer size and average layer score holds exactly.
class of gradient-based scores. Synaptic saliency is a class of score metri
as the Hadamard product
S(✓) =
@R
@✓
✓,
a scalar loss function of the output y of a feed-forward network parameterize
ining loss L, the resulting synaptic saliency metric is equivalent (modulo sign
etric used in Skeletonization [1], one of the first network pruning algorithms.
so closely related to @L
@✓ ✓ the score used in SNIP [13], H @L
@✓ ✓ the
2
works, it requires an impractical amount of computation to obtain them.
more efficient pruning algorithm while still inheriting the key aspects of
the essential ingredients for a pruning algorithm to avoid layer-collapse
l Critical Compression? We prove the following theorem in Appendix 9.
ive, conservative scoring achieves Maximal Critical Compression. If a
bal-masking, assigns positive scores that respect layer-wise conservation
al score for the parameters pruned at any iteration, is strictly less than
for an entire layer, whenever possible, then the algorithm satisfies the
ion axiom.
ow Pruning (SynFlow) algorithm. Theorem 3 directly motivates the
algorithm, SynFlow, that provably reaches Maximal Critical Compression.
ve score evaluation discourages algorithms that involve backpropagation
ead motivates the development of an efficient data-independent scoring
ity and conservation motivates the construction of a loss function that
ency scores. We combine these insights to introduce a new loss function
tor and |✓[l]
| is the element-wise absolute value of parameters in the lth
RSF = 1T
L
Y
l=1
|✓[l]
|
!
1 (2)
aptic saliency scores (@RSF
@✓ ✓) we term Synaptic Flow. For a simple,
. f(x) = W[N]
. . . W[1]
x), we can factor the Synaptic Flow score for a
本研究でのスコア計算に⽤いる値
パラメータの値のみから求まる
実験結果
• 複数のデータ,複数のネットワークで実験
– 性能を維持しつつパラメータ削除可能に
43
We empirically benchmark the performance of our algorithm, SynFlow (red), against the baselines
random pruning and magnitude pruning, as well as the state-of-the-art algorithms SNIP [13] and
GraSP [14]. In Fig. 6, we test the five algorithms on 12 distinct combinations of modern architec-
tures (VGG-11, VGG-16, ResNet-18, WideResNet-18) and datasets (CIFAR-10, CIFAR-100, Tiny
ImageNet) over an exponential sweep of compression ratios (10↵
for ↵ = [0, 0.25, . . . , 3.75, 4]).
See Appendix 13 for more details and hyperparameters of the experiments. Consistently, SynFlow
outperforms the other algorithms in the high compression regime (101.5
< ⇢) and demonstrates more
stability, as indicated by its tight intervals. SynFlow is also quite competitive in the low compression
regime (⇢ < 101.5
). Although SNIP and GraSP can partially outperform SynFlow in this regime,
both methods suffer from layer-collapse as indicated by their sharp drops in accuracy.
Compression ratio
Top-1
accuracy
Compression ratio Compression ratio Compression ratio
Top-1
accuracy
Top-1
accuracy
SynFlow
SNIP GraSP
Magnitude
Random
VGG-11 VGG-16 ResNet-18 WideResNet-18
CIFAR-10
Tiny
ImageNet
CIFAR-100
Figure 6: SynFlow consistently outperforms other pruning methods in high compression
(提案⼿法)
図はPruning neural networks without any data by iteratively conserving synaptic flowより引⽤
パラメータ数削減の戦略
• 蒸留(Distillation)
– 学習済みモデルの出⼒を⼩規模モデルで再現
• MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers
• モデル圧縮
– 学習済みモデル内の不要なパラメータを削除
• 不要︓予測への貢献が⼩さいパラメータ
• The Lottery Ticket Hypothesis for Pre-trained BERT Networks
• Movement Pruning: Adaptive Sparsity by Fine-Tuning
• Pruning neural networks without any data by iteratively conserving
synaptic flow
• 軽量なモデルの設計
– 最初から少数のパラメータで学習
• O(n) Connections are Expressive Enough: Universal Approximability of
Sparse Transformers
• All Word Embeddings from One Embedding
44
[NeurIPS 2020] O(n) Connections are Expressive Enough:
Universal Approximability of Sparse Transformers
• Sparse Transformer の表現⼒の議論
– Sparse Transformer [Child+ 19]: アテンション
を Sparse にして計算量削減
– Sparse Transformer は通常の Transformer と
同等の表現⼒を持つことが可能
– 同じ性能が達成可能,という主張ではない
45
Transformer の構造のおさらい
• Self-attention と Feed-forward 層からなる
46
x1 x2 x3 x4 x5
Self-attention
Feed-Forward
⼊⼒単語
埋め込み
Transformer
1層
……
Q
K
V
WK
WV
WQ
アテンション︓
各単語から単語
への重み
(V への重み)
QKT
softmax(QKT)V
を計算し,出⼒
Sparse なアテンション [Child+ 19]
その表現⼒について
• アテンションの計算対象を限定
– Strided,Fixed の 2種を提案
– 計算対象を限定 → 計算量削減
• 層を積んだ際に全単語間に(間接的に)アテンションが存在すれば,
通常のアテンションと同等の表現⼒
– この例では 2層で x1 → x3 → x5 というアテンションがある
47
x1x2x3x4x5
通常のアテンション
全単語間に対し計算
x
5
x
4
x
3
x
2
x
1
x1x2x3x4x5
x
5
x
4
x
3
x
2
x
1
Strided アテンション
直前の N 単語に対し計算
(図では N = 3)
x1x2x3x4x5
x
5
x
4
x
3
x
2
x
1
Fixed アテンション
N 区間の単語に対し計算
(図では N = 3)
定量的な結果
48
• 1 Billion Corpus での Perplexity(低いほど良い)
• Sparse なアテンションでも良い性能
– 性能はアテンションの種類で異なる(選択が難しい)
[NeurIPS 2020] All Word Embeddings
from One Embedding
• 軽量な埋め込み表現の構築⼿法を提案
– ランダムベクトルの組み合わせにより各語固有の
ベクトルを構築
– 学習パラメータは共通のベクトルとFFNのみ
• 翻訳(と要約)タスクで実験
– 既存研究より少ないパラメータで性能を維持
– 任意のタスクに適⽤可能
• コード︓
https://github.com/takase/alone_seq2seq
49
埋め込み表現とは
• 埋め込み︓各単語に対応した実数ベクトル
– ⾃然⾔語処理︓ニューラルネットには埋め込みを⼊⼒
– 各単語に固有=次元数(De ) × 語彙数(V )の⾏列
50
何らかのニューラルネット
I have a
P(I) P(have | I) P(a | I have) P(dream | I have a)
<BOS>
0.83 -1.56 0.37 … -0.42
I
単語を埋め込み表現に変換し,
ニューラルネットに⼊⼒
V
De
0.83
…
-0.42
埋め込み表現の⾏列から
単語に対応する埋め込みを抽出
語彙数は数万〜数⼗万
→ 埋め込み⾏列はニューラルモデルの
重み⾏列の中で最⼤の⾏列
(英-独翻訳の Transformer では
全パラメータの 1/4)
従来の軽量な埋め込み⼿法
• 埋め込み⾏列を複数の⾏列に分解
– ⼩さな次元数 × 語彙数の⾏列を⾏列演算で拡張
• 2 つに分解する [Lan+ 20]
• より複雑な分解 [Mehta+ 20]
• 問題点︓語彙数に依存した⾏列は必要
– 語彙数は数万〜数⼗万=巨⼤な⾏列が存在
• 語彙数に依存した学習パラメータを撤廃できないか︖
51
次元数×語彙数 ×
=
次元数×語彙数
×
=
× 結合
本研究の提案︓
語彙数に依存した学習パラメータ撤廃
• 従来︓各語に固有の埋め込み表現を⽤意
• 本研究︓各語に固有のランダムベクトルを⽤意
– ランダムベクトルと共有パラメータから埋め込みを構築
• ランダムベクトルをどう構築するか︖
– 素朴には次元数 × 語彙数
– もっとメモリ効率の良い⼿法はないか︖
52
o
mw
FFN
ew
学習パラメータは
o と FFN のみ
→ 学習パラメータが
語彙数に⾮依存
ランダムベクトル
(各語に固有)
共有の埋め込み 各語の埋め込み
ランダムベクトル mw の構築
• M 個のランダムベクトルを組み合わせる
• 組み合わせが完全に衝突することはほぼない
– 確率は 1 - exp(-V2 / 2(cM))
– 例えば翻訳(c = 64, M = 8, V = 37K)では 1.0 × 10-6
53
ランダム⾏列
,… + …
+
各単語に対してランダムに列ベクトルを割り当て,組み合わせる
mw
Do
c M
ランダムベクトルの組み合わせで mw を構築
Do × c × M < De × V
機械翻訳での実験結果
• 英-独翻訳データセットで実験
– 機械翻訳で広く使われているデータセット
– 評価︓BLEU(正解⽂との⼀致率=⾼いほど良い)
• 従来の埋め込み表現よりも少ないパラメータ数で同程度の性能を達成
– 既存の軽量な埋め込み表現よりもパラメータは少なく⾼い性能
54
⼿法 埋め込み表現
のパラメータ 全パラメータ BLEU
Transformer [Vaswani+ 17] 16.8M 60.9M 27.3
Transformer (re-run) 16.8M 60.9M 27.12
Transformer + DeFINE [Mehta+ 20] - 68M 27.01
Transformer + ⾏列分解 [Lan+ 20] 8.5M 52.7M 26.56
Transformer + 提案⼿法 8.4M 52.5M 27.61
まとめ
• NeurIPS 2020 を概観
– 参加者数,投稿数の増加
– ニューラルネットに関する研究が多い
• GPT-3 の論⽂(ベストペーパー)を紹介
– 事前学習モデルの性能はパラメータ数に対数⽐例
– 事前学習モデルは Zero-shot で解ける問題も多い
• ニューラルモデルのパラメータ削減の研究を紹介
– 課題︓(事前学習モデルなど)パラメータ数増加への対処
– 蒸留,圧縮,軽量なモデル設計の 3種をそれぞれ紹介
• 多くの研究が実装を公開済み
• 個⼈的には学習せずにパラメータ削減を試みる研究が印象的
55
参考⽂献
• Takase & Kobayashi 20: All Word Embeddings from One Embedding
• Brown+ 20: Language Models are Few-Shot Learners
• Vaswani+ 17: Attention Is All You Need
• Radford+ 19: Improving Language Understanding by Generative Pre-Training
• Radford+ 19: Language Models are Unsupervised Multitask Learners
• Wang+ 20: MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained
Transformers
• Frankle+ 19: The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
• Sanh+ 20: Movement Pruning: Adaptive Sparsity by Fine-Tuning
• Tanaka+ 20: Pruning neural networks without any data by iteratively conserving synaptic flow
• Yun+ 20: O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers
• Hinton+ 14: Distilling the Knowledge in a Neural Network
• Chen+ 20: The Lottery Ticket Hypothesis for Pre-trained BERT Networks
• Lee+ 19: SNIP: Single-shot Network Pruning based on Connection Sensitivity
• Wang+ 20: Picking Winning Tickets Before Training by Preserving Gradient Flow
• Mehta+ 20: DeFINE: DEep Factorized INput Token Embeddings for Neural Sequence Modeling
• Lan+ 20: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
•
56

NeurIPS2020参加報告

  • 1.
  • 2.
    略歴 • 2008-2017︓東北⼤学(学⼠-博⼠) – 東北⼤学乾・岡崎研で博⼠取得 •2017-2018︓NTT CS研(ポスドク) • 2018-2020︓東⼯⼤(研究員) • 2020- ︓東⼯⼤(助教) • ⾃然⾔語処理の研究に従事 – 近年は特に機械翻訳,要約などの⽣成タスクに取り組む – ⾃然⾔語処理の会議での発表が主 • NAACL,ACL,EMNLP – NeurIPSへの投稿は今回が初めて • Sho Takase, Sosuke Kobayashi. All Word Embeddings from One Embedding. NeurIPS 2020. 2
  • 3.
  • 4.
    NeurIPSとは • Neural InformationProcessing Systems – 略称の変遷 • ~ 2017︓NIPS • 2018 ~ ︓NeurIPS • 機械学習分野のトップ国際会議 – 神経科学,ニューラルネットの会議として発⾜ – 他の機械学習分野のトップ国際会議は • International Conference on Machine Leaning • International Conference on Learning Representations 4
  • 5.
    機械学習=深層学習ではない • NeurIPS 2020においては –例えばベストペーパー︓深層学習の研究は 1 / 3 • 深層学習関連︓Language Models are Few-Shot Learners – いわゆる GPT-3 の紹介をしている論⽂ – 例えば招待講演 • 機械学習モデルの出⼒における研究者の社会的責任 – You Can’t Escape Hyperparameters and Latent Variables: Machine Learning as a Software Engineering Enterprise • クラウドワーカーの能率化について – A Future of Work for the Invisible Workers in A.I. • ただし,⾃分の発表では⾃然⾔語処理に関係する 深層学習の研究に着⽬ 5
  • 6.
    参加者・論⽂数の推移 • 機械学習分野(や応⽤分野)への注⽬の⾼まり – 参加者数,論⽂数が加速度的に増加している –投稿論⽂数の増加 → 従来の論⽂選考⽅法の維持は難しい 6 NeurIPS,ICML,およびCVPR (画像処理のトップ会議)の 参加者数の推移 NeurIPSへの論⽂投稿数と 採択数の推移
  • 7.
    従来の論⽂選考⽅法 • 機械学習系は査読が公開される傾向にある︖ – ICLRは査読と議論が公開,NeurIPSも査読は公開 7 事象⽇付 何をするか︖ 概要投稿締め切り 5/16 概要の投稿 論⽂投稿締め切り 5/23 論⽂の投稿 査読(3 ~ 4⼈) 6/18 ~ 7/15 論⽂に応じて割り当てられた査読者が論⽂を読み, 良い点/悪い点と採択に対する可否を評価 (NeurIPSは1 ~ 10点で点数を付与) 著者からの反論 7/25 ~ 8/1 査読に対し,査読者の誤解を解く・疑問点に回答 査読者間の議論 8⽉中 著者の反論や他の査読者の査読を読み,査読者間で 互いの問題意識について議論を⾏い,査読や点数を 必要に応じて改める 採否公開 9/4 プログラム委員が最終的な採否を決定し開⽰ NeurIPS2019のスケジュール
  • 8.
    従来の論⽂選考⽅法 • 機械学習系は査読が公開される傾向にある︖ – ICLRは査読と議論が公開,NeurIPSも査読は公開 8 事象⽇付 何をするか︖ 概要投稿締め切り 5/16 概要の投稿 論⽂投稿締め切り 5/23 論⽂の投稿 査読(3 ~ 4⼈) 深刻な査読者不⾜ 6/18 ~ 7/15 論⽂に応じて割り当てられた査読者が論⽂を読み, 良い点/悪い点と採択に対する可否を評価 (NeurIPSは1 ~ 10点で点数を付与) 著者からの反論 7/25 ~ 8/1 査読に対し,査読者の誤解を解く・疑問点に回答 査読者間の議論 8⽉中 著者の反論や他の査読者の査読を読み,査読者間で 互いの問題意識について議論を⾏い,査読や点数を 必要に応じて改める 採否公開 9/4 プログラム委員が最終的な採否を決定し開⽰ NeurIPS2019のスケジュール
  • 9.
    NeurIPS2020の新施策(1/3) デスクリジェクト • 不採択の可能性が⾼い論⽂をまず落とす – 通常の査読プロセス前にエリアチェアが判断 9 8270 通常の査読へ (うち1898採択) 1097 不採択 不採択候補の中から100本を ランダムに選択,通常の査読へ (うち6本採択) → 通常の採択率(20%程度) より⼤きく低い (ただし1本は Spotlight) デスクリジェクト
  • 10.
    NeurIPS2020の新施策(2/3) Broader Impact の記述 •機械学習⼿法の社会への影響が増⼤ – 悪影響も⽣まれている • ⾔語モデルで流暢な⽂書⽣成が可能 →(⼀⾒確からしい)虚偽のニュースを簡単に⽣成可能に • 学習データに存在する偏りを強く反映 → 雇⽤時にモデルが性差や⼈種で選別 • 社会的な利点/⽋点(悪影響や悪⽤の可能性)の 記述を全論⽂に要求 – Broader Impact として論⽂の最後に記述 – ⾃分は投稿時にこの要求に気づいてなかった • arXiv に投稿されてる NeurIPS フォーマットの論⽂, Broader Impact ってセクションがあるやつ多いな〜 10
  • 11.
    NeurIPS2020の新施策(3/3) 国際会議のオンライン化 • COVID-19の影響でオンライン化 – 24時間常に何かしらのセッションがある状態 •NeurIPSは全論⽂がポスター発表を⾏う – Spotlight はオーラル + ポスター • ポスター発表は gather.town を利⽤ 11 ポスターに近づくことで ポスターを⾒ること, 発表者と話すことが可能 少⼈数で議論したい場合 Zoomに移⾏ 発表者はここに⽴つ (ことになっているが いない場合も)
  • 12.
    論⽂タイトルから⾒る傾向 • おおまかな傾向は 2019と同じ – neural, network, deep を含む論⽂が多い – 採択論⽂の 11.9% が neural を含む • 2019年は 10.8% • bias や fairness は議論は盛んな印象だが,強い増加傾向にはない 12 2019年の論⽂タイトルに多い単語 2020年の論⽂タイトルに多い単語
  • 13.
  • 14.
    ⾃然⾔語処理とは • ⼈の⽤いる⾔葉(⾃然⾔語)を計算機で処理する – 翻訳,要約,情報検索,情報抽出,… 14 ウンベルト・エーコの新作,『バウドリーノ』 は農⺠の⼦バウドリーノがバルバロッサとも呼 ばれる神聖ローマ皇帝フリードリヒ1世に寵愛 され,⼗字軍に随⾏する物語.前半は史実を元 にした展開となっているが,物語が進むにつれ て,史実からは⼤きく外れ,想像⼒に富んだ エーコの筆致が…… エーコの新作, 史実と想像⼒のまじわる冒険物語 Baudolino,a new novel by Umberto Eco, is the story of a peasant boy Baudolino who is favored by the Holy Roman Emperor Friedrich I, also known as Barbarossa, and accompanies him on the 3rd crusade …… 作品名 バウドリーノ 著者 ウンベルト・エーコ … … 情報抽出 要約 翻訳
  • 15.
    事前学習モデルの台頭 • BERT やGPT など事前学習モデルが台頭 – ⼤規模コーパスで学習 → ⽬的タスクに適⽤ – 様々なタスクで⾼い性能を達成 15 ウンベルト・エー コの新作,『バウ ドリーノ』は農⺠ の⼦が…… Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… 1. ⼤量の⽂書で ⾔語モデルを学習 ウンベルト・エー コの新作,『バウ ドリーノ』は農⺠ の⼦が…… Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… 2. 対訳⽂で学習 Where is my cat? 私の猫はどこですか︖ ⽬的タスク︓翻訳の場合 3. 翻訳を⾏う
  • 16.
    補⾜︓事前学習⼿法の概要 16 何らかのニューラルネット I have a Ihave a dream <BOS> 何らかのニューラルネット MASK MASK a I have <BOS> マスクド⾔語モデル(BERT系) ⼊⼒の⼀部をマスクし,その単語を予測 ⼊⼒系列 X について次を最⼤化 マスクする単語を ランダムに選択 マスクされた 単語を予測 ⾔語モデル(GPT系) 与えられた⽂脈に対し次の単語を予測 ⼊⼒系列 X について次を最⼤化 k-1から1つ前までの 単語を⽂脈とする ⽂脈の次の 単語を予測 • 学習⽅法で⼤別 – 構造は主に Transformer [Vaswani+ 17]
  • 17.
    [NeurIPS 2020] LanguageModels are Few-Shot Learners • NeurIPS 2020 ベストペーパーのひとつ • GPT-3 の紹介をしている論⽂ – GPT-3 の zero-shot での性能の検証 • Zero-shot でも多くのタスクで⾼い性能 – テスト時に使⽤する事例数に応じて性能向上 • 性能はパラメータに対数⽐例 – GPT-3のパラメータ数は 1750億 – GPT-1: Improving Language Understanding by Generative Pre-training – GPT-2: Language Models are Unsupervised Multitask Learners 17
  • 18.
    Zero-shot とは • Zero-shot:応⽤タスクで学習せずに解く 18 翻訳での 通常の学習 ウンベルト・エー コの新作,『バウ ドリーノ』は農⺠ の⼦が…… Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… 対訳⽂で学習 Where is my cat? 私の猫はどこですか︖ ウンベルト・エー コの新作,『バウ ドリーノ』は農⺠ の⼦が…… Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… ⼤量の⽂書で ⾔語モデルを学習 English to Japanese: Where is my cat? 私の猫はどこですか︖ ⾔語モデル による Zero-shot 翻訳
  • 19.
    (本研究での)zero, one, few-shot •解く際にどの程度事例を与えるか – どの設定でも応⽤タスクでの学習は⾏わない • どの設定も⼀般的には Zero-shot と呼ばれる 19 English to Japanese: Where is my cat? -> Zero-shot: タスクの説明と ⼊⼒のみ与える One-shot: タスクの説明と 事例を1つ与え, ⼊⼒を与える English to Japanese: This is a pen. -> これはペンです Where is my cat? -> English to Japanese: This is a pen. -> これはペンです Have a good night -> 良い夜を From the nothing, with love -> 虚無より愛をこめて Where is my cat? -> Few-shot: タスクの説明と 事例を複数与え, ⼊⼒を与える
  • 20.
    性能はパラメータ数に対数⽐例 • パラメータ数に対する各データでの性能の平均値 – パラメータが多いほど性能が⾼い •性能は Few > One > Zero – 推論時に事例を多く⾒るほど性能が⾼い 20 Figure 1.3: Aggregate performance for all 42 accuracy-denominated benchmarks While zero-shot performance improves steadily with model size, few-shot performance increases more rapidly, demonstrating that larger models are more proficient at in-context learning. See Figure 3.8 for a more detailed analysis on SuperGLUE, a standard NLP benchmark suite. In this paper, we test this hypothesis by training a 175 billion parameter autoregressive language model, which we call GPT-3, and measuring its in-context learning abilities. Specifically, we evaluate GPT-3 on over two dozen NLP datasets, 図は Language Models are Few-Shot Learners より
  • 21.
    各タスクでの性能の傾向 21 タスク GPT-3の Few-shotでの性能 ⽳埋めテスト 例︓Alice wasfriends with Bob. Alice went to visit her friend, __. -> Bob 良い (既存のトップと同等) 翻訳 (英-仏,英-独,英-露) 良い (教師なし翻訳と同等以上, ⾔語対によっては教師ありと同等) 質問応答・⽂書読解 (⽂書に対する問題に回答 例︓センター試験英語の⻑⽂読解) 混合 (データによって性能が異なる) 常識推論・含意関係認識 (含意︓前提⽂があるとき成⽴するか 例︓A は Bの著者である → A は作家である) 混合 (データによって性能が異なる, 既存のトップと⽐べると低め)
  • 22.
    [NeurIPS 2020] LanguageModels are Few-Shot Learnersまとめ • NeurIPS 2020 ベストペーパーのひとつ • GPT-3 の zero-shot での性能の検証 – Zero-shot でも多くのタスクで⾼い性能 • テスト時に使⽤する事例数に応じて性能向上 – 性能はパラメータに対数⽐例 • GPT-3のパラメータ数は 1750億 • 常識推論や含意関係認識は性能が低い︖ 22
  • 23.
    問題︓必要な計算資源の増加 • 事前学習モデルのパラメータ数増加が著しい – パラメータ数が増えると性能も上がる[Brown+ 20] • 性能はパラメータ数に対数⽐例 • 学習パラメータが多い=多量の計算資源が必要 – モデルの圧縮や軽量化(パラメータ削減)が課題 23 117M 110M 1.5B 8.3B 17B 175B 1年で1000倍以上に 膨れ上がっている
  • 24.
    パラメータ数削減の戦略 • 蒸留(Distillation) – 学習済みモデルの出⼒を⼩規模モデルで再現 •MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers • モデル圧縮 – 学習済みモデル内の不要なパラメータを削除 • 不要︓予測への貢献が⼩さいパラメータ • The Lottery Ticket Hypothesis for Pre-trained BERT Networks • Movement Pruning: Adaptive Sparsity by Fine-Tuning • Pruning neural networks without any data by iteratively conserving synaptic flow • 軽量なモデルの設計 – 最初から少数のパラメータで学習 • O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers • All Word Embeddings from One Embedding 24
  • 25.
    蒸留(Distillation) • 学習済みモデルの出⼒を⼩規模モデルで再現 [Hinton+14] – ⾔語モデルの学習を例に 25 Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… 元となるモデル (教師モデル) の学習 ⼩さなモデル (⽣徒モデル) の学習 Baudolino, a new novel by Umberto Eco, is the story of a peasant boy …… Baudolino, a new Baudolino, a new novel ⽂脈を⼊⼒し, 次の単語を予測 Baudolino, a new novel 教師モデルの 出⼒を再現する ように学習 通常の学習 (次の単語 を予測)
  • 26.
    [NeurIPS 2020] MiniLM:Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers • 事前学習した BERT の蒸留⼿法を提案 – 最終層の Self-attention 部分を模倣する • 従来の蒸留した BERT よりも⾼い性能 – 同⼀のパラメータ数で⾼い性能を達成 • コード︓ https://github.com/microsoft/unilm/tree/ma ster/minilm 26
  • 27.
    Transformer [Vaswani+ 17]の構造 • Self-attention と Feed-forward 層からなる 27 x1 x2 x3 x4 x5 Self-attention Feed-Forward ⼊⼒単語 埋め込み Transformer 1層 …… Q K V WK WV WQ アテンション︓ 各単語から単語 への重み (V への重み) QKT softmax(QKT)V を計算し,出⼒
  • 28.
    Self-attention 部分の模倣 • 教師,⽣徒モデルの最終層のSelf-attention部分を模倣 – 各⾏列の KL Divergence を最⼩化 28 Q K QKT V V VT Q K V QKT V VT アテンション⾏列の模倣 ⾏列 V からなる⾏列の模倣 教師モデル ⽣徒モデル
  • 29.
    実験結果 • 蒸留 →各タスクで学習した正解率 – 教師モデル︓BERT (base) – 8つのタスクの平均値を記載 • 詳細は論⽂を参照のこと • 同数のパラメータで既存⼿法より⾼い性能 29 ⼿法 パラメータ数 正解率 BERT (base) 109M 81.5 BERT (small) 66M 79.1 DistillBERT [Sanh+ 19] 66M 77.6 TinyBERT [Jiao+ 19] 66M 79.1 MiniLM(提案⼿法) 66M 80.4 既存の 蒸留⼿法
  • 30.
    パラメータ数削減の戦略 • 蒸留(Distillation) – 学習済みモデルの出⼒を⼩規模モデルで再現 •MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers • モデル圧縮 – 学習済みモデル内の不要なパラメータを削除 • 不要︓予測への貢献が⼩さいパラメータ • The Lottery Ticket Hypothesis for Pre-trained BERT Networks • Movement Pruning: Adaptive Sparsity by Fine-Tuning • Pruning neural networks without any data by iteratively conserving synaptic flow • 軽量なモデルの設計 – 最初から少数のパラメータで学習 • O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers • All Word Embeddings from One Embedding 30
  • 31.
    モデル圧縮 • 学習済みモデル内の不要なパラメータを削除 – 不要︓予測への貢献が⼩さいパラメータ –基本戦略︓パラメータの値の絶対値で判断 • 絶対値の⼩さいパラメータをゼロに • 近年の発展︓Lottery Ticket Hypothesis – パラメータ削除に関する妥当性と戦略の議論 31
  • 32.
    Lottery Ticket Hypothesisとは • ニューラルモデルは同等の性能を達成可能な部分ネット (subnetwork)を持つ [Frankle+ 19] – ニューラルモデルは⾼い性能を達成可能な当選クジを含む • ⼤量のパラメータ︓抽選クジ • 良い部分ネット︓当選クジ • どのように良い部分ネットを発⾒するか︖ – 学習とパラメータ削除を繰り返す 32 学習 寄与の⼩さい パラメータを 削除 残りの パラメータを 初期値に戻す 再度学習
  • 33.
    [NeurIPS 2020] TheLottery Ticket Hypothesis for Pre-trained BERT Networks • 事前学習した BERT におけるパラメータ削減について, 実験的に調査 – Lottery Ticket Hypothesis の BERT に適⽤可能かについて 調査するという主旨 • パラメータを削減したモデルはいろいろな応⽤タスク に流⽤可能か︖ – 事前学習と同様の学習中にパラメータ削減することで可能 • コード︓https://github.com/VITA-Group/BERT-Tickets – 実験で得た部分ネットも近⽇公開とある 33
  • 34.
    事前学習モデル(BERT)の パラメータ削減 • 事前学習結果のパラメータを初期値とする • 特定の応⽤タスクでの学習と削除を繰り返す –削除対象とするパラメータは事前学習モデル内に限る 34 学習 寄与の⼩さい パラメータを 削除 残りの パラメータを 初期値に戻す 再度学習 応⽤タスク⽤ のパラメータ 事前学習結果 のパラメータ
  • 35.
    各タスクで削減 → 別タスクに適⽤の結果 35 Figure2: Transfer Winning Tickets. The performance of transferring IMP subnetworks between tasks. Each row is a source task S. Each column is a target task T . Each cell is TRANSFER(S, T ): パラメータ削減に使うタスク 適⽤先のタスク Masked Language Model(MLM,事前学習に⽤いたタスク)を通して パラメータの削減を⾏うと様々な応⽤タスクで⾼い性能を達成できる ⿊いセル=パラメータ削減なしのBERTと同等の性能 表はThe Lottery Ticket Hypothesis for Pre-trained BERT Networksより引⽤
  • 36.
    [NeurIPS 2020] MovementPruning: Adaptive Sparsity by Fine-Tuning • 事前学習モデルを応⽤タスクで学習した際に, どのパラメータを削除するか︖ – 素朴な⼿法︓パラメータの寄与率=絶対値 • 事前学習結果に強く依存 • 絶対値は⼤きいが応⽤タスクでは不要なパラメータが残存 • 提案⼿法︓応⽤タスクでの勾配を元に削除 – 0 ⽅向への勾配=応⽤タスクで不要なパラメータ • コード︓ https://github.com/huggingface/block_movement_ pruning 36
  • 37.
    実験結果 • 事前学習モデルを応⽤タスクで学習,パラメータ削除 – 元の事前学習モデル︓BERT(base) • 絶対値を元にパラメータ削除する⼿法と⽐べ⾼い性能 – パラメータ量を 10% → 3% にしても減衰が少ない 37 ⼿法 パラメータの 残存率 SQuAD MNLI QQP BERT (base) 100% 88.1 84.5 91.4 絶対値を元に削除 10% 78.5 77.8 78.8 提案⼿法 10% 81.5 80.7 90.5 絶対値を元に削除 3% 54.5 68.9 72.1 提案⼿法 3% 79.9 79.0 89.3
  • 38.
    [NeurIPS 2020] Pruningneural networks without any data by iteratively conserving synaptic flow • 訓練データを参照せず学習前の状態において パラメータを削減する⼿法を提案 – 削除に⽤いるスコアをパラメータの値で計算 – スコア計算と削除を反復することにより特定層の パラメータの全削除を防ぐ • 性能を維持しつつパラメータを削除可能 • コード︓https://github.com/ganguli- lab/Synaptic-Flow 38
  • 39.
    論⽂の概要 • 訓練データを⼀切⽤いずに部分ネットを発⾒する⼿法を提案 – 学習をせずにパラメータを削除する⼿法もあるが,どのパラメータを 削減するか,の計算に訓練データが必要 •性能を維持しつつパラメータ削減に成功 39 学習 寄与の⼩さい パラメータを 削除 残りの パラメータを 初期値に戻す 再度学習 広く使われている,部分ネットの発⾒⼿法 提案⼿法
  • 40.
    学習前からパラメータ削減する 既存⼿法の問題 • 訓練データで1度だけ計算し,パラメータを削減する ⼿法が存在 [Lee+19, Wang+ 20] – 訓練データに対する損失を元にパラメータにスコアを付与 • スコアを付与するだけで学習は⾏わない – スコアに基づいてパラメータを削減 40 tacle to pruning at initialization at initialization is defined by two steps. The first step scores to some metric and the second step masks the parameters ording to their scores. The pruning algorithms we consider mply removing the parameters with the smallest scores. This ly across the network, or layer-wise. Empirically, its been better than layer-masking, in part because it introduces fewer pruning rates across the network [24]. However, recent works e mode, layer-collapse, for existing pruning algorithms using when an algorithm prunes all parameters in a single weight remain elsewhere in the network. This renders the network n the achievable accuracy for the network as shown in Fig. 1. layer-collapse we will define some useful terms inspired by a [34]. Max Compression Figure 1: Layer-collapse leads to a sudden drop in accuracy. Top-1 test accuracy as a function of the compres- sion ratio for a VGG-16 model pruned ) is the number of ded by the number For example, when only one out of a ter pruning. Max sible compression ayer-collapse. For nd N parameters, n ratio associated ayer. Critical com- sion ratio a given ng layer-collapse. of an algorithm is pression of the net- tivates the follow- pruning algorithm 図はPruning neural networks without any data by iteratively conserving synaptic flowより引⽤ ある程度削減すると 性能が⼤きく下がる 何故突然性能が下がるのか︖ → ある層のパラメータを すべて削ってしまうので
  • 41.
    スコアの反復計算が重要 • 既存⼿法は訓練データでの計算が1度だけ =スコア計算が1度だけ – スコアはパラメータが削除された状態に対し 適宜計算される必要がある 41 図はPruningneural networks without any data by iteratively conserving synaptic flowより引⽤ 学習 → パラメータ削減 → 学習… の反復を⾏う⼀般的な⼿法でも 学習 → パラメータ削減の1度だけだと 性能が⼤きく下がる
  • 42.
    提案⼿法︓スコアをパラメータの値から算出 • 訓練データの損失を使うと反復計算が難しい – 訓練データ上での計算を何度も⾏う必要がある →パラメータの値のみでスコアを算出する – 学習データなしにスコアの反復計算が可能に 42 the width of a layer [34]. With magnitude pruning the widest layers, or output dimensions, are the first to be fully pruned. Gradient-based 3] and GraSP [14] also prune layers at different rates, but it is less clear preference is. In particular, both SNIP and GraSP aggressively prune ith the most trainable parameters, evident by the sharp peaks in Fig. 2. we hypothesize that gradient-based scores averaged within a layer are layer size. We examine this hypothesis by constructing a theoretical networks. We first define a general class of gradient-based scores, prove scores, and then use this law to prove that our hypothesis of inverse r size and average layer score holds exactly. -based scores. Synaptic saliency is a class of score metrics that can be product S(✓) = @R @✓ ✓, (1) ion of the output y of a feed-forward network parameterized by ✓. When esulting synaptic saliency metric is equivalent (modulo sign) to @L @✓ ✓, tonization [1], one of the first network pruning algorithms. The resulting o @L @✓ ✓ the score used in SNIP [13], H @L @✓ ✓ the score used in core used in the pruning after training algorithm Taylor-FO [28]. When スコアの⼀般的な形式, 既存研究は として訓練データの損失を利⽤ ly proportional to the width of a layer [34]. With magnitude pruning the with largest input or output dimensions, are the first to be fully pruned. G gorithms SNIP [13] and GraSP [14] also prune layers at different rates, but oot cause for this preference is. In particular, both SNIP and GraSP aggre layer, the layer with the most trainable parameters, evident by the sharp p his observation, we hypothesize that gradient-based scores averaged with roportional to the layer size. We examine this hypothesis by constructing grounded in flow networks. We first define a general class of gradient-based tion law for these scores, and then use this law to prove that our hypothe ality between layer size and average layer score holds exactly. class of gradient-based scores. Synaptic saliency is a class of score metri as the Hadamard product S(✓) = @R @✓ ✓, a scalar loss function of the output y of a feed-forward network parameterize ining loss L, the resulting synaptic saliency metric is equivalent (modulo sign etric used in Skeletonization [1], one of the first network pruning algorithms. so closely related to @L @✓ ✓ the score used in SNIP [13], H @L @✓ ✓ the 2 works, it requires an impractical amount of computation to obtain them. more efficient pruning algorithm while still inheriting the key aspects of the essential ingredients for a pruning algorithm to avoid layer-collapse l Critical Compression? We prove the following theorem in Appendix 9. ive, conservative scoring achieves Maximal Critical Compression. If a bal-masking, assigns positive scores that respect layer-wise conservation al score for the parameters pruned at any iteration, is strictly less than for an entire layer, whenever possible, then the algorithm satisfies the ion axiom. ow Pruning (SynFlow) algorithm. Theorem 3 directly motivates the algorithm, SynFlow, that provably reaches Maximal Critical Compression. ve score evaluation discourages algorithms that involve backpropagation ead motivates the development of an efficient data-independent scoring ity and conservation motivates the construction of a loss function that ency scores. We combine these insights to introduce a new loss function tor and |✓[l] | is the element-wise absolute value of parameters in the lth RSF = 1T L Y l=1 |✓[l] | ! 1 (2) aptic saliency scores (@RSF @✓ ✓) we term Synaptic Flow. For a simple, . f(x) = W[N] . . . W[1] x), we can factor the Synaptic Flow score for a 本研究でのスコア計算に⽤いる値 パラメータの値のみから求まる
  • 43.
    実験結果 • 複数のデータ,複数のネットワークで実験 – 性能を維持しつつパラメータ削除可能に 43 Weempirically benchmark the performance of our algorithm, SynFlow (red), against the baselines random pruning and magnitude pruning, as well as the state-of-the-art algorithms SNIP [13] and GraSP [14]. In Fig. 6, we test the five algorithms on 12 distinct combinations of modern architec- tures (VGG-11, VGG-16, ResNet-18, WideResNet-18) and datasets (CIFAR-10, CIFAR-100, Tiny ImageNet) over an exponential sweep of compression ratios (10↵ for ↵ = [0, 0.25, . . . , 3.75, 4]). See Appendix 13 for more details and hyperparameters of the experiments. Consistently, SynFlow outperforms the other algorithms in the high compression regime (101.5 < ⇢) and demonstrates more stability, as indicated by its tight intervals. SynFlow is also quite competitive in the low compression regime (⇢ < 101.5 ). Although SNIP and GraSP can partially outperform SynFlow in this regime, both methods suffer from layer-collapse as indicated by their sharp drops in accuracy. Compression ratio Top-1 accuracy Compression ratio Compression ratio Compression ratio Top-1 accuracy Top-1 accuracy SynFlow SNIP GraSP Magnitude Random VGG-11 VGG-16 ResNet-18 WideResNet-18 CIFAR-10 Tiny ImageNet CIFAR-100 Figure 6: SynFlow consistently outperforms other pruning methods in high compression (提案⼿法) 図はPruning neural networks without any data by iteratively conserving synaptic flowより引⽤
  • 44.
    パラメータ数削減の戦略 • 蒸留(Distillation) – 学習済みモデルの出⼒を⼩規模モデルで再現 •MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers • モデル圧縮 – 学習済みモデル内の不要なパラメータを削除 • 不要︓予測への貢献が⼩さいパラメータ • The Lottery Ticket Hypothesis for Pre-trained BERT Networks • Movement Pruning: Adaptive Sparsity by Fine-Tuning • Pruning neural networks without any data by iteratively conserving synaptic flow • 軽量なモデルの設計 – 最初から少数のパラメータで学習 • O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers • All Word Embeddings from One Embedding 44
  • 45.
    [NeurIPS 2020] O(n)Connections are Expressive Enough: Universal Approximability of Sparse Transformers • Sparse Transformer の表現⼒の議論 – Sparse Transformer [Child+ 19]: アテンション を Sparse にして計算量削減 – Sparse Transformer は通常の Transformer と 同等の表現⼒を持つことが可能 – 同じ性能が達成可能,という主張ではない 45
  • 46.
    Transformer の構造のおさらい • Self-attentionと Feed-forward 層からなる 46 x1 x2 x3 x4 x5 Self-attention Feed-Forward ⼊⼒単語 埋め込み Transformer 1層 …… Q K V WK WV WQ アテンション︓ 各単語から単語 への重み (V への重み) QKT softmax(QKT)V を計算し,出⼒
  • 47.
    Sparse なアテンション [Child+19] その表現⼒について • アテンションの計算対象を限定 – Strided,Fixed の 2種を提案 – 計算対象を限定 → 計算量削減 • 層を積んだ際に全単語間に(間接的に)アテンションが存在すれば, 通常のアテンションと同等の表現⼒ – この例では 2層で x1 → x3 → x5 というアテンションがある 47 x1x2x3x4x5 通常のアテンション 全単語間に対し計算 x 5 x 4 x 3 x 2 x 1 x1x2x3x4x5 x 5 x 4 x 3 x 2 x 1 Strided アテンション 直前の N 単語に対し計算 (図では N = 3) x1x2x3x4x5 x 5 x 4 x 3 x 2 x 1 Fixed アテンション N 区間の単語に対し計算 (図では N = 3)
  • 48.
    定量的な結果 48 • 1 BillionCorpus での Perplexity(低いほど良い) • Sparse なアテンションでも良い性能 – 性能はアテンションの種類で異なる(選択が難しい)
  • 49.
    [NeurIPS 2020] AllWord Embeddings from One Embedding • 軽量な埋め込み表現の構築⼿法を提案 – ランダムベクトルの組み合わせにより各語固有の ベクトルを構築 – 学習パラメータは共通のベクトルとFFNのみ • 翻訳(と要約)タスクで実験 – 既存研究より少ないパラメータで性能を維持 – 任意のタスクに適⽤可能 • コード︓ https://github.com/takase/alone_seq2seq 49
  • 50.
    埋め込み表現とは • 埋め込み︓各単語に対応した実数ベクトル – ⾃然⾔語処理︓ニューラルネットには埋め込みを⼊⼒ –各単語に固有=次元数(De ) × 語彙数(V )の⾏列 50 何らかのニューラルネット I have a P(I) P(have | I) P(a | I have) P(dream | I have a) <BOS> 0.83 -1.56 0.37 … -0.42 I 単語を埋め込み表現に変換し, ニューラルネットに⼊⼒ V De 0.83 … -0.42 埋め込み表現の⾏列から 単語に対応する埋め込みを抽出 語彙数は数万〜数⼗万 → 埋め込み⾏列はニューラルモデルの 重み⾏列の中で最⼤の⾏列 (英-独翻訳の Transformer では 全パラメータの 1/4)
  • 51.
    従来の軽量な埋め込み⼿法 • 埋め込み⾏列を複数の⾏列に分解 – ⼩さな次元数× 語彙数の⾏列を⾏列演算で拡張 • 2 つに分解する [Lan+ 20] • より複雑な分解 [Mehta+ 20] • 問題点︓語彙数に依存した⾏列は必要 – 語彙数は数万〜数⼗万=巨⼤な⾏列が存在 • 語彙数に依存した学習パラメータを撤廃できないか︖ 51 次元数×語彙数 × = 次元数×語彙数 × = × 結合
  • 52.
    本研究の提案︓ 語彙数に依存した学習パラメータ撤廃 • 従来︓各語に固有の埋め込み表現を⽤意 • 本研究︓各語に固有のランダムベクトルを⽤意 –ランダムベクトルと共有パラメータから埋め込みを構築 • ランダムベクトルをどう構築するか︖ – 素朴には次元数 × 語彙数 – もっとメモリ効率の良い⼿法はないか︖ 52 o mw FFN ew 学習パラメータは o と FFN のみ → 学習パラメータが 語彙数に⾮依存 ランダムベクトル (各語に固有) 共有の埋め込み 各語の埋め込み
  • 53.
    ランダムベクトル mw の構築 •M 個のランダムベクトルを組み合わせる • 組み合わせが完全に衝突することはほぼない – 確率は 1 - exp(-V2 / 2(cM)) – 例えば翻訳(c = 64, M = 8, V = 37K)では 1.0 × 10-6 53 ランダム⾏列 ,… + … + 各単語に対してランダムに列ベクトルを割り当て,組み合わせる mw Do c M ランダムベクトルの組み合わせで mw を構築 Do × c × M < De × V
  • 54.
    機械翻訳での実験結果 • 英-独翻訳データセットで実験 – 機械翻訳で広く使われているデータセット –評価︓BLEU(正解⽂との⼀致率=⾼いほど良い) • 従来の埋め込み表現よりも少ないパラメータ数で同程度の性能を達成 – 既存の軽量な埋め込み表現よりもパラメータは少なく⾼い性能 54 ⼿法 埋め込み表現 のパラメータ 全パラメータ BLEU Transformer [Vaswani+ 17] 16.8M 60.9M 27.3 Transformer (re-run) 16.8M 60.9M 27.12 Transformer + DeFINE [Mehta+ 20] - 68M 27.01 Transformer + ⾏列分解 [Lan+ 20] 8.5M 52.7M 26.56 Transformer + 提案⼿法 8.4M 52.5M 27.61
  • 55.
    まとめ • NeurIPS 2020を概観 – 参加者数,投稿数の増加 – ニューラルネットに関する研究が多い • GPT-3 の論⽂(ベストペーパー)を紹介 – 事前学習モデルの性能はパラメータ数に対数⽐例 – 事前学習モデルは Zero-shot で解ける問題も多い • ニューラルモデルのパラメータ削減の研究を紹介 – 課題︓(事前学習モデルなど)パラメータ数増加への対処 – 蒸留,圧縮,軽量なモデル設計の 3種をそれぞれ紹介 • 多くの研究が実装を公開済み • 個⼈的には学習せずにパラメータ削減を試みる研究が印象的 55
  • 56.
    参考⽂献 • Takase &Kobayashi 20: All Word Embeddings from One Embedding • Brown+ 20: Language Models are Few-Shot Learners • Vaswani+ 17: Attention Is All You Need • Radford+ 19: Improving Language Understanding by Generative Pre-Training • Radford+ 19: Language Models are Unsupervised Multitask Learners • Wang+ 20: MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers • Frankle+ 19: The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks • Sanh+ 20: Movement Pruning: Adaptive Sparsity by Fine-Tuning • Tanaka+ 20: Pruning neural networks without any data by iteratively conserving synaptic flow • Yun+ 20: O(n) Connections are Expressive Enough: Universal Approximability of Sparse Transformers • Hinton+ 14: Distilling the Knowledge in a Neural Network • Chen+ 20: The Lottery Ticket Hypothesis for Pre-trained BERT Networks • Lee+ 19: SNIP: Single-shot Network Pruning based on Connection Sensitivity • Wang+ 20: Picking Winning Tickets Before Training by Preserving Gradient Flow • Mehta+ 20: DeFINE: DEep Factorized INput Token Embeddings for Neural Sequence Modeling • Lan+ 20: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations • 56