Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks #10

Open
ryoherisson opened this issue Jan 27, 2021 · 0 comments
Assignees

Comments

@ryoherisson
Copy link
Contributor

一言でいうと

宝くじ仮説(The Lottery Ticket Hypothesis)※を提唱し,実験で仮説をサポート.
※ ランダムに初期化された密なネットワークは,高々同じイテレーション数の学習を行えば元のネットワークと同様の精度を達成できるようなサブネットワーク(Winning Tickets)を持つ.

論文リンク

https://openreview.net/pdf?id=rJl-b3RcF7

著者/所属機関

Frankle, J. Carbin, M.
(MIT)

投稿日付(yyyy/MM/dd)

2019/03/04

概要

学習の過程で「剪定=>残った重み初期化」を(繰り返し)行い,得られたサブネットワークが元のネットワークの精度と同等もしくは上回るか確認.
元のネットワークの10-20%以下のサイズで,元のネットワークよりも高速に学習し,高い精度を達成する部分ネットワークを見つけることができた.

新規性・差分

  • 剪定により,元のネットワークと同等の精度に達するサブネットワークを発見できることを実証.
  • 剪定により,元のネットワークよりも高速であり,高い精度・汎化性を持つサブネットワークを発見できることを示した.
  • 上記を説明するための宝くじ仮説を提唱.

手法

反復で剪定する手法2つ.剪定時は,層ごとに小さい値を持つ重みを(1-Pm)%削除.
戦略1: 重みリセットありの反復手法

  1. ニューラルネットワークf(x; m⊙θ)をランダムに初期化し,θ=θ_0,マスクmを全て1にする.
  2. ネットワークを繰り返し学習する.
  3. パラメータの剪定を行い,定めた剪定率でマスクmを更新する.
  4. ネットワークの残りの部分の重みをリセット(θ=θ0)とする.
  5. m=m′とし、十分に剪定されたネットワークが得られるまで2から4を繰り返す.

戦略2: 学習を続けながら行う反復手法

  1. ニューラルネットワークf(x;mθ)をランダムに初期化し,θ=θ_0,マスクmを全て1にする.
  2. ネットワークを繰り返し学習する.
  3. パラメータの剪定を行い,定めた剪定率でマスクmを更新する.
  4. m=m′とし,十分に剪定されたネットワークが得られるまで2と3を繰り返す.
  5. ネットワークの残りの部分の重みをθ_0の値にリセットする.

結果

  • 1shotよりも反復学習の方が精度が高い.
  • MNISTとCIFAR10で実験を行った結果,元のネットワークの10-20%以下のサイズで,かつ,元のネットワークよりも高速に学習し,高い精度を達成する部分ネットワークを見つけることができた.
  • 反復学習時の剪定後に残りの重みをランダムに初期化した場合,初期値の重みを使用した場合に比べて精度が低く,学習も遅
    い.

1shotと反復の比較
スクリーンショット 2021-01-28 1 50 26

Lenet(反復)
スクリーンショット 2021-01-28 1 51 11

VGG-19
スクリーンショット 2021-01-28 1 52 15

ResNet-18
スクリーンショット 2021-01-28 1 32 31

戦略1の方が精度が高い.
スクリーンショット 2021-01-28 1 23 43

コメント

  • Gale et al. (2019) The State of Sparsity in Deep Neural Networksで,非構造化スパースアーキテクチャではランダムな重みで初期化したモデルは,FineTuneモデルの精度よりも低い,と指摘されている.
@ryoherisson ryoherisson self-assigned this Jan 27, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants