Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

To prune, or not to prune: exploring the efficacy of pruning for model compression #8

Open
ryoherisson opened this issue Jan 27, 2021 · 0 comments
Assignees

Comments

@ryoherisson
Copy link
Contributor

一言でいうと

大規模なスパースネットワークモデルの方が,小規模で密なモデルよりも精度が高いことを示したもの.

論文リンク

https://openreview.net/pdf?id=Sy1iIDkPM

著者/所属機関

Michael H. Zhu, Suyog Gupta
(Stanford University, Google)

投稿日付(yyyy/MM/dd)

2017/11/13

概要

モデルのサイズと精度のトレードオフを考える上で,大規模で剪定されたネットワークと,小規模で密なモデルを比較.
その結果,大規模なスパースネットワークモデルの方が,小規模で密なモデルよりも精度が高かった.大規模なスパースネットワークモデルは,精度の損失を最小限に抑えながら非ゼロパラメータ数を最大10倍まで削減.
また,最小限のチューニングで様々なモデル/データセットに適用でき,学習プロセスにシームレスに組み込むことができる,シンプルかつ段階的な剪定手法を提案.

新規性・差分

  • 大規模で剪定されたネットワークと,小規模で密なモデルを比較
  • シンプルかつ段階的な剪定手法を提案

手法

自動段階的剪定アルゴリズム

  • 各層の重みを絶対値でソートし,スパースレベル s_f まで最小のマグニチュードの重みをゼロマスクする.
  • スパースレベル s_t のアップデート:
    • 学習ステップ t_0 から開始し,剪定頻度 ∆t で n 段階の剪定ステップを経て,初期のスパースレベル s_i(通常は0)から最終的なスパースレベル s_f までスパースレベルを増加させる
    • 経験上,剪定頻度 ∆t は100から1,000の間であれば,モデルの品質に与える影響は無視できる
    • 直感的理解は,学習の初期段階で多くの剪定を行い,重みが少なくなるにつれて剪定される重み数を少なくしている,というもの.
    • 学習率が低い時に剪定を多く行うと,モデルの損失を回復することが困難となる,など学習率のスケジュールに合わせて剪定を行うことが重要.
      スクリーンショット 2021-01-27 20 52 11

結果

スクリーンショット 2021-01-27 20 39 54
スクリーンショット 2021-01-27 20 40 31
スクリーンショット 2021-01-27 20 40 42

コメント

@ryoherisson ryoherisson self-assigned this Jan 27, 2021
@ryoherisson ryoherisson changed the title To prune, or not to prune: exploring the efficacy ofpruning for model compression To prune, or not to prune: exploring the efficacy of pruning for model compression Jan 27, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants