Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Communication-Efficient Distributed Deep Learning with Merged Gradient Sparsification on GPUs #13

Open
mitsuhiko-nozawa opened this issue Jun 1, 2021 · 0 comments

Comments

@mitsuhiko-nozawa
Copy link
Contributor

mitsuhiko-nozawa commented Jun 1, 2021

一言でいうと

勾配スパース化、計算のパイプライニングで生じる通信と計算のトレードオフを最適化問題として定式化、さらに分散環境下で動作

論文リンク

https://www.comp.hkbu.edu.hk/~chxw/papers/infocom_2020_MGS.pdf

著者/所属機関

Shaohuai Shi†, Qiang Wang†, Xiaowen Chu†∗, Bo Li‡, Yang Qin§, Ruihao Liu¶, Xinxiao Zhao¶
†High-Performance Machine Learning Lab, Department of Computer Science, Hong Kong Baptist University
‡Department of Computer Science and Engineering, The Hong Kong University of Science and Technology
§Department of Computer Science and Technology, Harbin Institute of Technology (Shenzhen)
¶MassGrid.com, Shenzhen District Block Technology Co., Ltd.

投稿日付(yyyy/MM/dd)

IEEE 2020/7/6-9

概要

TopK sparsificationやパイプライニングのような分散環境下でのモデルのそう学習時間を削減するための手法は、その手法自身が新たな計算や通信コストを生み出しており、それがボトルネックになりかねない
二つを組み合わせた手法は LAGS-SGD と呼ばれるが、この手法においてまずイテレーション時間を最小化するように層の連続数を決め、それを元にSGDを適応する。
image

新規性・差分

Topk sparsificationとパイプライニングしつつ、層のマージの最適化を行った点。
image

手法

勾配の通信は、com(a+b) < com(a) + com(b) という関係が成り立つ(同時に送った方が良い).
しかし、スパース化のコストはs(a+b) > s(a) + s(b) である(いっぱいあるとその分大変)。
そのため、L層のうちいくつかの連続する層をまとめることを考える。
image
image
Mはマージor非マージの全ての組み合わせ、tsがスパース化時間、tcが通信時間、τが累計時間(max内はどっちか遅い方)

結果

以下の4つのモデルとデータセットで実験

  • VGG16 - cifar10
  • resnet50 - Imagenet
  • Inceptionv4 - Imagenet
  • 2 layer LSTM - PTB

最終的な収束はvanila SGDと同じくらい
image

vanila SGDと提案手法で、イテレーション内でどこに時間がかかっているかの内訳
ある程度パラメータ数が大きいモデルでは効果的に通信コストを減らせている?
image

コメント

@mitsuhiko-nozawa mitsuhiko-nozawa self-assigned this Jun 1, 2021
@mitsuhiko-nozawa mitsuhiko-nozawa changed the title [WIP] Communication-Efficient Distributed Deep Learning with Merged Gradient Sparsification on GPUs Communication-Efficient Distributed Deep Learning with Merged Gradient Sparsification on GPUs Jun 3, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant