You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Shaohuai Shi†, Qiang Wang†, Xiaowen Chu†∗, Bo Li‡, Yang Qin§, Ruihao Liu¶, Xinxiao Zhao¶
†High-Performance Machine Learning Lab, Department of Computer Science, Hong Kong Baptist University
‡Department of Computer Science and Engineering, The Hong Kong University of Science and Technology
§Department of Computer Science and Technology, Harbin Institute of Technology (Shenzhen)
¶MassGrid.com, Shenzhen District Block Technology Co., Ltd.
mitsuhiko-nozawa
changed the title
[WIP] Communication-Efficient Distributed Deep Learning with Merged Gradient Sparsification on GPUs
Communication-Efficient Distributed Deep Learning with Merged Gradient Sparsification on GPUs
Jun 3, 2021
一言でいうと
勾配スパース化、計算のパイプライニングで生じる通信と計算のトレードオフを最適化問題として定式化、さらに分散環境下で動作
論文リンク
https://www.comp.hkbu.edu.hk/~chxw/papers/infocom_2020_MGS.pdf
著者/所属機関
Shaohuai Shi†, Qiang Wang†, Xiaowen Chu†∗, Bo Li‡, Yang Qin§, Ruihao Liu¶, Xinxiao Zhao¶
†High-Performance Machine Learning Lab, Department of Computer Science, Hong Kong Baptist University
‡Department of Computer Science and Engineering, The Hong Kong University of Science and Technology
§Department of Computer Science and Technology, Harbin Institute of Technology (Shenzhen)
¶MassGrid.com, Shenzhen District Block Technology Co., Ltd.
投稿日付(yyyy/MM/dd)
IEEE 2020/7/6-9
概要
TopK sparsificationやパイプライニングのような分散環境下でのモデルのそう学習時間を削減するための手法は、その手法自身が新たな計算や通信コストを生み出しており、それがボトルネックになりかねない

二つを組み合わせた手法は LAGS-SGD と呼ばれるが、この手法においてまずイテレーション時間を最小化するように層の連続数を決め、それを元にSGDを適応する。
新規性・差分
Topk sparsificationとパイプライニングしつつ、層のマージの最適化を行った点。

手法
勾配の通信は、com(a+b) < com(a) + com(b) という関係が成り立つ(同時に送った方が良い).


しかし、スパース化のコストはs(a+b) > s(a) + s(b) である(いっぱいあるとその分大変)。
そのため、L層のうちいくつかの連続する層をまとめることを考える。
Mはマージor非マージの全ての組み合わせ、tsがスパース化時間、tcが通信時間、τが累計時間(max内はどっちか遅い方)
結果
以下の4つのモデルとデータセットで実験
最終的な収束はvanila SGDと同じくらい

vanila SGDと提案手法で、イテレーション内でどこに時間がかかっているかの内訳

ある程度パラメータ数が大きいモデルでは効果的に通信コストを減らせている?
コメント
The text was updated successfully, but these errors were encountered: