降低分布式训练通信的梯度稀疏压缩方法 |
||||||||||||||||||
陈世达,刘强,韩亮 | ||||||||||||||||||
Gradient sparsification compression approach to reducing communication in distributed training |
||||||||||||||||||
Shi-da CHEN,Qiang LIU,Liang HAN | ||||||||||||||||||
表 1 2种分布在不同网络的Wasserstein距离 | ||||||||||||||||||
Tab.1 Wasserstein distance of two distribution methods in different networks | ||||||||||||||||||
|
||||||||||||||||||