降低分布式训练通信的梯度稀疏压缩方法

陈世达,刘强,韩亮

Gradient sparsification compression approach to reducing communication in distributed training

Shi-da CHEN,Qiang LIU,Liang HAN

表 1 2种分布在不同网络的Wasserstein距离

Tab.1 Wasserstein distance of two distribution methods in different networks