GPU加速
0 人感兴趣 · 2 次引用
- 最新
- 推荐
优化 DeepSpeed ZeRO 在低成本硬件上的运行效率
本文介绍了如何通过优化DeepSpeed ZeRO第三阶段的通信效率,使其在配备EFA网络的低成本硬件上实现接近InfiniBand集群的性能表现,包括同步并行化改进、带宽利用率提升和内存效率优化等关键技术。
高效训练大规模图神经网络的创新方法
本文提出了一种名为全局邻居采样(GNS)的新方法,通过混合CPU-GPU架构显著提升大规模图神经网络训练效率,实验数据显示其速度可达现有最佳方法的2至14倍,同时保持或提高模型精度。