集合通信库
0 人感兴趣 · 1 次引用
- 最新
- 推荐
专为大模型训练优化,百度集合通信库 BCCL 万卡集群快速定位故障
在分布式训练中,每一块 GPU 只负责处理部分模型或者数据。集群中不同 GPU 之间通过集合通信的方式,完成梯度同步和参数更新等操作,使得所有 GPU 能够作为一个整体加速模型训练。
0 人感兴趣 · 1 次引用
在分布式训练中,每一块 GPU 只负责处理部分模型或者数据。集群中不同 GPU 之间通过集合通信的方式,完成梯度同步和参数更新等操作,使得所有 GPU 能够作为一个整体加速模型训练。