分布式训练_分布式训练技术文章

分布式训练

0 人感兴趣 · 7 次引用

关注

2022-07-12

高效大模型训练框架Whale（EPL）入选USENIX ATC

2022-05-05

为了简化分布式训练，OneFlow 提出了全局视角（Global View）的概念，在全局视角下，可以像单机单卡编程，进行分布式训练。在 OneFlow 的设计中，使用 Placement、SBP 和 SBP Signature 来实现这种抽象。

2022-03-21

经历6年时间，在各团队的努力下，阿里巴巴集团大规模稀疏模型训练/预测引擎DeepRec正式对外开源，助力开发者提升稀疏模型训练性能和效果。

2022-02-14

KubeDL为分布式训练作业带来了HostNetwork网络模式，支持计算节点之间通过宿主机网络相互通信以提升网络性能，同时适应RDMA/SCC等新型高性能数据中心架构的网络环境，此外，KubeDL针对HostNetwork模式带来的FailOver后新端口互相感知等问题也带来新的解决思路

2021-06-02

摘要：现在的模型以及其参数愈加复杂，仅仅一两张的卡已经无法满足现如今训练规模的要求，分布式训练应运而生。

2020-09-27

「导语」在上一篇文章《TensorFlow 2.x 分布式训练概览》中，我对 TensorFlow 所支持的分布式训练策略以及分布式训练的实现方式做了简要的介绍。本文将在上一篇文章的基础上，着重介绍基于 Keras 的多节点分布式训练的实现方式以及在分布式训练过程中需要注

2020-09-26

「导语」在进行极复杂模型训练以及使用大规模数据进行训练时，往往会受限于单个节点的内存和算力，无法高效快速地完成模型的优化，而分布式训练正是解决上述问题的一剂良药，它可以充分利用集群中各节点的内存和算力资源，加速模型的训练和调优过程。