分布式训练
0 人感兴趣 · 7 次引用
- 最新
- 推荐
阿里云机器学习平台 PAI 论文高效大模型训练框架 Whale 入选 USENIX ATC'22
高效大模型训练框架Whale(EPL)入选USENIX ATC
Global Tensor 和实习总结|OneFlow 学习笔记
为了简化分布式训练,OneFlow 提出了全局视角(Global View) 的概念,在全局视角下,可以像单机单卡编程,进行分布式训练。在 OneFlow 的设计中,使用 Placement、SBP 和 SBP Signature 来实现这种抽象。
阿里巴巴开源大规模稀疏模型训练 / 预测引擎 DeepRec
经历6年时间,在各团队的努力下,阿里巴巴集团大规模稀疏模型训练/预测引擎DeepRec正式对外开源,助力开发者提升稀疏模型训练性能和效果。
带你认识大模型训练关键算法:分布式训练 Allreduce 算法
摘要:现在的模型以及其参数愈加复杂,仅仅一两张的卡已经无法满足现如今训练规模的要求,分布式训练应运而生。
TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的多节点分布式训练
「导语」 在上一篇文章 《TensorFlow 2.x 分布式训练概览》中,我对 TensorFlow 所支持的分布式训练策略以及分布式训练的实现方式做了简要的介绍。本文将在上一篇文章的基础上,着重介绍基于 Keras 的多节点分布式训练的实现方式以及在分布式训练过程中需要注
TensorFlow 篇 | TensorFlow 2.x 分布式训练概览
「导语」 在进行极复杂模型训练以及使用大规模数据进行训练时,往往会受限于单个节点的内存和算力,无法高效快速地完成模型的优化,而分布式训练正是解决上述问题的一剂良药,它可以充分利用集群中各节点的内存和算力资源,加速模型的训练和调优过程。