写点什么

分布式训练

0 人感兴趣 · 3 次引用

  • 最新
  • 推荐

带你认识大模型训练关键算法:分布式训练 Allreduce 算法

摘要:现在的模型以及其参数愈加复杂,仅仅一两张的卡已经无法满足现如今训练规模的要求,分布式训练应运而生。

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 的多节点分布式训练

用户头像
Alex2020 年 9 月 27 日

「导语」 在上一篇文章 《TensorFlow 2.x 分布式训练概览》中,我对 TensorFlow 所支持的分布式训练策略以及分布式训练的实现方式做了简要的介绍。本文将在上一篇文章的基础上,着重介绍基于 Keras 的多节点分布式训练的实现方式以及在分布式训练过程中需要注

TensorFlow 篇 | TensorFlow 2.x 分布式训练概览

用户头像
Alex2020 年 9 月 26 日

「导语」 在进行极复杂模型训练以及使用大规模数据进行训练时,往往会受限于单个节点的内存和算力,无法高效快速地完成模型的优化,而分布式训练正是解决上述问题的一剂良药,它可以充分利用集群中各节点的内存和算力资源,加速模型的训练和调优过程。

分布式训练_分布式训练资料文章-InfoQ写作平台