写点什么

DLRover

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/8c/8c23b2f0c6eb66c7034c4124a600006b.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

DLRover:云上自动扩缩容 DeepRec 分布式训练作业案例分享

DLRover 采用运行时优化思想来对分布式训练作业进行自动扩缩容。DLRover 首先让训练作业跑起来,然后监控训练作业所有节点的负载和整体训练性能,并根据监控指标来动态调整作业的资源,从而提升训练性能和资源利用率。

https://static001.geekbang.org/infoq/04/04f94d8ff293a76a37631714242e954e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

DLRover:蚂蚁开源大规模智能分布式训练系统

本文整体介绍了 DLRover 的项目动机与核心能力,未来我们会发布一系列文章,来从同步/异步弹性训练,优化策略服务,多种集群和训练框架对接,策略定制开发等多个角度来介绍 DLRover 的更多细节,敬请期待。

DLRover_DLRover技术文章_InfoQ写作社区