写点什么

阿里云神龙 AI 加速引擎帮助 vivo 将训练性能提升 30%-70%

  • 2022 年 3 月 15 日
  • 本文字数:1170 字

    阅读完需:约 4 分钟

阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%

公司简介

vivo 是专注于智能手机领域的国际化品牌,vivo 追求乐趣、充满活力、专业音质、极致影像、愉悦体验的智能产品,并将敢于追求极致、持续创造惊喜作为 vivo 的坚定追求。 2014 年 vivo 品牌的国际化之路全面开启,除中国大陆市场外,vivo 进驻的海外市场包含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。


业务痛点

1. GPU 利用率不高,资源浪费明显:VIVO 客户的业务场景中使用的是大规模多模态模型。对该类模型进行分布式训练时,通常使用单步更新的训练模式,即每一次单步训练之后都会进行一次梯度通信,这样会导致短时间内出现大量的通信请求,造成很大的通信压力。同时,该模型的参数量较大,每次梯度通信的通信量与模型参数量成正比,这进一步的增加了通信压力。另外,该模型的训练过程中也没有对计算和通信进行时间上的重叠,这也显著的导致了训练过程中的通信时长的增加。整个分布式训练过程中大量的时间被梯度通信占据,GPU 的计算资源在大多数时间处于等待状态,无法完美发挥作用。


2. 训练时间长,业务模型迭代周期太长:客户业务模型的更新频率很高,每次模型迭代期间不仅要进行模型的分布式训练,还要进行测试,上线等流程。在这个迭代周期内,分布式训练占据了大量的时间,导致其它流程不得不精简以保证迭代周期,这也使得客户的业务团队承担不小的压力。


解决方案

对大规模多模态模型进行分布式训练时,由于通信压力巨大,相比于单机训练,多机训练获得的性能增益并不多,在双机场景下甚至观察到性能的负增长。于是,阿里云的神龙 AI 加速引擎 AIACC 团队,针对 VIVO 的场景,在底层针对通讯、计算、时延和带宽等做了深度优化。由于客户训练集群的网络状况有可能发生变化,AIACC 团队采用了自适应优化策略,能够实时的根据网络状况对通信优化策略进行调整,从而大大提升了 GPU 的利用率。


在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了 30%-70%。AIACC 团队协助 VIVO 客户大大的缩短了的模型训练时间,加速了模型迭代,助力业务模型快速上线。



业务价值

1. 在多种复杂的网络条件下,将大规模多模态模型的训练性能提升了 30%~70%。

2. 缩短了客户业务模型的迭代周期,为客户的业务团队减轻了压力。


相关产品


神龙 AI 加速引擎

神龙 AI 加速引擎是 AIACC 业界首个统一加速 Tensorflow、MXNet、Caffe、PyTorch 等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单 Dawnbench 图像识别四个世界第一。

更多关于神龙 AI 加速引擎的介绍,参见神龙AI加速引擎帮助文档


GPU 云服务器

GPU 云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于 GPU 服务器的介绍,参见GPU服务器产品详情页

发布于: 刚刚阅读数: 2
用户头像

澎湃算力,无处不在。 2018.08.24 加入

阿里云弹性计算团队,关注虚拟化、通用计算、异构计算以及云上HPC和云上运维CloudOps。

评论

发布
暂无评论
阿里云神龙AI加速引擎帮助vivo将训练性能提升30%-70%_AI_阿里云弹性计算_InfoQ写作平台