百度网盘企业版数据快速上云,数据流转平台 CloudFlow 加速大模型训练迭代
1 项目从何时开始,又是何时结束
一个项目的周期应该如何计算,将计算开始运行作为起点,计算结束运行作为终点?
大模型训练场景中,从 TB/PB 级数据完成收集准备上云,到这些数据被提交至任务开始运行,有时候中间还隔着好几天的时间,GPU 资源将处于空闲状态。在一些案例中,大模型训练任务运行 2 周,数据上传等待好几天。项目真正的起始时间应该提前至数据开始上传的那一刻。
在某些行业中,比如生命科学基因测序等场景,任务结束后结果数据会保存在对象存储中。这些数据需要分发给云下的众多使用者。在一些案例中,高性能计算任务运行 1 周得到结果,再额外等待好几周,全部用户陆陆续续从云上进行数据提取,项目才算真正结束。
数据流转的效率,正在越来越明显地影响项目周期、资源花费,乃至下游生态和客户的使用体验。
2 传统的百度网盘数据上云以及云上数据分发方式
百度网盘已经成为了很多企业进行收集、存储、分发数据的平台之一。
网盘数据上云
为了将收集至百度网盘的数据同步至云端,企业 IT 工程师通常会将网盘的数据下载至本地,然后借助公共网络上传,或者将数据拷贝至移动硬盘并寄送至云厂商的指定地点。
云上数据分发
为了将云上的结果数据分发至不同的下游合作伙伴,企业 IT 工程师将对象存储中的数据 URL 链接交给合作伙伴,或者手动导出后通过移动硬盘和百度网盘进行分发。以上两种数据流转方式,都不可避免地导致任务周期变长。
3 百度网盘企业版上云和云上数据分发新能力
为了缩短数据流转的时间,减少资源成本,并帮助客户提升对下游合作伙伴的服务体验,百度智能云打通了百度网盘企业版和对象存储 BOS 之间的数据流转链路,数小时就可以完成 10TB 左右规模数据的上传和下载。
借助这个新发布的能力,在大模型业务的数据上云场景里,企业不再需要经过公网传输、快递物流和磁盘对拷等间接方式,网盘中的数据借助数据流转平台 CloudFlow 直接流转至对象存储 BOS。当天就可以开始大模型训练迭代,减少 GPU 算力资源等待时间,缩短了项目的业务周期。
在云上数据分发到云下的场景,可以将对象存储 BOS 中的数据直接分享到百度网盘企业版,并同时交付给多个下游客户,为用户提供符合日常使用习惯的数据获取方式。
用户只需要在数据流转平台 CloudFlow 界面配置几个关键参数,就可以让百度网盘企业版的数据流转立即高速运行。在对象存储 BOS 控制台中选择对应目录,将目录中的文件分享至网盘。
4 全面完整的数据流转方式
不止百度网盘企业版和对象存储 BOS 之间的数据快速流转,百度智能云数据流转平台 CloudFlow 为企业的数据上云迁移提供了完整的方案,包括跨云在线迁移、离线数据迁移等多种方式。
5 典型案例
某 AIGC 公司将部分收集的原始数据存储在百度网盘中。之前会不定期的将数据下载到本地,并借助硬盘寄送的离线迁移方式,将数据上传至对象存储 BOS 中,以便展开大模型训练的迭代升级工作。
在这之前,从百度网盘导出数据至硬盘,再通过快递物流过程需要 1~2 天时间, 4 块 10TB 级别硬盘数据离线上云再需要 1 天左右的时间。现在通过 CloudFlow 将百度网盘企业版数据直接同步至 BOS 中,仅需 10 小时左右的时间。
版权声明: 本文为 InfoQ 作者【Baidu AICLOUD】的原创文章。
原文链接:【http://xie.infoq.cn/article/33a47e1642891a5492b44f7fa】。文章转载请联系作者。
评论