连续霸榜丨 EasyDL 到底有多强?
有没有需求,都可以试试 EasyDL。
近日,全球权威咨询机构 IDC 发布调研报告显示,百度 EasyDL 再次取得亮眼成绩,继连续两年位列中国机器学习平台市场份额第一之后, 今年上半年继续保持第一。
说起 EasyDL,可能公众还有些陌生。因为它虽然在人工智能(AI)的圈子里大红大紫,在机器学习的细分赛道被奉为“神器”,但对于普通公众来说,认知度不算高。
所以本文其实想回答的是两个问题,一是 EasyDL 到底是何方神圣,二是 EasyDL 为什么如此迅速的蹿红。
01.
EasyDL 为什么持续霸榜
中国机器学习平台?
首先,要回答 EasyDL 为什么厉害,得先搞清楚它是个什么角色。
很多人把 AI 走进公众视野,归结为 AlphaGo 战胜人类棋手,这的确没错。但这也让很多人产生一种认知,就是 AI 是高不可攀的、是人类顶尖智慧的殿堂。
某种意义上这种看法也没错,即使在区区几年、十来年前,AI 仍然是最聪明的一小群人能够使用的能力,因为它建造模型的过程非常的复杂。
而 EasyDL 就像希腊神话里的普罗米修斯,盗来了天火,让每个人都能拥有使用这种神奇能量的权利。
EasyDL,即 Easy Deep Learning 的缩写,简单来说,它是一个零门槛 AI 开发平台,其作用是让没有 AI 开发经验的人(并不仅仅是程序员)和有 AI 开发经验、但希望更轻松使用 AI 能力的人,都可以便捷的使用这个平台,开发出自己需要的 AI 应用。
接下来,再解释下什么是零门槛 AI 开发平台。
东濒大西洋、大部地区丘岗起伏的美国马萨诸塞州,世界学府哈佛大学和麻省理工学院都位于该州,而著名的全球性独立研究、数据和咨询服务公司 Forrester,也发源于此。低代码/零代码开发平台(Low-Code Development Platform)的概念,就是由 Forrester 正式提出的。
Forrester 敏锐的发现,在软件的开发过程中,有大量的时间成本都浪费在重复的功能编程上。于是,该机构在 2014 年首次提出低代码和零代码的概念——只需用很少甚至几乎不需要代码就可以快速开发出系统,并可以将其快速配置和部署的一种技术和工具。
看上去这是一个为"懒人"准备的技术,其实,它极大的降低的不仅仅是开发的时间,还因为可视化降低了不同需求方之间沟通的成本,所以一经问世就大红特红。
2021 年初,海外研究机构 Infolob 表示,预计到 2022 年,低代码应用程序市场总规模达 212 亿美元;Gartner 则预测,到 2024 年,应用软件开发活动中,65%将通过低代码方式完成。
在所有的编程工作中,为 AI 编写模型是一项难度极高的工作。因此,实现低代码化对于 AI 开发的意义并不止于降低成本,更大的意义在于,迅速地让许多没有 AI 开发能力的技术人员、甚至是非技术人员能够开发 AI 模型,迅速推广 AI 的应用。
然而,给 AI 准备低代码开发可不仅仅像普通编程那么简单。
AI 的模型设计需要选择模型、超参数调整、训练、部署,还需要调度"云、管、边、端"各方资源,还要兼顾语音、图像等异构数据的处理交互,还要适应不同的部署条件,可想而知,AI 的低代码化开发难度之大。
如果说普通编程的低代码化是让你用半成品做出一道红烧肉,那 AI 的低代码化就如同让你用半成品做出一道"佛跳墙"。在同等的操作难度下,AI 的低代码化对后台的要求更高。
但这挡不住人们追求让 AI 应用开发加速进入产业界的决心,2013 年低代码工具 AutoWEKA 发布,2014 年的 ICML(国际机器学习大会)开始举行 AutoML 研讨会(AutoML 是自动机器学习的缩写,后文的 AutoDL,即自动深度学习)研讨会,AutoML 成为学术界的研究热点之一;2018 年,谷歌将 AutoML 的概念产品化,引发产业界的全面关注。
然而,就在谷歌发布这一产品的前几个月,大洋彼岸的北京,百度于 2017 年 11 月发布了 EasyDL,百度也因此成为国内乃至全球最早推出零门槛 AI 开发平台的公司。
其实,EasyDL 的低门槛、易用性是构建于飞桨深度学习开源平台这个坚实的技术底座之上的。
如果你比较关心 AI 行业的动态,就会发现--在 EasyDL 取得市场份额第一的同期报告,IDC 发布的 2021 年上半年深度学习框架平台市场份额报告还显示,百度在中国深度学习平台市场中的综合份额持续增长,跃居第一。
这可是一个非常非常了不起的行业大新闻,因为作为市场三强中唯一的国产深度学习平台,百度飞桨能够超越谷歌、Facebook,冲上中国深度学习平台市场综合份额的头位,真的是一个大突破。飞桨产业级深度学习平台逆袭,成为这个已经有高水平竞争的市场的中国第一。
而 EasyDL 的使命,就是最大限度的释放飞桨的产业级 AI 的能力,它的一切能力,也都是基于飞桨如何赋能于产业而构建的。
02.
用 AI 创造 AI 的飞桨"精华版"
今年的博鳌亚洲论坛 2021 年年会分论坛上,百度 CTO 王海峰分享了一个重要观点,人工智能开始应用于各行各业的时候,不是每个行业都有足够多精通人工智能算法的专家。因此,我们需要有便捷易用的平台,能够让开发者专注于应用的开发,加速产业创新。如百度研发的飞桨平台,解决了基础的开发、训练、部署和模型库、开发套件等问题,并且开源开放,让开发者无需每一个人都从第一行算法代码写起,可以直接调用。
这里,王海峰说的是飞桨,也包括飞桨企业版 EasyDL。
我们说过,一切深度学习平台的共性,都是为了降低开发的门槛,不需要开发者从复杂的神经网络开始编代码。
还是那个熟悉的例子:如果直接编写模型的高阶 AI 大师是用画笔描摹世界的画家,那用深度学习框架开发模型的就是高明的 Photoshop 达人,而 EasyDL 的用户,就是用美图秀秀却也能做出不俗效果,且操作极度简便的普通人。
某种意义上说,EasyDL 其实可以看做是飞桨的"精华版"。
它的模型库,内置的模型是从飞桨的模型库中精选出来的;它的训练和推理过程,也是来自飞桨经验的升华;而 EasyDL 的底层,结合的是飞桨自研的 AutoDL/AutoML 技术,基于少量数据就能获得出色效果和性能的模型。
这也是我们为什么说,EasyDL 的成功首先是因为飞桨的成功。
但是,EasyDL 绝不是躺赢的"富二代"。飞桨是 EasyDL 成功的前提,但 EasyDL 的成功还是因为自己足够努力。这是因为,AutoDL 理念的工程化,实在是一个难度很高的工作,EasyDL 能做到今天的程度,是有飞桨开源底座的支撑再加上自己足够努力的结果。
EasyDL 绝不是把模型开发的几个过程整合在一起,然后提供一些选项让开发者打几个勾那么简单,虽然从外在形式上来说,这么描述也没大错,但背后的工程化难度之高,是难以想象的。
简单的说,EasyDL(以及各类的 AutoML/DL)的共同理念,就是"用 AI 技术来帮助人们设计 AI"。
换句话说,开发一个 AI 模型的流程中,涉及的数据处理、特征提取、模型选择、参数调节、训练部署等环节,都利用 AI 能力才实现了高度的自动化,这才达到了使得 EasyDL 在构建深度学习模型的过程中,在很少人工干预的情况下,即可简单的被应用。
而且,简单不等于简陋,按照谷歌 CEO 的说法,谷歌 AutoML 创造模型的水准,至少相当于一个 AI 专业博士生的水平,而从某种意义上来说,EasyDL 还要胜过于谷歌版的 AutoML,因为 EasyDL 设计模型的水平,就像高级工程师,这个且在后面讲。
当我们打开 EasyDL 的界面时,的确给人的感觉就是极度简单,因为你所需要的模型分类已经非常详尽的开列了:
▲EasyDL 上的模型类型
这后面的过程其实用几句话就可以讲完,在选择模型后,系统会要求你上传数据,过程不会比给一封电子邮件上传附件更复杂;此后,通过 Auto Augment(自动数据增强)、Auto Finetuner(自动超参搜索)、NAS(自动网络架构搜索)等自动化建模技术,进行模型自动调优,大大降低模型调优的成本,一个新的模型就呼之欲出了。
EasyDL 的价值,就在于用极简的交互体验与高度自动化的训练机制支持了整个 AI 开发全流程的运转,使 AI 开发可以全民化。
我们看几个关键点,比如数据是一切模型的基石,但数据的标注和清洗,是一个成本很高的工作,甚至还诞生了数据标注师这样的一个职业。
因此,EasyDL 发布了 EasyData 智能数据服务平台,提供一站式的数据采集、数据清洗、数据标注、数据回流的完整解决方案,助力开发者高效获取 AI 开发所需的高质量数据。
也就是说,哪怕你的数据只是用普通手机拍摄的照片、或者用家用摄像头在低照度下拍摄的一段视频,就像一件脏兮兮且占满油渍的衣服,扔进这台自动的"洗衣机"里,最后输出的结果简直就像高级染烫店里精心干洗熨平过的一样。
接下来可能还要说到的是"调参",这是一个高难度、累死开发者的活儿,但也是模型打造的灵魂。
EasyDL 实现的是自动调参,也就是说针对一个目标,自动调节超参数,这里的超参数包括 batch_size、 learning_rate 等等。
这后面的技术太深,也无需展开。简单说,自动优化涉及的是一个应用数学的问题--就拿最近比较火的贝叶斯优化来说,所谓优化,实际上就是数学中一个求极值的过程,贝叶斯优化可通过一种名为「代理优化(surrogate optimization)」的方法,通过有限的采样数据点来解决这一问题。
可能看到这里你有点想撤退了,那我们讲故事来调剂一下。
举个例子,中国食品药品检定研究院希望做一个中草药识别的 AI 开发,这属于典型的定制化需求,一般来说,需求定制化越高,客户的标注数据就越有限,训练数据成本就越高。
而 EasyDL 的价值就在于,帮助客户通过较少的数据,快速获得可用且准确率较高的模型。
这种情况下,从头搭建模型不仅慢,也不符合客户的实际情况, EasyDL 就会使用"迁移学习"这个概念。大家都知道,百度 APP 的"拍照识别植物"的功能是非常强大的,迁移学习可以把百度已经有的植物识别模型迁移到中草药识别当中去,把百度已经大规模标注的数据集用于预训练,这样就能把原本不可控的时间变成几分钟甚至更短,从而大大提高效率。
事实证明,这个模型的准确率>97%、训练耗时<10 分钟、单图识别速度<50 毫秒。
也许有人问,超高精度训练效果仅仅是靠迁移学习么?
也不尽然。
应该说,主要是靠百度的 AI 技术积累和业务实践, EasyDL 里面的模型,是基于百度超大规模数据训练的预训练模型,包括超大规模视觉预训练模型,文本预训练模型文心 ERNIE 等等。
这就相当于用国宴厨师的经验来做一桌家常菜,属于典型的把高维技术下放使用,你用到的每一个模型、甚至是参数,都是百度十年千亿投资在 AI 上的技术外溢。
比如,青岛爱包花饰使用 EasyDL 替代 X 光和人力进行残留异物质检,训练时只采集了含有针、剪刀等异物和金属部件商品的 X 光图像,开发者在无需了解 AI 算法细节的前提下,就训练出了准确率 90%的模型,箱包生产过程中残留异物的检出率和箱包的质检效率大大提高。
还有,厦门一家科技企业通过 EasyDL 打造出识别超过 150 种果蔬的识别模型,最终研发出果蔬识别智能秤。以往人工查询菜品图片需要 2-3 秒,而智能视觉秤只需 0.2 秒内,同时配合自动称重,整体效率提升超过 10 倍。
所以,EasyDL 里的每一步,都充满了智慧,让 AI 创造 AI,是 EasyDL 的灵魂。
也许你会问,相比于谷歌的 AutoML,百度的 EasyDL 如何呢?
这里我们不比一些细节,而主要是看应用面。AutoML 的特点是针对 AI 落地中的特定环节,而 EasyDL 的特点是真正解决 AI 落地的全流程实际问题,基于 EasyDL 训练完成的模型,可发布为公有云 API、设备端 SDK、私有服务器部署、软硬一体方案,灵活适配各种使用场景及运行环境。
也就是说,用户无需关注模型转换、适配加速、服务部署等细节,就能获得可直接运行、部署的镜像及可进行二次开发的 SDK。
但是,这都不比不上本文开头时,我们说的实际的市场反馈更有说服力,在机器学习平台方面,百度 EasyDL 连续保持市场份额第一。而我们相信,只要飞桨一直保持现在的发展势头,EasyDL 也有大概率持续霸榜。
03.
有没有需求,都可以试试 EasyDL!
这个问题你也许会觉得奇怪,难道不是为了开发 AI 应用而使用 EasyDL 么?
答案还真的不是如此,无论有没有确切需求,都可以尝试用用 EasyDL。
为什么这么说呢,有这么几个理由:
第一,EasyDL 可以让每个人都零门槛的感受到 AI 的魅力。让每个人都觉得 AI 不是遥不可及的,而是触手可及、随时可用的。
第二,EasyDL 也许会让你得到极大的惊喜。
比如你是一个大型企业的运营人员,这样规模的企业早就实现了信息化甚至是数字化,服务器里积累的数据量,每 2 到 3 年时间就会成倍增长。
然而根据研究,虽然这些数据蕴含着巨大的商业价值,但企业所关注、能利用的通常只是占总数据量的 2%~4%左右的显性数据,远远谈不上最大化地利用已存在的数据资源,而你完全可以利用这些庞大的数据,通过某种 AI 的形态进行数据的有效挖掘,最终可能会产生远超出你预期的结果。
第三,EasyDL 在解决实际问题方面,可以说已经大放异彩。限制你使用 EasyDL 的绝不是技术能力,而是你的想象力。
还记得前几年引发风投领域震动的"无人货架"大战么?这次大战的主要败局,其实就是因为当时根本没有一种实用程度可以进入商用领域的无人货架方案——RFID 方式成本太高、重量传感方式不够精确,而纯视觉方案当时又不成熟。
通过对无人货架大战失败经验的总结,卓因达基于 EasyDL 开发了纯视觉方案的无人药柜,它们的数据比较丰富,120 多种药品对应着 9000 多张图片,通过 EasyDL 中非常成熟的一个类目"物体检测",训练出了药品识别模型。
由于数据质量较高,模型准确度近 100%,仅需 500ms 即可获得识别结果,进而可以实现 C 端自助选药、扫码购药,24 小时不间断服务,随时满足用户应急购药需求。
如果这个技术在当年"无人货架"大战开始的时候就出现,完全可能开辟一个新的行业赛道,这也是百度信仰的--用科技让复杂的世界更简单。
EasyDL 也正是在践行这样的愿景和能力--让 AI 开发不再是高级技术人员的专利,让不会代码的人也能拥有用技术改变世界的力量。
文章转发自"智东西"公众号
百度 AI 开发者社区https://ai.baidu.com/forum ,为全国各地开发者提供一个交流、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过不断地交流与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开拓应用场景,赶快加入百度 AI 社区,你对 AI 的所有畅想,在这里都可以实现!
扫描下方二维码,添加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~
版权声明: 本文为 InfoQ 作者【百度大脑】的原创文章。
原文链接:【http://xie.infoq.cn/article/35cc8add73a3ab39e57edae61】。文章转载请联系作者。
评论