2022 vivo 开发者大会人工智能专场:打造「1001 个便利」
11 月 8 日,以“MORE,近你所想”为主题的 2022 vivo 开发者大会正式开幕,在次日举办的人工智能专场上,vivo AI 团队通过计算摄影、文档图像处理、语音技术、语义技术、机器翻译、计算加速平台、开放平台 AI 专区等多方面具体案例,介绍了 vivo 近两年来在人工智能领域所做的探索和实践。
在人工智能领域,vivo 从用户需求出发,不断创新,致力于实现“1001 个便利”。生活中,当你沉醉于一首动听的音乐却苦于不知道歌曲名称时,AI 可以帮你听歌识曲;当你看英文视频却发现听不懂时,AI 可以给你提供字幕翻译;当你想拍出好的照片却看不懂相机的一堆参数时,AI 计算摄影可以自动帮你把场景色彩还原的更准确,把食物的色泽拍得更鲜艳;工作中,当你需要扫描文件并进行修改发送时,AI 可以帮你去除灯光下的手指阴影和屏幕上的摩尔纹,并可以将拍下来的图片转化成可编辑的电子文档,让你信息处理更高效;我们希望持续通过 AI 能力为用户带来无处不在的惊喜和激动人心的体验。

vivo AI 算法中心高级总监 陈晓昕演讲-1001 个便利
此外在人文关怀方面,经过不懈的研发创新,实现了手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。目前的算法已经可以识别 1200 个手语词汇,准确率在 80%以上,已经达到汉语四级的理解水平,同时在手语表达方面,目前覆盖了国家手语通用词典超过 8000 个词汇。AI 手语虚拟人既能流利的通过手语进行表达,还能快速识别手语看懂手语,帮助听障人士更便捷地获取信息,更高效地与人沟通。
AI 计算摄影,为用户带来自然色彩极致还原的惊喜
在 2020 年底,vivo 就与蔡司开启了全球影像战略合作。今年,vivo 联合蔡司团队进一步探讨和制定忠于人眼所见的自然色彩理念。 在今年发布的 X80 系列上,vivo 推出了全新升级的蔡司自然色彩 2.0,可以更准确的还原真实自然色彩,提升大面积深色和浅色等困难场景下曝光和白平衡准确率。蔡司自然色彩 2.0 底层使用了最新的两项 AI 计算摄影技术突破:智能白加黑减和智能白平衡技术。


vivo AI 视觉应用组总监 冉龙金演讲——AI 计算摄影
通过智能白加黑减技术,vivo 在行业内首次解决了大面积深色和浅色场景下曝光不准确的问题。在拍服饰、宠物、雪景等困难场景下,曝光准确率相对于原有方法,提升了 16%。
而智能白平衡技术则主要解决拍美食、拍花、拍宠物等场景下偏色的问题。vivo 根据亚洲人色彩恒常性的视觉特点,以及拍摄场景的特点构建了丰富的色彩数据集。再通过人工智能模型实际学习人眼看到的色彩,从而获得更准确的白平衡参数。相对于原有方法,在拍美食、拍花、拍宠物等场景下,色彩精准度提升 13%。
AI 文档图像处理与识别,让办公学习更加高效
为了帮助用户更清晰的记录好文档,同时更快捷的提取文档内容,vivo 基于 AI 文档图像处理与识别技术,打造了包括文档扫描、证件扫描、文字提取、表格识别、口算批改、去手写等一些列解决方案,并将陆续在相机、相册、智慧视觉、琥珀扫描等产品中进行落地,为用户在办公和学习等相关场景提供一个个小便利。


vivo AI 视觉理解组总监 文亚飞演讲——琥珀扫描
来自 vivo AI 团队的文亚飞在演讲中表示:“vivo 的 AI 文档图像处理与识别解决方案源自两个核心算法引擎——文档图像处理引擎和 OCR 文字识别引擎。”其中文档图像处理引擎可以对文档主体进行精准的自动裁剪和矫正,同时通过超清修复算法对文档的阴影、折痕、摩尔纹等进行自动去除,一键将纸质文档还原成高清文档图片。而最新的 OCR 文字识别引擎则在视觉模型的基础上叠加语言模型融合识别,同时通过一系列模型压缩和计算加速手段,不仅让文字识别更快更准,同时实现算法运行在本地,更好的保障了用户的数据隐私安全。
AI 语音技术,架起情感交流的桥梁
除了在视觉方面为用户打造的便利,vivo 还通过 AI 语音技术,进一步帮助用户解放双手和双眼。
vivo 的 AI 语音技术体现在两方面,首先是语音合成技术。基于自研的个性化语音合成系统,vivo 持续地研发出了丰富多元的合成声音,不但提供了清新、甜美、稳重等多种不同的音色,同时还支持对话、新闻、小说等不同场景下的朗读风格,实现了音色、风格以及情感三种元素的自由组合。经历多年技术的沉淀,vivo 发表了顶会论文 8 篇,获取两项国际赛事第一名,同时 Jovi 语音助手和屏幕朗读的语音合成技术还获得了通信院和泰尔实验室认证。

vivo AI 语音中心总监 陈彬彬演讲——AI 语音技术
其次是语音识别技术,经过多年的发展和迭代,vivo 语音识别技术目前效果得到了比较大的进步。来自 vivo AI 语音中心的陈彬彬说:“vivo 通过端到端建模、AI 降噪以及场景化语言模型等方式,克服了口音、噪音和专业领域等导致的识别错误,极大提升了语音识别的准确性。”
机器翻译,让沟通没有障碍
面对日益丰富的国际交流和文化碰撞,vivo 通过科技创新助力用户突破语言障碍,让用户生活更加高效便利。AI 双语字幕让爱看电影爱追剧的朋友随心所欲地看生肉,还支持中外双语字幕对照展示,学生群体上网课也不用愁。另外,vivo 手机内置的系统级应用翻译机支持二十多个主流语种的流畅互译,同时 vivo 还推出了 Jovi 输入法快捷翻译、识屏翻译、拍照翻译等多项功能,帮助用户克服语言沟通的障碍。
vivo 针对翻译的重点人群、高频场景、便捷入口均设计了产品方案,助力高效解决翻译需求。” 来自 vivo 机器翻译团队的李方圆在演讲中阐述。

vivo AI 机器翻译组高级经理 李方圆演讲
vivo 在针对文本、图片、声音三种内容形态均研发了算法能力。在图片翻译技术上,攻克落合并和图片文字涂抹两大技术难点,提升了图片翻译的质量和排版的美观度。在语音翻译技术方面,vivo 聚焦优化流式场景下的语音翻译效果,持续优化模型对 ASR 噪音的鲁棒性,在翻译质量、稳定性、翻译延时三者之间取得平衡。
经历 2 年多的沉淀,vivo 的机器翻译团队在今年的全国机器翻译大赛上斩获汉英翻译、中日英多语言翻译 2 项冠军,并且还在英汉、藏汉、中泰、泰中 4 个赛道上获得亚军。
Jovi 输入法 Pro,最大限度保护用户隐私
面对由输入法引发的用户隐私泄露问题,vivo 首次推出了完全自研的 Jovi 输入法 Pro,以实际行动筑牢数据安全、隐私保护与守法合规的企业红线。


vivo AI 算法中心高级总监 陈晓昕演讲——Jovi 输入法 Pro
Jovi 输入法 Pro 提供了本地模式,输入法可以实现完全本地运行,无需用户进行联网授权,保证了用户的个人信息和数据只保存在本地。为了实现 Jovi 输入法的本地模式,vivo 对拼音、语音、手写三大输入法内核进行了全面优化升级,通过知识蒸馏、模型压缩、计算加速等手段实现了算法在多个维度的均衡,提供安全、高效的输入体验。
Jovi 语音助手,化身便捷、温暖的“贴心小管家”
作为 vivo 手机的智能生活助理,Jovi 语音助手受到了越来越多的用户喜爱。经过四年多的优化提升,Jovi 语音助手在工信部组织的第一期人工智能产业创新重点任务揭榜工作中,在“智能语音交互系统”领域拔得头筹,荣誉揭榜。“在手机端日活已经超过 1000 万,每个月小 v 会和用户产生 18 亿次对话,回答 2 亿个问题。” 杜乃乔在演讲中说。

vivo AI 应用中心高级总监 杜乃乔演讲——Jovi 语音助手
自推出以来,vivo 一直围绕着便利的技能、丰富的知识、贴心的闲聊三个方向来提升 Jovi 语音助手。据悉,目前 Jovi 语音助手已经支持超过 100 个场景垂类,超过 600 种用户请求意图,很好地满足用户在快捷操作、信息获取、情感陪伴方面的需求。
VCAP 异构计算加速,打造极致 AI 应用体验
基于应用场景,算法,硬件的发展,AI 业务端侧化面临多元化的挑战,为了应对 AI 业务多元化挑战,vivo 建设了 VCAP 异构计算加速平台,为开发者提供全链路 AI 算法端侧化解决方案。VCAP 持续追求全能力、跨平台、高性能的目标,全面支持视觉、语音、自然语言处理、推荐各领域业务落地。目前,VCAP 异构计算加速平台沉淀 7 种 XPU 器件加速能力,支持超过 60 种算法、80 种算子。基于 VCAP 平台能力,vivo 支持典型影像、视频、语音场景业务落地,为用户打造更为极致的 AI 应用体验。
“我们希望借助于 VCAP 开放能力,能携手更多行业开发者为用户打造更多的 AI 应用产品!” 来自 vivo AI 团队的鲁晶说道。

vivo AI 系统平台组高级经理 鲁晶演讲
携手开发者,为用户打造 1001 个便利
今年 vivo 开发平台 AI 专区在算法、数据、算力强大的技术底座上,开放了云端两个方向的能力,包含 Jovi 服务平台、AI 算法平台、内容理解平台、Jovikit、VCAP 计算加速平台。
以 Jovi 服务平台为例,vivo 通过 AI 赋能、服务找人的形式进行智能精准的投放,投放后,会有亿级流量场景进行分发。对开发者来说,用更低的流量成本就可以获得更高的曝光机会和更优的转化质量。在用户层面,用户获取服务成本低,免安装,有更多入口直达多样服务。

vivo AI 平台产品组高级经理 刘诗韵演讲
进入开发者平台-AI 专区
https://developers.vivo.com/AI 。注册成为开发者后,只需简单几个步骤就能完成接入。通过这些开放的能力,携手开发者,为用户在多种场景方方面面打造 1001 便利。
关注特殊用户群体,手机行业首发手语识别虚拟人,AI 让科技更有温度
人文之悦一直是 vivo 的品牌主张,在关注普通用户的同时,vivo 对于特殊用户群体的关怀也未曾缺位。据介绍,在今年召开的第四届科技无障碍发展大会上,vivo 荣获了“2022 可及信息无障碍优秀案例”,成为唯一的获奖手机品牌。



vivo AI 算法中心高级总监 陈晓昕演讲——关注特殊用户群体
通过声音识别、vivo 听说、无障碍通话等一系列 AI 无障碍功能创新以及无障碍设备捐赠等方式,vivo 力求为听障人群搭建起无障碍沟通的桥梁。同时,vivo 整合领先的 AI 技术能力,实现手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。而面对视障人士,vivo 也将上线 vivo 看见和 vivo 读谱两大视觉辅助功能,帮助视障用户更好地融入社会。
2017 年,vivo 开始组建 AI 全球研究院,旨在帮助所有消费者享受科技带来的美好生活。截至目前,在 vivo 手机的 100 多个系统模块中,目前已经有超过 60%的模块中搭载了 AI 能力,在用户看得见和看不见的地方发挥着作用,提供便利,创造惊喜。
vivo 希望依托 OriginOS 能力,以用户使用手机的重要场景为载体,通过 AI 技术与场景的深度结合,致力于打造 1001 个便利,为用户提供无处不在的惊喜与方便。
评论