AI 为方,产业为向:京东云数字人的技术攀爬
今年 11.11 正如火如荼进行中,各大平台的直播间,大家可能已经发现了一群新面孔——数字人主播。电商直播作为越来越强大的流量入口,几乎已经成了零售品牌和商家们的必争之地。而高昂的坑位费、主播参差不齐的业务能力、不确定的 ROI、复杂的内容创作和监管机制……也都是直播经济真实存在的另一面,让商家们为之犯愁。
这时候,数字人就成了不错的选择。来看看下面两位主播,你能分得清哪个是真人吗?
这样拟人化交互、24 小时在岗、内容可控、可快速上线带货的数字主播,解决了许多商家备战 11.11 的难题,也刷新了大众对数字人的新认知。
近两年来,很多企业都推出了各自的数字人及平台,有强调技术优势和大模型的云或 AI 公司,有占据终端交互入口的手机 IoT 厂商,也有强调内容创作能力的虚拟偶像公司……
百花齐放的数字人,逐渐开始同质化竞争,这时候,企业往往会结合各自的核心能力,为数字人选择不同的发展策略和市场动作。
在 11 月 1 日,2022 京东云城市峰会上海站正式举行,京东云宣布数智供应链正加速落地十大产业场景,其中服务场景就是京东云言犀的主场。可以看到,与数智供应链融合是 AI 走向产业的必经之路,也为言犀平台的一百多个数字人员工,创造了在产业中发光发热的机会。
大浪淘沙的竞争中,数字人正在命运的分岔路口,奔赴各自的前程。我们不妨借着 11.11 的契机,来共同审视一下数字人产业,在消费之余,收获一些关于未来的重要线索。
走出恐怖谷,数字人才有可能
如果你认为大多数数字人都能应聘上岗、获得产业客户的认可,那绝对是太乐观了。高度拟人化、交互性的数字人,需要同时具备语音语义、视觉、情感、自然语言处理、知识图谱、对话交互等综合能力,不能有短板,这是数字人能够长期发展的前提和基础,也是极少数数字人能够达到的能力。
大家可能听说过“恐怖谷效应”,就是一些形象上酷似真人的机器人或智能体,但实际交互能力却很差,经常出现答非所问等问题。对下当下的数字人产业的发展,大家肯定希望它们在外形上具有更高的拟真度,同时在交互体验上也具备较强的宜人性,即能够理解用户、拥有人类一样的情感和表达。
言犀数字人虚拟主播为什么能够做到真人主播的效果呢?就源自京东云言犀团队执着地解决着数字人的核心技术问题,从两个方面取得突破:
惟妙惟肖之身——多模态智能技术。也就是语音、文字、表情、手势、肢体等多模态,能够一体化协同,这样能让数字人的拟真度更高,避免一些明显的违和感。面容上,言犀自研的 3DNeuralRender 神经渲染器,可以高保真地合成主播面部细节,达到以假乱真的效果;动作上,言犀研发的动作合成方案,基于 RIFE 插帧多插入点的快速动作过渡,可以让数字人的动作更加流畅自然;互动中,2D 及超写实、高精度 3D 数字员工驱动方案,可以实现音唇精准同步,数字人说话时,牙齿甚至牙缝都要精准地对齐口型,这样才不会看着别扭。可以说,惟妙惟肖的数字人需要多模态的综合性技术能力。
善解人意之心——实时人机交互技术。数字人也不能只是“花瓶”,还要能够与用户实时互动,做出合乎逻辑的反应,这种数字人则更加稀少了,因为难度也高了一个数量级。首先,实时交互需要快速的动作、表情渲染,对 AI 生成的速度和质量要求非常高;其次,实时互动意味着很多反应不能事先生成,而要真正理解用户的想法和需求,给出精准的回答,这就要求数字人具备丰富且细粒度的知识突破、自然语言理解、情感计算等能力。比如用户想了解 A 商品和 B 商品的异同,需要数字人主播精准地抓住顾客心理、比对信息、找到卖点,生成有吸引力的文案。为此,基于京东云言犀人工智能应用平台,在智能多模态对话与交互领域提出了理解准确度、知识覆盖度、交互流畅度、情感关怀度、任务完成度 5 维为标准的“新图灵测试”体系,作为人机交互服务机器人的标准,也是数字人的核心能力。
走向产业,数字人才有价值
只有一个技术支点,能撬动起数字人的市场价值吗?至少在京东云言犀团队看来,数字人与产业需求相结合,才能真正成为游戏规则的改变者。京东集团副总裁、智能产品与服务部总裁,IEEE Fellow 何晓冬博士指出,数字人作为一种 AIGC 内容生产模式,目前成本还是比较高的,把数字人能力下放到每一个商家手中,这是 AIGC 的机会所在。
从实验室到产业,需要迈过三个门槛。
第一重门槛:技术的可用性。
言犀数字人虚拟主播关键技术都达到国际的领先水平,包括多粒度韵律增强的语音合成、知识指导的多模态可控文本生成、可解释的多轮对话决策推理,取得过多项 AI 学术比赛冠军。但这只是数字人产业化的第一步。在现实业务场景中,会出现各种意想不到的情况。这时候,京东云技术在京东内外部多种大规模业务中经受过考验,就发挥了非常重要的试炼作用,让数字人技术能够真正为产业所用。
比如 2021 年 12 月,江南农商银行与京东云共同合作推出的 VTM 数字银行柜员,不仅形象要好,还要懂银行基本业务,这就需要金融类知识计算;银行作业环境噪音比较大,来办理业务的当地用户有的带有方言口音。另外,银行柜员需要跟客户实时交互,需要处理动态文本数据,依靠静态数据库训练出来的算法可能鲁棒性不足……
言犀历经数十年京东 618、11.11 等大规模交互场景考验,沉淀了业界超大的场景知识图谱,模型迁移速度快,稳定性高,这也使得该 VTM 数字银行柜员顺利落地,具有极强的适配性,可以独立闭环完成银行业务交易场景的自助应答、业务办理、主动服务、风控合规等全流程服务,帮助银行解决柜员接待能力不足的问题。
还有一些问题是落地之后发现的,数字人的自然语音语义交互需要综合深度的技术突破才能解决。言犀为大同 12345 提供政务热线解决方案的过程中,就发现实际交互是很复杂的,比如为了避免数字人抢话,一般会让来电者说完,数字人再接着说,但停顿时间又不能太长,让对方觉得互动不及时。但实际接听市民热线时发现,很多老年市民停顿很长,说着说着就停顿一下,数字人问“昨天有没有打疫苗”,对方回答“昨天啊……(停顿一秒)好像没有”,这个一秒的停顿对于数字人来说都是理解上的挑战,言犀技术团队就尝试通过跨模态技术,在断断续续的情况下也能准确地理解用户意图,技术创新领先于国际一流的学术型 AI 机构。所以说,从产业中来、到产业中去的数字人,才能真正为产业所用。
第二重门槛:技术的可控性。
是不是各类比赛中分数越高的 AI 就越厉害,打造的数字人就更强呢?其实比起技术收益有多大,技术风险的可控反而是企业更在意的,尤其是直播、问答这样实时性非常强的内容型互动,对于 AIGC 内容生成的可控性要求非常高,数字人主播如果说错了信息,导致丢单或直播中断,都是企业不希望看到的。如何保证数字人的输出是可控的?言犀从京东复杂业务场景中深度解耦而来,京东云花了很多精力让言犀数字人虚拟主播的各类 AI 模型真正可控、可解释。目前,言犀已经累计生成了 30 亿字的文字,人工审核通过率 95%。言犀平台的言犀数字人虚拟主播就具备很好的可解释性,能够为商品生成长文案和直播剧本,除此之外,言犀多模态数字人平台还有 100 多款虚拟数字人形象,在银行业务办理、政务服务等场景大规模落地,这些场景都对技术可控性要求很高。
可以说,比起实验室里神乎其神的屠龙术,可控可解释的数字人,才是产业和企业更欢迎的务实型员工。
第三重门槛:技术的投入产出比。
数字人进入产业是要帮助企业降本增效、带来正收益的,如果资源消耗巨大、开发成本高、维护费心费力,也会阻碍数字人走向产业的脚步。为了降低数字人规模化落地的成本,让企业轻轻松松就能用上数字人,京东云言犀做了两件事:一是建立完善的形象库,拥有包括 2D 真人、3D 卡通、超写实等多种数字人形象。基于基础建模,就可以快速生成各类个性化数字人,带货各种各样的商品,美妆、母婴、电子 3C 等类型主播应有尽有,大大解决了优质主播数量不足、直播时间有限等限制。
二是坚实的人工智能应用平台。京东云言犀人工智能应用平台,承载着语音与声学、视觉感知、情感计算、语义理解与生成、知识图谱、多轮对话等六个核心领域的技术能力,通过 API 和产品化等多种形式向外规模化输出,就保障了技术的可用性和低成本。
走向云宇宙,数字人的未来
元宇宙本质上是多种数字虚拟技术的集合体,作为一个略宏观和遥远的概念,何晓冬直言,我们在解决产业元宇宙的技术挑战,还处于比较早期的阶段。
对于产业元宇宙,京东云的技术人员是笃定地,也是低调的。
笃定,可能来自两方面的原因:一是数字人之于数智供应链的价值。作为更懂产业的云,京东云致力推动数智供应链服务于千行百业,推动实体经济与数字经济的融合与协同发展。数字人作为交互入口,可以应用在大量数实融合的业务场景,实现数字世界和物理世界的无缝融合,比如数字主播、智能客服、工业人机互动、景区导游、社区养老服务员等等,数智供应链为数字人提供了独一无二的产业土壤。
二是数智供应链之于产业的价值。数智供应链是京东 19 年转型实践反复验证和凝练的一套完整的能力体系,本身涉及的产业环节足够多,需要用到大量综合性技术,比如京东的智能云仓,就需要 AI、大数据、云计算来一起联合运作。越来越多的企业借由数智供应链开展数字化,自然也让数字人有了更多用武之地,有机会孕育出更多颠覆性创新,进一步放大了言犀数字人的技术优势和商业价值。
而低调,则源于京东云对产业元宇宙的理性预期。目前,产业元宇宙尚处于早期阶段,用何晓冬的话来说:我们在地平线上看到了元宇宙的曙光,但抵达的过程中还有很多技术鸿沟,有时候需要很大的技术突破才能解决。所以,京东云更希望着重于底层能力和行业应用的建设,以供应链为主轴,积累和打磨产业元宇宙所需要的各类数字技术。显然,数字人作为一个深度学习、多模态学习、人机交互等技术的综合产物,将在京东云技术研发战略中占据重要位置,成为产业元宇宙技术创新的策源地之一。
从这个角度看,产业元宇宙和言犀数字人,将在数智供应链的牵引下彼此靠拢、相互成就,最终融于一体、密不可分。携带着产业势能与技术进化的言犀多模态数字人,自然有能力走得更远、更久。
百花齐放的数字人,将在同质化竞争加剧的时刻走到分岔路口,沿着各自的选择走出差异化的道路。接下来,大家可能会看到同为数字人,却是截然不同的存在,有的作为网红明星昙花一现,有的在产业世界里静水流深,成为数字生活不可或缺的一部分。
岔路口的差异化选择,将决定不同数字人的终局。而京东云言犀,正在向产业加速飞奔。
评论