写点什么

攻克美颜、虚拟背景、眼神接触多个难题, 腾讯会议技术领先的秘诀找到了

作者:科技热闻
  • 2022 年 8 月 16 日
    浙江
  • 本文字数:4043 字

    阅读完需:约 13 分钟

养蜂十年无人过问,“背景”享誉全球。

最近新疆一位 97 年“大叔”,因为直播过程中背景“太假”,火遍全网。面对网友的质疑,“大叔”为了证明自己的背景没有造假,气势汹汹地把水桶扔进了身后的河里。



“悲惨”的画面,搞笑的氛围,引发网友创作热潮。

整个画风是这样的:




虽然这位大叔的背景真实可靠,但是在腾讯会议的虚拟背景或许真的可以“以假乱真”。

虚拟背景,考验的不仅是画面和人物的分割,人物和背景的融合,对于细节层面的打磨,也至关重要。

实现这一效果,是腾讯会议与优图实验室团队共同努力的结果,后续更推出了包括美颜、眼神接触、同框模式等更具临场感的新功能,这些使用场景已经成为当下视频会议的高频需求。

开源共建,突破人像分割难题

2020 年 3 月,腾讯会议刚经历了一场大考,集合了腾讯公司内多个团队力量扛住了千万用户的线上会议需求。

身在上海的优图实验室高级研究员邰颖和几位小伙伴,这个时候却接到一项任务,需要奔赴深圳和腾讯会议的 AI 技术团队“联合作战”。

当时,省际交通还未全面恢复,好在上海到深圳的空中走廊尚且畅通,他们决定趁这个时间窗口去深圳总部一趟。

原来,此行的目的是和腾讯会议技术团队一起攻克高性能“虚拟背景”技术难题。

虽然腾讯会议让线上交互变得简单便捷,但对于大部分用户来说,要抛开心理包袱,真正做到打开视频,面对面交互,还存在一些心理障碍。

在腾讯会议开发人力还很少的时候,就开始着手虚拟背景研发,第一版虚拟背景也伴随着腾讯会议的发布一起上线。



“为了虚拟背景的第一个版本按时上线,时间、人力等资源非常紧促,急需投入资源加速这块优化进展”, 腾讯会议视觉 AI 技术研发负责人李峰回忆。

在腾讯内部的一次高层汇报中,腾讯高级执行副总裁、云与智慧产业事业群 CEO 汤道生提了一个建议,腾讯会议可以和优图实验室一起合作来加快这里的研发进程。

双方团队初步交流后一拍即合。

“开源共建,这是当时毫不犹豫做的一个决定”,李峰说。双方团队就把各自的数据和代码全部开源出来,基于同一套代码和数据,一方面集合两边的资源和优势,二是研发效率可以得到极大提升。代码开源,也让彼此快速熟悉了对方的思路。

“虚拟背景技术并没有想象中那样容易解决”。

首先遇到的是人像分割效果问题,双方团队掰着指头细数,同事的寸头过于精神,丝丝耸立的头发难以分割,又不能直接抹平;工作椅的黑色头枕、黑色耳麦与头发混在一起,难以区分;椅子和衣服的颜色太过接近,人在移动时画面有明显的跳动……

如何在实验室内模拟出不同人,不同场景开会,时刻考验着数据团队。为此,优图打造了专业的场景实验室,提供强大的多场景构建能力和数据采集能力。

为了解决椅子和人像重合的场景问题,团队甚至采购了上千款不同的椅子,并发动内部同事坐椅子上摆拍,最终形成了近 6 万张带有头枕椅子的样本,提供给 AI 学习。

此外,实验室内几十台灯光设备以及上百种衣帽、服饰,眼镜等附属配饰,可以基本模拟任意场景下的人员活动;自动化采集系统还配置了上百部手机和 PC,可以捕获目标人员任意角度活动姿态。




然而,现实又给两个团队增加了一个限制条件。

“会议场景对业务性能要求非常高,有非常严格的专项测试标准。虚拟背景作为会议非默认开启的能力,CPU 和 GPU 的使用率不得超过 5%。开虚拟背景的话,耗时要保证在 30ms 以内,温度增量不能超过 0.5 摄氏度”,李峰介绍说。

这意味着虚拟背景技术优化的过程中,既不能影响会议质量,也不能造成设备过热,更不能影响设备上其它应用的运行,“这对于计算密集型任务来说,技术优化的挑战非常大。”邰颖对此深有感触。

就拿解决头发丝的边缘分割问题来说,用常规的方式也能解决,比如围绕时序稳定、模型结构的优化等来寻找解决方案,把模型做得足够大,头发丝的分割效果也会更好。

但是在腾讯会议,这是不被允许的。“这样的优化方案在会议场景没法落地,因为你一旦这么做,它就超过性能要求了”。

寻常的方式走不通,团队只能另辟蹊径,寻找深度学习以外的方案。

后来讨论和尝试了一段时间发现,有一种传统的方案速度更快,效果也能满足需求。

这种方案的策略是在有了模型分割的结果之后,在结果的基础上做一个后处理操作,这样做的好处既不影响前端的分割结果,也让发梢的边缘处理效果得到巨大提升。

这次探索也成就了一项行业首创。彼时,在人像分割领域还没有一个比较合理的衡量标准,业界一般用 mIOU(平均交并比)来衡量人像分割效果,但这一指标并不能体现边缘分割的水平。为了全面衡量边缘的重合度,联合团队首度推出了边缘 mIOU 的指标。

经过腾讯会议和优图团队高效合作共建模式和不遗余力地持续投入,腾讯会议的虚拟背景效果得到了快速迭代。不仅成为 3 亿用户高频使用的通用功能,日渐成为企业线上签约和商务活动的标配,背后的人像分割技术,随着虚拟背景功能中不断优化,也逐渐开枝散叶,衍生出了画中画、同框模式等功能的技术底座,给用户带来更加沉浸的开会体验。

自研 AI 运营系统,让美颜智能适配

如果说虚拟背景考验的是人像分割的技术,而美颜效果则是一千个人有一千个哈姆雷特,对 AI 的学习与适配能力有了更强的要求。尤其是在线上面对面的交互场景,美颜已经成为一种刚需。腾讯会议上线之初就洞察到用户需求,成为首个推出美颜功能的云视频会议产品。

在美颜技术上,优图实验室有着长期而深厚的积累,但在最初,这一技术并不能直接“移植”到腾讯会议上使用。

首先是桌面端适配的问题,优图有着成熟的美颜 SDK,但当时只适用于移动端。针对腾讯会议兼顾桌面端的应用,双方联合团队一起进行了开源共建,将实时美颜的功能搬到了电脑上。

“在会议场景,性能开销是绕不过去的问题,如何在性能和效果之间取得一个更好的平衡,是我们一直在努力的方向”,李峰说。

“美颜主要的应用场景是移动端直播,在直播类应用中核心是保证主播的美颜效果,它的性能可以放得很开,CPU 利用率可以到 10%,但是在腾讯会议,美颜是默认开启的功能,CPU 的标准就是 2%”,李峰补充道。

为了解决这个问题,双方联合团队一方面要优化算法,压缩人脸检测模型,将计算量压缩下来;另一方面,在工程上要对硬件做充分的适配计算优化,让实时美颜功能适配更多的机型。



“如果用户的机器性能带不动某些高级美颜的特效,我们会采用降级体验的方式,比如减少特效算法的复杂度,甚至屏蔽部分特效。同时会采用精细化运营策略,让用户在当前这个机器和平台上享受到最佳体验。”李峰解释说。

为了实现这一用户体验,团队自研了一套领先的 AI 运营系统,可以根据用户设备所使用的操作平台、系统版本、驱动乃至芯片,来灵活实现美颜效果的切换。

当用户的机型配置较高时,这套系统开放给用户的 AI 算法和模型功能会更强大。反之,当用户的机型配置不高时,系统则将减少会议 AI 的功能开放类别,优先保证用户其它应用的需求,从而大幅提升了腾讯会议体验的流畅性。

针对某些机型出现的问题,腾讯会议甚至找到了手机厂商,反向推动厂商对终端系统进行修复和优化。

如今,腾讯会议的美颜功能已迭代了几十个版本。能让尽可能多的用户不受限于设备能力,体面地相见,是优图和会议团队颇为自豪的事情。

“为了大家的美颜,我们真的连一条皱纹也没放过”,李峰笑称。

跨越又一山峰,攻克眼神接触难题

在现实场景下,两个人面对面沟通,眼神的交流至关重要。喜怒哀乐、悲欢离合,人们对周围一切事物的复杂情感,都会自然而然通过眼神传递出来。

乱糟糟的办公环境,熬夜产生的黑眼圈,不免会让人担心你近期的生活状态;不经意的眼神飘忽,可能让人质疑你是否在专心开会。如果人们在线下相见,一切还好解释,可如果在线上见面,要怎么让彼此理解?

腾讯会议团队敏锐地注意到了这个问题——沟通时必不可少的眼神交流。

一般情况下,人们在视频会议时,眼睛看的是电脑或手机的画面,和摄像头之间有一定的夹角,你以为在看着对方,但对方看到的并不是同一个角度,反之也是如此。

如何借助 AI 技术把用户的眼神交流真实的呈现,打造更具临场感的会议体验,成为腾讯会议和优图团队另一个要翻越的高峰。

“如果我们做一个眼神接触功能,通过视觉 AI 技术自动修正视线焦点,让视频会议交流的时候注视着摄像头的话,就可以增加眼神的交流”,李峰说。



这是一个主观性最强的挑战。

原因在于眼睛本身的敏感度极高。“哪怕有一点点的偏差,比如眼距有一点点差异,你就会觉得对方好像是斗鸡眼”。




这就要求通过技术精准定位出用户的眼睛在哪里,才能做眼神的纠正,如果不能精准定位出用户的眼睛位置,眼神的纠正就是天方夜谭。

眼神接触背后的关键技术之一是“脸部关键点配准”。这需要有一个既好又快的关键点配准的方法,准确而快速地定位出用户的眼睛,才能对眼神的朝向位置做一定的纠正,这其中还要克服斜视、戴眼镜、反光、暗光、侧脸等场景的影响。

但难点远不止于此,人的眼神时刻在变化,很难通过标注获得目标数据来训练 AI,为了解决这个问题,在数据的采集和处理这块,联合团队花了很多时间把标准定清楚,才能让后面眼神修正生成的学习少走弯路。

眼神是纠正了,如何判断结果的好坏?

行业对此有一些通用指标,比如可以判断生成的眼神是否自然,但光靠这个指标,很难反映眼神接触纠正的精度。为此,腾讯会议首创了另一个指标:对眼指标。这个指标可以反映纠正结果的斗鸡眼程度,也可以反馈与肉眼的主观观感是否一致。

如果翻看互联网历史你会发现,很少有哪款应用可以像腾讯会议这样,一年的功能迭代超过两万次。用户看到的四个按钮界面背后,有降噪、优化网络连接等大量保障会议质量的功能迭代。

虚拟背景、美颜、眼神接触……一系列用户体验背后的核心技术,能够在过去近三年时间领跑于视频会议行业,这背后是腾讯 20 多年打造爆款产品力的体现,也离不开腾讯会议和优图实验室对于 AI 技术的打磨和实践。

“我们既要关注前沿技术,也要解决实际问题。”联合团队在最后总结说。“前沿的竞赛冠军、榜单第一、顶会论文发表论证了我们自研技术的创新价值,但是把这些前沿技术服务于实际应用场景,这是更有意义的事情”。

目前,腾讯会议和优图实验室联合团队还在继续 AI 技术应用的前沿探索。除了虚拟背景、美颜和眼神接触功能,在可预见的将来,腾讯会议还会上线更丰富的功能模块,比如视频超分辨率、虚拟形象等。

随着这些功能的上线,腾讯会议的用户体验将会再上一个台阶。这些实际场景下沉淀的 AI 技术,也将在腾讯云上开放,供各行各业的企业、个人随时获取。

用户头像

科技热闻

关注

还未添加个人签名 2021.05.31 加入

还未添加个人简介

评论

发布
暂无评论
攻克美颜、虚拟背景、眼神接触多个难题,腾讯会议技术领先的秘诀找到了_科技热闻_InfoQ写作社区