写点什么

小谈音视频质量检测

用户头像
声网Agora
关注
发布于: 10 小时前
小谈音视频质量检测

本人从一位测试的角度出发,基于目前项目中摄像头的直播和语音对讲业务,正寻求音视频的质量测试及一些监控分析手段。工作中发现达到一定的并发程度之后,就会出现延时、卡顿、丢帧、马赛克等问题。所以最近在网上看看专家的直播和专栏,学习一下行业内的好的测试方法。


这不,前几天有幸参与了声网的音频算法工程师赵晓涵的关于《实时语音质量监控系统的过去、现在和未来》的在线直播和讨论。本次直播旨在介绍一下声网实时语音质量监控系统的进展,并和大家交流了一下未来的演化方向。


整理了一下,本次直播主要的内容主要涵盖了以下几个模块:


1、过去:语音质量评估算法


2、现在:线下测试的线上化


3、未来:感知、反馈和监控一体化

一、过去:语音质量评估算法

其中,过去的语音质量评估算法主要介绍了有参考客观评价方法、无参考客观评价方法和主观评价方法。


一千个观众会有一千个哈姆雷特,主观评价方法暂且不论。有参考客观评价方法中应用最广泛的有 P.862 PESQ、PESQ-WB 这两种。12 年左右推出了最新的有参考评价方法 P.863 POLQA,它是基于 PSQM 的升级改造。它们都主要依赖无损的参考信号。而无参考客观评价方法无需参考信号。其中的 ANIQUE+据作者称,其准确度超过有参考的 PESQ,这一点也很有意思。


客观评价方法的痛点:


1、有参考方法:只能用在上线前


2、无参考方法-传统信号域:应用场景窄,鲁棒性差


3、无参考方法-传统参数域:仅在有限弱网条件下可以保持精度


4、无参考方法-深度学习:应用场景和语料有限,复杂度高(信号域)


在语音质量评估算法这一方面,我们真的是小白。基于目前业务的,主要覆盖还是功能测试、接口测试和流媒体的部分性能测试。利用现有算法对语音质量进行评估,暂时可能还不会做。

2、现在:线下测试的线上化

直播中赵晓涵老师在这一块主要回顾了下在设计这个系统前的目标,和目前上下行链路的主要问题和解决方法。


现有的评估系统的设计目标:


1、精度高:评估结果可靠


2、覆盖业务场景广:游戏、娱乐、教育等业务场景


3、算法复杂度不能太高:不会对性能造成很大的降低


4、和语音内容弱相关能力:不管输入是语音、音乐还是噪声,分析结果不能受影响。


下行主要有这几个流程:编码、传输、解码、播放


下行侧的质量评估方法也是主要根据上面四个模块展开的:


1、编解码器性能:不同的编解码器对不同的语料处理结果不一样


2、网络传输:丢包、抖动和延迟等


3、弱网对抗算法质量:丢帧补偿


4、设备的外放能力:设备硬件差会对音质有所损伤


这一部分内容深有感触,我们目前用到的摄像头来自海康、大华、雄迈、TPLink 等好几个厂商,同个厂商又有多种型号。不同设备都有硬件差异,就连基本的国标接入都会有些许异常,更别说在音视频上的表现了。目前我们平台所用的视频编码正从 H264 到 H265 转变,音视频质量测试显得格外重要。


而网络传输也是我们目前的性能测试经常遇到的瓶颈,尤其是是视频文件上传 s3 存储会很大程度受限于上行的带宽。另外还有使用 udp 传输,不可避免得造成数据的丢包等问题。


不同的终端设备,对音频外放的音质也不尽相同。这一点我们在兼容性测试时已经有所发现。

三、未来:感知、反馈和监控一体化

对未来的系统的目标:


1、内部状态更细:上行链路细节待优化。


2、体验覆盖更广:目前有些噪声还未能覆盖,待优化。


3、反馈速度更快:目标在 1 分钟内能收到反馈。


4、覆盖通话更全:目标是每一秒都能监控到。


一个覆盖广,响应快,又精准的平台会是所有平台的平台的目标,希望能早日看到平台给音视频质量检测行业带来更大的促进。

用户头像

声网Agora

关注

还未添加个人签名 2021.02.05 加入

声网 Agora 是实时互动 API 平台行业开创者,实时互动技术服务覆盖全球 200 多个国家和地区。开发者只需简单调用 API,即可在应用内构建多种实时音视频互动场景。

评论

发布
暂无评论
小谈音视频质量检测