anyRTC AI 降噪|让声音更清晰
什么是AI
近几年AI不断进入公众视野,那么到底什么是AI?AI又会对我们现在的生活产生什么样的影响,今天就和大家简单的聊一聊。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
AI的展现方式有很多,可以是自动驾驶的汽车,可以是围棋高手阿尔法狗,可以是美国大片里面的超级计算机,而我们今天要介绍的是anyRTC最新开发的AI降噪功能。
AI降噪在音视频中的应用
AI降噪能在音视频中应用到哪些场景下面给大家举例说明一下:
1、在线教育方面
如今在线教育越来越被家长,老师,同学所接受,所以更好的线上教育质量也是很多人所关心的问题,无论是视频质量,还是音频质量都是缺一不可的。传统的在线课堂中,如果周围比较嘈杂的话,将会影响学生在课堂上的听讲。没有办法有一个好的上课效果。
2、在线会议方面
由于疫情的原因在线会议被很多公司,学校,和政府机关所使用。在线会议系统可有效地提高对全球各地的客户、合作伙伴以及同事在线协同合作的效率,让产品演示、共享应用程序以及开展专案协作就如同你们近在咫尺那样容易。在线会议弥补了传统会议的效率低下、成本高昂等缺陷,促使我们回到会议本身,在降低成本的同时提高生产力,从而帮助我们获得更多的商业利益。
而我们经常会遇到临时开会的可能性,比如说你在地铁上面,你在餐厅正在吃饭,你正在外面逛街,但是这个会议你又不得不参加,而周围的环境却十分嘈杂,让你没办法能听清楚会议的要点,从而影响你的工作效率。
3、语音连麦,游戏开黑
语音连麦,游戏开黑现在也是现在娱乐行业非常热门的一个环节,主播与主播,主播与用户之间连麦沟通,可以增强直播效果,增加用户的粘性。游戏开黑更加受到年轻人的喜爱,大家在打游戏的时候可以保证良好的沟通,让游戏效果更加完整。
语音连麦和游戏开黑都对周围环境有着很高的要求,周围的环境如果比较嘈杂就没有办法有很好的沟通效果。就拿游戏比赛直播来说,比赛台上选手们时时刻刻都在进行着沟通,台下的用户会经常给选手们加油打气,从而造成队友之间的沟通不清楚,听不清指令,对游戏的进行有很大的影响。
对于以上场景anyRTC AI降噪都可以有效的解决。anyRTC可以自动检测你周围的环境,分离你的人声和周围的噪音,有效的突出人声,屏蔽噪音,保证通话的质量。
AI降噪的技术难点
AI降噪适用于我们工作生活中的很多场景,但是如何能完美的实现降噪的效果,还是有很多的技术难点需要克服的。
1、如何分离人声和背景噪音,如何精准的突出人声,消除背景声
2、如何保证实时性:有的算法AI降噪效果好,但是实时性太差
3、AI模型大,算力要求高,不能运用于移动端和IoT设备
anyRTC AI降噪融合了深度神经网络降噪模型,补充了声波的空间信息,还利用深度神经网络对高频噪声作为训练集,把对语音通话的干扰抑制的更干净,为了节省计算资源,我们采用了模型裁剪手段,性能消耗较低,实时性得到保证。
anyRTC 音频降噪中的成果
anyRTC自19年6月成立AI实验室以来,经过长达一年多的时间,收集公开语音数据资源,以及第三方提供的数据和自己的内部会议来训练AI模型。噪音抑制功能将分析用户的音频输入,并使用经过特殊训练的深度神经网络来减少背景声音,例如键盘的敲击声、风扇产生的噪音等。目前我们anyRTC已经配备了全套工具和环境,我们现在已经自己采集了很多数据集,并且应用到了我们AI算法中。下面就是我们anyRTC在AI音频模型中取得的成就:
智能降噪:基于计算听觉场景分析理论,应用深度学习技术,能够在不依赖任何硬件的基础上,实现将人声和噪音分离,有效抑制环境中的各种噪音。
DHS深度啸叫抑制:基于深度学习技术,智能阻断声反馈回路,抑制啸叫产生。有效解决实时游戏、在线会议等多人实时通话场景下啸叫问题。
点击视频查看看效果
智能降噪演示场景
啸叫抑制演示场景
anyRTC AI 降噪技术规划的关键策略包括音频通信核心体验、声音场景分类和处理、音频痛点难点问题及差异化体验,最终目标则是提升语音可懂度、自然度、舒适度。
anyRTC 在AI领域的其他成果
AI+实时音频处理这个方向其实还有很多可以探索的,除了AI降噪功能外,anyRTC在其他领域也有所涉及:AI 智能传输,超分辨率,智能插帧,图像增强等。
AI智能传输由于网络传输线路上有丢包,接收的数据有失真,所以 AI 智能传输被用来做算法补偿,提升传输质量。
超分辨率实时通信视频在接收端提高原有图像的分辨率,得到高分辨率的图像,该功能有效减少了网络传输带宽,为移动端为用户带来极致视频体验。
智能插帧智能插帧是通过运动估算,计算出画面中物体的运动轨迹,生成新的帧来进行插补。可以将普通常见的30fps进行智能插帧计算,可以获得60fps的顺滑视频,让眼睛看到的自然形象更为自然。
图像增强图象增强是数字图象处理常用的技术之一。图象增强技术的目的是为了改进图象的质量,以达到赏心悦目的效果。通常要完成的工作是除去图象中的噪声,使边缘清晰以及突出图象中的某些性质等。
如今AI人工智能技术已经不在是只存在于电影电视中了,它已经逐渐渗透到我们的日常工作和生活中了。对于anyRTC来说,AI降噪只是在人工智能领域研究的冰山一角,后续我们会逐步推出更多关于AI技术的应用,请大家拭目以待。
扫描下方的二维码即刻体验AI降噪的效果
anyRTC官网:https://www.anyrtc.io/
评论