开发者的多媒体梦工厂: AV Pipeline Kit 究竟是什么?
在新闻学中,有一个“媒介的双螺旋”理论,是说媒介形式必然会按照简易度和关联度两条线索螺旋向上升级。无论是印刷术、广播、电视,还是今天的短视频、直播、VR,每一种媒体形式的出现,都是为了降低用户的获取门槛,同时提升内容的关联能力。按照双螺旋理论,多媒体化的趋势是不可逆转的。而优秀的表达者、开发者、创业者,也必然需要多媒体的帮助。
移动应用开发者,本质上就是利用 APP 这种介质完成对用户的表达和沟通。而最能够帮助开发者提升表达效率,增强用户体验的技术,可能也就是多媒体技术了。
曾几何时,图片和文字是 APP 的主要载体;而今,我们很难想象一款头部 APP 中缺少直播、视频播放的多媒体交互形式。然而对于大部分开发者而言,多媒体功能的开发、部署和运维还存在大量痛点,甚至可能变成开发团队的过量成本消耗因素与技术软肋。
多媒体开发,本来应是充满惊喜感、愉悦感的事情,当然不该成为开发者的瓶颈。此前我们已经介绍过,7 月 15 日 HMS Core 6.0 正式上线。其中有一项重要更新,叫做华为多媒体管线服务(AV Pipeline Kit)。
当时就有朋友希望我们仔细介绍一下 AV Pipeline Kit。9 月 16 日,HMS Core AV Pipeline Kit 刚刚进行了一场线上直播,多个领域的专家深度讲解了 AV Pipeline Kit 的技术要点和应用场景。
我们今天就由此出发,看看 AV Pipeline Kit 究竟带来了什么,又是如何帮助开发者完成和简化音视频采集、编辑和播放等系列工作的。
AV Pipeline Kit 通过一系列技术与架构设计中蕴藏的惊喜,让多媒体的开发和管理变得简单易用,触手可及。
它似乎彰显了这样一个理念:多媒体的无限可能性,本就应该是开发者在智能时代的梦工厂。
实时+智能:多媒体与开发者的新约会
要说今天有哪位移动开发者没有研究过多媒体开发,那估计是所有人都不信的。
随着消费者“口味”的不断提升,应用的功能集成性不断增强,今天的 APP 早已不是简单的网页流转逻辑。试想一下,无论是社交、旅行、电商,但凡需要用户分享和内容分发的 APP,在今天肯定都需要视频,甚至是直播、AR 功能的加入。
但相比于图文来说,视频、音频为代表的多媒体开发与管理有着更高的技术门槛和开发工作量。尤其随着短视频、直播的普及,用户需要的多媒体玩法也更加复杂。
整体而言,多媒体开发在今天有两个核心发展趋势:一是更加实时化,需要快速完成基于视频的互动和体验升级,满足用户的及时分享与获取需要,这就需要打破传统的多媒体分发逻辑,更加关注端侧的性能和能耗;二是更加智能,AI 给多媒体带来了图像识别、流媒体超分、语音交互、语音识别的种种可能,这些智能触发点极大提升了开发者的能力边界,但也要求开发者具备更强的技术能力。
在实时化、智能化的新时代,开发者与多媒体的约会虽然美好,但也有诸多挑战。
比如开发难度进一步加大,开发成本更高。很多视频+AI 的开发,需要在传统管线中加入 AI 处理技术,这涉及到诸多数据处理能力,对于开发者来说技术门槛很高。
再有,端侧实时化的智能视频开发很可能遇到算力的瓶颈。云端处理会导致性能欠佳、体验较差,但端侧算力的性能和框架优化却无法负载,最终导致很多好的想法付诸东流。
还有一点,给 APP 添加多媒体功能意味着功耗开支的加大。如果多媒体缺乏优化能力,会导致 APP 功耗过大,容易发热,继而造成用户体验的下降。
这些痛点的存在,让复杂、创新的多媒体开发经常成为工作量大、开发成本大的工作。甚至变成开发者不得不做,但做了之后又占用人力算力过多,造成开发瓶颈的“鸡肋”工作。
那么是不是有什么办法,可以极大减少开发者在多媒体领域的工作量,并且开发综合成本极大降低呢?
瞄准这样的需求,华为海思团队在 2020 年年底开始了系统设计和相关调研,今年年初开启开发。在多媒体、NPU、AI 算法等相关团队的协同努力下,最终让集成了多种多媒体管线技术,并且能极大压缩开发工作量的 AV Pipeline Kit 在 7 月正式发布。
开发者的创造力与智能时代的多媒体升级,开启了一场新的约会。
从智能超分到流水线编排:打开多媒体管线的惊喜盒
从音频到视频,再到多媒体管线的编排管理,AV Pipeline Kit 包含了一系列技术突破与全新的框架搭建思路。换句话说,它并不是一种单一的技术插件,而是把多种新技术、新配置方案放在一起的惊喜盒。打开它,开发者可以找到很多期待已久的礼物。
让我们通过几个 AV Pipeline Kit 关注的重点领域,说明其中到底蕴藏了哪些惊喜。
首先让我们来到“智能+视频”领域中最常提到的功能:视频超分。所谓“超分”,可以理解为在视频播放过程中进行智能识别与锐度优化,从而让视频看起来比原本更清晰、明丽。在大型影视和游戏制作中,超分是一种非常关键的技术,但那有赖于云端和服务器。想要在端侧在线场景中,帮助开发者获得实时化、高性能的超分,就需要从 AI 技术到硬件资源调用的一系列优化。
为了帮助开发者便捷获取真实可用的逐帧超分能力,实现超分不卡顿的体验,AV Pipeline Kit 首先在机器视觉算法上进行了一系列技术突破。比如在 AI 模型结构上应用了卷积神经网络,提升了复杂真实场景的超分效果;在数据工程方面,用一系列方法还原了多媒体数据的构造过程,提升网络的优化结果;在端侧模型压缩方面,进行了新的网络小型化探索,确保超分效果可以在端侧场景中被很好地执行。
在这一系列的技术突破后,AV Pipeline Kit 可以为开发者带来随时随地都能看清的超分效果。通过调用 NPU 提供的专项 AI 处理算力,AV Pipeline Kit 可以实现最高三倍超分效果,将原始片源的观看体验极大提升。基于端侧 AI 算力和一系列算法优化,AV Pipeline Kit 在网络不均衡的场景下,依旧可以启动超分并达成相对一致的体验。在给用户带来智能功能的同时,还增强了实时化的流畅体验。此外,端侧超分技术的应用可以极大降低开发者的服务器使用成本,提升开发效率。
目前,AV Pipeline Kit 已经与某大型流媒体 APP 达成合作,用户在网络环境较差的情况下可以依赖端侧超分,观看到流畅自然的视频画质。
看过了“视频+AI”,让我们再来看看音频领域 AV Pipeline Kit 带来的智能加持。基于 AI 声音事件检测技术,开发者可以实现非常多前所未有的玩法。比如检测家中宠物叫声、检测孩子哭声、按门铃声,然后再添加相应的智能服务。
但 AI 声音事件检测对于开发者来说是比较复杂的技术,所需的技术资源与开发经验都很多。AV Pipeline Kit 将这些功能以文件配置的形式直接带给开发者,并且其音频检测能力经过华为相关团队的长期深耕,可以确保声音识别的准确与稳定。
对于开发者来说,面对多媒体任务管理与配置时还有个很大的问题,就是相关的能力非常复杂,架构相对抽象。这一点让很多开发者望而却步,只能应用比较简单的多媒体功能,以避免在任务管理中浪费大量时间,甚至引发兼容问题。
但这种方式显然限制了开发者的想象力。AV Pipeline Kit 提出了全新的解决方案,也就是流水线编排的多媒体管线服务。AV Pipeline Kit 基于全新的架构梳理,实现了将不同能力抽象成对应的插件,便于框架进行管理。在实际开发场景中,开发者只需要简单配置文件,就可以实现管理多媒体管线的上下游插件,完成复杂的管线编排。
形象地理解这种操作方式,就是将多媒体任务放在同一个“工厂”的框架下,以工业流水线的形式实现对各种任务的编排管理。而各种各样的多媒体能力就成为了流水线上的产品。作为流水线和工厂的主人,开发者获得了极高的易用程度,降低了多媒体开发的技术门槛。
从 AI 超分技术的加入,到流水线编排的实现,AV Pipeline Kit 既有新的能力突破,也有原有功能的重新构筑,可以说将多种开发者急需的能力纳入一体,带来多样且统一的惊喜盒。
从宏观的产业价值上看,AV Pipeline Kit 又给成为 HMS 生态开发者提供了一个新的契机与理由。
软硬件一体,构筑 HMS 的开发梦工厂
好莱坞被称为电影的梦工厂,不仅是因为这里是大片打造地,更因为好莱坞有各种各样的产业链、技术、生态支撑。在这里,电影人能找到各种所需的硬件、软件、人才、合作伙伴。最终才能让那些天才的想法、创造性的点子,变成大荧幕上的真实梦境。
梦工厂,从来都不是一天建造起来的,而是需要一点点累积和升级,不断增加生态的凝聚力和吸引力。致力于打造移动生态第三极的 HMS,当然希望成为一座移动开发者的梦工厂。而 HMS Core 就肩负着这座梦工厂的技术差异化。只有在这里可以实现的技术可能性越来越多,真正满足开发者需求,这个技术生态才有活力可言。
此前,我们已经介绍过 HMS Core 的很多组成部分。而最新的 AV Pipeline Kit 则构筑了 HMS Core 6.0 时代关于 AI 和多媒体的巨大惊喜,也成为 HMS 技术生态的重要组成部分。
在 AV Pipeline Kit 背后,我们可以看到华为在端侧的整体软硬件布局,不断发挥着协同与整合的优势。比如为了实现这个 Kit,就汇集了 AI、多媒体、硬件等多个部门的协同合作,才最终让端侧 AI 超分这样的新技术,与多媒体管理平台融为一体。
再向后看,AV Pipeline Kit 与更加底层的华为技术布局保持着深度融合。目前来看,业界还没有哪个平台或者技术工具,能够实现端侧化、智能化的多媒体管线服务。而 AV Pipeline Kit 能开创先河的原因,很大部分来自软硬件一体化的协同优势。
比如说,AV Pipeline Kit 就和华为 HiAI Foundation 平台协同,实现了芯片底层的免拷贝式接口对接,与从而节省了非常多的调用开销,让 AV Pipeline Kit 在华为硬件平台上可以实现更好的开发体验。
再向底层看,业界部署超分主要以 CPU、GPU 为主,但 NPU 可以带来更有针对性优化,针对超分业务,NPU 可以提供更高算力和更优的功耗,提供更好的端侧 AI 计算体验。NPU 的能力直接助力 AV Pipeline Kit,让端侧超分不仅可以实现,还可以向更具挑战性的直播等场景进发。
或许可以说,很多 HMS Core 的组成部分,都在更深层地调用华为在终端侧硬件、软件、AI 等技术的协同与互补优势,往往能实现合力创造全新价值的技术支点。
这样的价值逻辑,将从 AV Pipeline Kit 延伸到更多的开发者赋能技术中。开发者们都深知,有技术才有未来,有创造性才有市场。AV Pipeline Kit 以及 HMS 生态,就是带给他们这样一份礼物——一个可以持续期待,永远充满未来的惊喜盒;一座能用“技术打印机”,把创意变成现实的梦工厂。
评论