视频智能生产及内容分析应用工具开源了!
近年来,视频行业持续高速成长,带动数字经济新发展。在视频用户规模持续扩大的同时,产业对于海量多样视频内容的智能化生产及应用的需求也愈发明显。如何对海量视频数据内容进行分析?如何迅速给视频作品打上标签以便于智能推荐?如何筛选最优片段作为视频封面提升内容吸引力?……传统的处理方式需要耗费巨大的人力,智能视频内容分析和生产越来越受到业界的重视。
如何实现视频内容智能化分析及生产,目前还存在一些技术挑战:1、信息多维理解:视频的标题、字幕、画面、语音等信息中蕴含了丰富的视频信息,如何利用多维信息,提升模型高层次语义理解能力仍有很大难度。2、计算资源消耗:视频模型的训练需要消耗大量的计算资源。在实际业务中,如何降低成百上千万的 untrimed 视频,视频分类模型训练所需的机器成本和时间成本是关键。3、智能筛选生成:如何利用视频帧的质量、精彩程度、内容相关度提取最优帧和最优化面。
接下来,将为大家介绍 PaddleVideo 开源的知识增强视频多模态 &大规模分类打标签方案和视频智能封面生产方案。
视频分类打标签方案(多模态 &大规模)
多模态视频分类标签模型 MultimodalVideoTag
MultimodalVideoTag 基于真实短视频业务数据,融合视频文本、图像、音频三种模态进行视频多模标签分类。模型提供一级标签 25 个,二级标签 200+个,标签准确率超过 85%。相比仅使用视频图像特征,可显著提升高层语义标签提取准确率。MultimodalVideoTag 原理示意如下图 1.1 所示。
图 1.1 多模态视频分类标签框架
模型使用三个分支抽取各个模态特征,再进行多模态特征融合,最后进行多标签分类。
文本分支:使用基于融入实体信息的强大预训练 ERNIE,提升文本表征能力,固定住 ERNIE 的参数,后置 TextCNN 网络学习领域内知识,加速模型训练;
图像分支:使用预训练的 ResNext 对图像抽取高层语义特征,同时使用 Bi-LSTM 得到序列信息;
音频分支:使用预训练的 VGGish 网络抽取音频特征,通过 Bi-LSTM 获得时序信息;
多模融合:结合文本与图像的 cross attention、文本与音频的 cross attention、多模态 late fusion 处理,提升不同模态的交互能力。使用高语义的文本信息影响图像、音频时间序列的注意力选择,对视频内容杂乱的情况下有较好抵御噪声能力,效果显著优于多模态特征直接拼接的效果。详细结果见表 1.2,融入文本特征显著提升模型效果,加入 textcnn 后置网络提升领域迁移能力,使用 cross attention 进一步提升模型效果。
表 1.2 多模态融合实验结果
多模态视频分类标签模型 MultimodalVideoTag 的功能是给视频打多个描述视频内容的标签,可用于内容圈选、招稿以及投放等多个推荐系统场景。效果展示如图 1.3。
图 1.3 多模态视频分类标签 MultimodalVideoTag 效果展示
大规模视频分类模型 VideoTag
VideoTag 基于百度短视频业务千万级数据,支持 3000 个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用,标签准确率达到 89%。
VideoTag 采用两阶段建模方式,即图像建模和序列学习。第一阶段,使用少量视频样本(十万级别)训练大规模视频特征提取模型(Extractor);第二阶段,使用千万级数据训练预测器(Predictor),最终实现在超大规模(千万/亿/十亿级别)短视频上产业应用,其原理示意如图 1.4 所示,VideoTag 效果展示如图 1.5。
图 1.4VideoTag 原理图
图 1.5 VideoTag 效果展示
VideoTag 视频处理流程如下:1. 数据处理:视频是按特定顺序排列的一组图像的集合,这些图像也称为帧。视频分类任务需要先对短视频进行解码,然后再将输出的图像帧序列灌入到 VideoTag 中进行训练和预测。2. 图像建模:先从训练数据中,对每个类别均匀采样少量样本数据,构成十万量级的训练视频。然后使用 TSN 网络进行训练,提取所有视频帧的 TSN 模型分类层前一层的特征数据。在这个过程中,每一帧都被转化成相应的特征向量,一段视频被转化成一个特征序列。3. 序列学习:采用 Attention clusters、LSTM 和 Nextvlad 对特征序列进行建模,学习各个特征之间的组合方式,进一步提高模型准确率。由于序列学习相比于图像建模耗时更短,因此可以融合多个具有互补性的序列模型。示例代码仅使用 Attention_LSTM 网络进行序列特征预测。4. 预测结果:融合多个模型结果实现视频分类,进一步提高分类准确率。
视频智能封面生成方案
视频智能封面是通过对视频内容的理解,智能分析视频帧的质量、精彩程度、内容相关度,提取最优帧或最优片段作为视频封面,提升内容吸引力。
飞桨开源了视频智能封面 AI 算法。视频智能封面应用处理流程如图 2.1 所示,通过基于 PP-TSM 的视频质量分析模型,对视频镜头打分。通过人脸美观度、图像实体标签,获取视频内容信息。综合上述视频质量和内容信息进行加权打分后处理,并引入聚类操作滤除重复样本,获取最终视频图像或片段粒度的视频智能封面。
图 2.1 视频封面图处理流程
针对视频质量分析环节,我们开源了基于 PP-TSM 的视频质量分析模型。
该模型的效果与性能明显优于基于均值和方差的 GSTVQA 模型,如表 2.2 所示。
表 2.2 基于 PP-TSM 的视频质量分析模型与 GSTVQA 对比
心动不如行动,大家可以直接前往 GitHub 地址获得完整开源项目代码,记得 Star 收藏支持一下哦!https://github.com/PaddlePaddle/PaddleVideo
相关商业解决方案地址如下,欢迎试用:https://cloud.baidu.com/solution/media/index.html
精彩课程预告
1 月 17 日~21 日每晚 20:15~21:30,飞桨联合百度智能云、百度研究院数十位高级工程师为大家带来直播分享,剖析行业痛点问题,深入解读产业级智能视频技术方案及体育、互联网、医疗、媒体等行业应用案例,并带来手把手项目实战。扫码或点击"阅读原文"进行报名,我们直播间不见不散~
扫码报名直播课,加入技术交流群
更多相关内容,请参阅以下内容:
官网地址:https://www.paddlepaddle.org.cn项目地址:GitHub: https://github.com/PaddlePaddle/PaddleVideo
版权声明: 本文为 InfoQ 作者【百度大脑】的原创文章。
原文链接:【http://xie.infoq.cn/article/2e3f7deab720b736a44c9daa6】。文章转载请联系作者。
评论