写点什么

视频智能生产及内容分析应用工具开源了!​

作者:百度大脑
  • 2022 年 1 月 19 日
  • 本文字数:2358 字

    阅读完需:约 8 分钟

近年来,视频行业持续高速成长,带动数字经济新发展。在视频用户规模持续扩大的同时,产业对于海量多样视频内容的智能化生产及应用的需求也愈发明显。如何对海量视频数据内容进行分析?如何迅速给视频作品打上标签以便于智能推荐?如何筛选最优片段作为视频封面提升内容吸引力?……传统的处理方式需要耗费巨大的人力,智能视频内容分析和生产越来越受到业界的重视。

如何实现视频内容智能化分析及生产,目前还存在一些技术挑战:1、信息多维理解:视频的标题、字幕、画面、语音等信息中蕴含了丰富的视频信息,如何利用多维信息,提升模型高层次语义理解能力仍有很大难度。2、计算资源消耗:视频模型的训练需要消耗大量的计算资源。在实际业务中,如何降低成百上千万的 untrimed 视频,视频分类模型训练所需的机器成本和时间成本是关键。3、智能筛选生成:如何利用视频帧的质量、精彩程度、内容相关度提取最优帧和最优化面。

接下来,将为大家介绍 PaddleVideo 开源的知识增强视频多模态 &大规模分类打标签方案和视频智能封面生产方案。

 视频分类打标签方案(多模态 &大规模)

多模态视频分类标签模型 MultimodalVideoTag

MultimodalVideoTag 基于真实短视频业务数据,融合视频文本、图像、音频三种模态进行视频多模标签分类。模型提供一级标签 25 个,二级标签 200+个,标签准确率超过 85%。相比仅使用视频图像特征,可显著提升高层语义标签提取准确率。MultimodalVideoTag 原理示意如下图 1.1 所示。


图 1.1 多模态视频分类标签框架

模型使用三个分支抽取各个模态特征,再进行多模态特征融合,最后进行多标签分类。

  • 文本分支:使用基于融入实体信息的强大预训练 ERNIE,提升文本表征能力,固定住 ERNIE 的参数,后置 TextCNN 网络学习领域内知识,加速模型训练;

  • 图像分支:使用预训练的 ResNext 对图像抽取高层语义特征,同时使用 Bi-LSTM 得到序列信息;

  • 音频分支:使用预训练的 VGGish 网络抽取音频特征,通过 Bi-LSTM 获得时序信息;

  • 多模融合:结合文本与图像的 cross attention、文本与音频的 cross attention、多模态 late fusion 处理,提升不同模态的交互能力。使用高语义的文本信息影响图像、音频时间序列的注意力选择,对视频内容杂乱的情况下有较好抵御噪声能力,效果显著优于多模态特征直接拼接的效果。详细结果见表 1.2,融入文本特征显著提升模型效果,加入 textcnn 后置网络提升领域迁移能力,使用 cross attention 进一步提升模型效果。


表 1.2 多模态融合实验结果

多模态视频分类标签模型 MultimodalVideoTag 的功能是给视频打多个描述视频内容的标签,可用于内容圈选、招稿以及投放等多个推荐系统场景。效果展示如图 1.3。


图 1.3 多模态视频分类标签 MultimodalVideoTag 效果展示

大规模视频分类模型 VideoTag

VideoTag 基于百度短视频业务千万级数据,支持 3000 个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用,标签准确率达到 89%。

VideoTag 采用两阶段建模方式,即图像建模和序列学习。第一阶段,使用少量视频样本(十万级别)训练大规模视频特征提取模型(Extractor);第二阶段,使用千万级数据训练预测器(Predictor),最终实现在超大规模(千万/亿/十亿级别)短视频上产业应用,其原理示意如图 1.4 所示,VideoTag 效果展示如图 1.5。


图 1.4VideoTag 原理图


图 1.5 VideoTag 效果展示

VideoTag 视频处理流程如下:1. 数据处理:视频是按特定顺序排列的一组图像的集合,这些图像也称为帧。视频分类任务需要先对短视频进行解码,然后再将输出的图像帧序列灌入到 VideoTag 中进行训练和预测。2. 图像建模:先从训练数据中,对每个类别均匀采样少量样本数据,构成十万量级的训练视频。然后使用 TSN 网络进行训练,提取所有视频帧的 TSN 模型分类层前一层的特征数据。在这个过程中,每一帧都被转化成相应的特征向量,一段视频被转化成一个特征序列。3. 序列学习:采用 Attention clusters、LSTM 和 Nextvlad 对特征序列进行建模,学习各个特征之间的组合方式,进一步提高模型准确率。由于序列学习相比于图像建模耗时更短,因此可以融合多个具有互补性的序列模型。示例代码仅使用 Attention_LSTM 网络进行序列特征预测。4. 预测结果:融合多个模型结果实现视频分类,进一步提高分类准确率。

 视频智能封面生成方案 

视频智能封面是通过对视频内容的理解,智能分析视频帧的质量、精彩程度、内容相关度,提取最优帧或最优片段作为视频封面,提升内容吸引力。

飞桨开源了视频智能封面 AI 算法。视频智能封面应用处理流程如图 2.1 所示,通过基于 PP-TSM 的视频质量分析模型,对视频镜头打分。通过人脸美观度、图像实体标签,获取视频内容信息。综合上述视频质量和内容信息进行加权打分后处理,并引入聚类操作滤除重复样本,获取最终视频图像或片段粒度的视频智能封面。


图 2.1 视频封面图处理流程

针对视频质量分析环节,我们开源了基于 PP-TSM 的视频质量分析模型。

该模型的效果与性能明显优于基于均值和方差的 GSTVQA 模型,如表 2.2 所示。


表 2.2 基于 PP-TSM 的视频质量分析模型与 GSTVQA 对比

心动不如行动,大家可以直接前往 GitHub 地址获得完整开源项目代码,记得 Star 收藏支持一下哦!https://github.com/PaddlePaddle/PaddleVideo

相关商业解决方案地址如下,欢迎试用:https://cloud.baidu.com/solution/media/index.html

 精彩课程预告 

1 月 17 日~21 日每晚 20:15~21:30,飞桨联合百度智能云、百度研究院数十位高级工程师为大家带来直播分享,剖析行业痛点问题,深入解读产业级智能视频技术方案及体育、互联网、医疗、媒体等行业应用案例,并带来手把手项目实战。扫码或点击"阅读原文"进行报名,我们直播间不见不散~ 

扫码报名直播课,加入技术交流群



更多相关内容,请参阅以下内容:

官网地址:https://www.paddlepaddle.org.cn项目地址:GitHub: https://github.com/PaddlePaddle/PaddleVideo

发布于: 刚刚阅读数: 2
用户头像

百度大脑

关注

用科技让复杂的世界更简单 2020.07.15 加入

百度大脑是百度技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。 即刻获取百度AI相关技术,可访问 ai.baidu.com了解更多!

评论

发布
暂无评论
视频智能生产及内容分析应用工具开源了!​