写点什么

全网招募 P 图高手!阿里巴巴持续训练鉴假 AI

作者:阿里技术
  • 2023-02-16
    浙江
  • 本文字数:2219 字

    阅读完需:约 7 分钟

全网招募P图高手!阿里巴巴持续训练鉴假AI

P 过的证件如何鉴定为真?三千万网友都晒出了与梅西的合影?图像编辑技术的普及让人人都能 P 图,但也带来“假图”识别难题,甚至是欺诈问题。


为此,阿里安全联合华中科技大学国家防伪工程中心、国际文档分析识别方向的唯一顶会 ICDAR 在天池平台举办截图篡改检测比赛,并开辟“寻找全网最厉害的 P 图高手”特别赛道,以此完善假图检测算法模型,提升假图检测准确率。

 

华中科技大学电子信息与通信学院副教授周瑜指出,证件信息、截屏信息等都是易受到恶意篡改的主要对象,对个人、社会产生了严重的安全威胁。被篡改的图片真假难辨,给业界提出了一个困难而意义重大的研究任务。


图说:“寻找全网最厉害的 P 图高手”特别赛道部分玩法介绍

 

生活场景中的痛点是这个比赛十分看重的。为此,阿里高级安全专家渡明介绍:“特别赛道旨在降低技术迭代的参与门槛,提高趣味性,并为专业赛道提供丰富的样本,因此我们将投稿比赛图片分为截图区、证件区和其他区,希望更贴近真实生活中可能遇到的 P 图诈骗场景,让训练 AI 的样本更真实,从而提升它的识别能力。”

 

华中科技大学电子信息与通信学院副教授周瑜则认为,与企业合作,从真实应用中提炼关键问题,并将问题融入到竞赛中,可以让贴近真实的篡改样本为学术界和工业界提供帮助,推动图像鉴伪技术的研究与应用。

 

对于想体验鉴假技术的大众,比赛开放“假图粉碎机”公众体验入口:通过上传一张图,让 AI 识别图像是否被篡改,并以热力图形式呈现识别可能被篡改的区域结果。

 

“假图粉碎机”是由阿里安全与澳门大学的研究人员研发,在 2022 年 6 月推出的技术,旨在提升网民的网络安全意识,包含了多项图像篡改检测技术。

 

据介绍,图像篡改检测技术对图像进行全方位的分析和统计,根据不同图像像素区域的特性,分析图像中各个区域是否被压缩、重采样、引入新特征像素等,通过对比分析,标记不同图像区域的差异点,从而找出图像被篡改的部分。

 

整套图像篡改检测系统会经过原图识别、内容篡改检测和内容篡改定位三个步骤,完成对图像是否为篡改图像以及哪里经过篡改的识别和判断。

 

在原图识别阶段,图像篡改检测系统会对图像的文件信息进行原始性判断。图像的修改与传输往往会在头文件信息上留下痕迹,因此进行原图识别的第一步需要对图像的头文件信息进行原始性判断。

 

例如图像头文件中存储着各类时间信息表,原始图像中的时间信息基本一致,而经过 PS 等软件篡改图像的时间信息可能出现矛盾,由此可以判断出图像在拍摄之后是否经过修改;此外部分非原始图像会出现实际尺寸与头文件记录尺寸不一致的情况,某些重压缩(图像修改之后通常会经过转存重压)会改变图像实际宽高,而有时头文件所记录的宽高并未进行修改,导致图像头文件中的尺寸信息矛盾。

 

在内容篡改检测阶段,图像篡改检测系统会对图像内容层面上有无经过修改进行检测。例如可以通过对图像的压缩特性、重采样痕迹进行检测,追溯图像的压缩另存历史和估计图像的缩放因子。

 

例如,图像修改或者转存都会使 JPG 图像经过二次压缩,通过检测图像是否有二次压缩痕迹即可判断图像是否经过修改或转存。二次压缩痕迹肉眼难以发现,而二次压缩的 DCT 系数,由于前后两次量化系数的差异,直方图会呈现的周期性变化。需要通过提取图像中的 DCT 系数统计特性,对二次压缩进行学习和分类。


图说:从左到右依次为原图、二次压缩图像、二次压缩 DCT 系数统计特性

 

另外,图像篡改检测系统还可以对图像局部物体边缘一致性和内容连续性进行统计分析,判断图像中的内容有无经过修改。

 

在内容篡改定位阶段,通过上一阶段的判断,图像篡改检测系统结合端到端的 AI 算法对图像内容和特征进行分析,进一步标记出图像哪些区域经过修改。


不同于原图识别,图像内容篡改检测和定位需要具有较高的鲁棒性。在实际场景中,进行内容篡改的操作往往五花八门,包括马赛克、区域拼接、复制-粘贴、擦除、添加文字等。需要检测的图像类型也多种多样,包括资质、证件、软件截图、商品图、门脸图等各类图像。此外图像篡改定位还需要在图像经过全局的后处理之后仍能将图像的内容改动检测出来。常见的后处理操作包括裁剪、缩放、重压缩、模糊、滤波、翻拍等。针对不同篡改操作,检测的手段也有所不同。以下是抹除类型的篡改示例。

 

以抹除篡改为例,图像抹除的区域通常会经过平滑处理,因此对篡改图像各个区域进行平滑特征提取,再通过像素变化的幅度、梯度等特征进行分析,以确定图像哪些区域存在篡改。常见的技术手段包括基于传统的图像处理方法检测,如差分、模板匹配、边缘检测等,以及基于深度学习的方法,如卷积神经网络(CNN)。其中,深度学习方法因其能够自动学习特征并适应多种篡改类型而备受关注。


图说:抹除文字类型篡改示例

 

图像篡改检测技术在当今数字化时代具有重要的应用价值。通过对图像内容层面、局部物体边缘一致性和内容连续性的检测分析,以及结合端到端的 AI 算法进行内容篡改定位,可以有效地识别和定位图像是否被篡改,保障图像内容的真实性和可信度。随着技术的不断发展和应用场景的不断扩大,图像篡改检测技术将持续优化和完善,为各行各业提供更加精准和可靠的图像信息防伪和篡改检测识别服务。

 

渡明表示,好技术一定要沿着社会真实需求出发,聚焦真问题,解决真问题。借助这样一场比赛,将参赛样本与比赛产生的优秀检测算法模型一起吸收进来改进算法,有助于帮助解决社会真实场景面临的问题。他强调:“打造负责任的好科技是阿里巴巴科技伦理治理的重要目标。”

 

附比赛地址:假图粉碎机挑战赛 (aliyun.com)

发布于: 刚刚阅读数: 3
用户头像

阿里技术

关注

专注分享阿里技术的丰富实践和前沿创新。 2022-05-24 加入

阿里技术的官方号,专注分享阿里技术的丰富实践、前沿洞察、技术创新、技术人成长经验。阿里技术,与技术人一起创造成长与成就。

评论

发布
暂无评论
全网招募P图高手!阿里巴巴持续训练鉴假AI_人工智能_阿里技术_InfoQ写作社区