【2024 丨 CSIG 青年科学家会议 AI 可信论坛】视觉内容安全技术的前沿进展与应用
# 引言
近日,“第二十届中国图象图形学学会青年科学家会议”在杭州白金汉爵大酒店举行。本次会议由中国图象图形学学会主办,浙江大学计算机科学与技术学院、浙江大学计算机辅助设计与图形系统全国重点实验室、杭州全息智能技术研究院、中国图象图形学学会青年工作委员会等单位联合承办。
会议聚焦于图象图形领域前沿和热点,涵盖重要的研究领域和研究方向,旨在搭建一个学术交流与研讨平台,为图像图形领域的优秀青年学者提供支持,同时促进学术界与工业界的深度对话和合作。会议目前已被列入中国科协的重要会议指南。
会上,合合信息图像算法研发总监郭丰俊 在 AI 可信论坛 为我们带来了主题为“视觉内容安全技术的前沿进展与应用”的分享,主要介绍了视觉内容安全的发展现状、技术趋势以及相关应用情况。
1. 视觉内容安全发展现状
1.1 视觉安全需求增多
AI 技术导致伪造更容易:随着 AI 技术的快速发展,图像和视频伪造变得更加容易,Deepfake 等技术可以生成高度逼真的伪造人脸视频,给社会安全和个人隐私带来巨大威胁。
黑灰产引起社会问题:伪造图像和视频的滥用,如制作虚假新闻、进行网络诈骗等,已引发了一系列社会问题,对社会秩序和公共利益造成严重影响。
企业/政府刚性需求:企业和政府对于视觉内容安全的需求日益增加,特别是在金融、保险、政务等领域,需要确保图像和视频的真实性、完整性和可信度。
1.2 视觉内容安全技术分类
实时检测技术:如英特尔实验室的 FakeCatcher,通过人脸检测和分析、活体检测等技术,实现对伪造人脸视频的实时检测。
图像识别与分析技术:如微软 Azure AI Face X-Ray 和亚马逊 Amazon Rekogniton,能够自动执行图像识别和视频分析,检测图像和视频中潜在的不安全、不适宜或有害内容。
伪造检测与鉴别技术:如合合信息的 AI 安全方案,支持常见卡证伪造检测,以及 AIGC 人物、AIGC 文生图、AI 换脸、PS 篡改等检测,为视觉内容安全提供全方位保障。
1.3 企业产品与应用案例
企业产品
英特尔实验室 FakeCatcher:提供人脸检测和分析、活体检测等功能,有效鉴别伪造人脸。 微软 Azure AI FaceX-Ray:自动执行图像识别和视频分析,检测潜在的不安全、不适宜或有害内容。 亚马逊 Amazon 合合信息:率先发布篡改检测平台,支持定位篡改区域,广泛应用于卡证、票据等场景。
应用案例
合合信息-AI 安全:国内首个大模型安全一体化方案,已应用于证券、保险、银行等行业,实现了对证照、证书、票据等通用类 PS 检测模型的落地应用。
文档图像篡改检测比赛:近年来,文档图像篡改检测比赛层出不穷,如 2022 年的真实场景篡改图像检测挑战赛、2023 年的 ICDAR DTT 比赛等,吸引了大量参赛队伍,推动了视觉内容安全技术的发展。
2. 视觉内容安全技术趋势
2.1 主要需求方向
人脸伪造图像篡改:包括照片活化、AI 换脸、局部替换等伪造手段,以及身份证照造假、业务合同造假等攻击场景。
声纹伪造:包括语音合成、语音转换、对抗攻击、重放攻击等伪造手段,以及电话银行欺诈、APP 资金划拨、伪造身份骗贷等攻击场景。
郭丰俊认为,结合生成式人工智能和多模态技术的发展,大模型的应用潜力将得到进一步挖掘。ForgeryGPT 等大模型的成功实践表明,未来的内容安全技术不仅可以精准检测和定位伪造内容,还能通过解释性分析报告提升用户的决策能力。这种技术转型将为企业安全管理提供更多的高效解决方案。
2.2 现有挑战与应对策略
易受攻击:如缩放、传输过程可能导致性能下降,需要优化算法和模型结构,提高算法的鲁棒性和适应性。
泛化能力待提高:在特定场景和数据集上表现优异,但面对未知的伪造手段或多样化的应用场景时,常常无法保持较高的检测精度。需要通过数据增强、迁移学习等技术提高模型的泛化能力。
伪造手段变化快:伪造手段的不断变化和升级给视觉内容安全技术带来了巨大挑战。需要持续跟踪伪造技术的发展动态,及时更新和优化算法模型。
数据获取与标注成本高昂:高质量标注数据的获取和标注成本高昂,且涉及隐私保护等问题。需要通过合成数据、无监督学习等技术降低数据获取和标注成本。
2.3 基于大模型技术的技术探索
准确率高潜力:大模型可利用多模态信息,提高视觉内容安全技术的准确率。
使用便利:多场景、类别用一个系统,简化了使用流程,提高了效率。
泛化能力优:大模型在处理未见过新类别时,性能下降较少,具有更强的泛化能力。
便于知识注入:大模型可通过交互注入知识,优化结果,提高算法的灵活性和可定制性。
ForgeryGPT:伪造图像检测开始借助大模型能力,通过小模型确定篡改位置后,将结果提示给大模型,利用大模型自然语言解释异常区域,实现了对伪造图像的可解释性检测。
3. 应用情况与前景
Ⅰ.当前应用情况
金融领域:在金融领域,视觉内容安全技术已广泛应用于身份认证、业务合同审核等方面,用于有效防范金融欺诈和非法行为。
政务领域:政务领域比如像视觉内容安全技术,如证照核验、公文防伪等,提高了政务服务的效率和公信力。
其他领域:目前,视觉内容安全技术还广泛应用于媒体、电商、教育等领域,为各行业的数字化转型和智能化升级提供了有力支持。
随着技术的不断进步和市场的不断扩大,视觉内容安全技术将迎来更加广阔的发展空间和更加深入的应用场景。
目前,合合信息技术团队依托先进的深度学习技术和数据驱动的神经网络模型,研发出了领先行业水平的图像篡改检测解决方案。考虑到伪造和篡改的技术也在快速更新,合合信息提出了基于小样本在线增量学习的篡改检测模型,以快速响应客户需求,融合空域与频域关系、知识蒸馏和教师-学生网络等方法提升 CNN Tamper Detector 性能,检测 RGB 域和噪声域存在痕迹的篡改,能够在像素级识别证件、票据等各类重要的商业材料中的 PS 痕迹。
不法分子通过伪造、变造车辆登记证、行驶证号牌号码、发动机号码等的方式实施合同诈骗,从中牟利,给相关企业造成了高额的经济损失。
合合信息图像篡改检测技术能够捕捉图像在篡改过程中留下的细微痕迹,在保持极低误检率的同时,准确识别并定位图片中文本的篡改行为;面对生成式图像造假,合合信息图像篡改检测技术可基于空域与频域关系建模,利用多维度特征以鉴别图像是否由 AI 生成,并给出相应的警告或提示。
现阶段,合合信息图像篡改检测技术已被应用于卡证篡改检测中,不仅在驾驶证、行驶证检测中实现了良好的鉴伪效果,也在银行移动开户、信用卡申办、保险理赔,财务报销审批及其他商业消费场景中广泛落地,为机构、企业规避图像伪造带来的经济风险。
Ⅱ.未来前景展望
随着人工智能、大数据等技术的不断发展,视觉内容安全技术将不断取得新的突破和进展,算法模型将更加高效、准确和智能。合合信息将继续深耕图像篡改检测领域,推动技术创新与应用落地,为构建更加安全、可信的数字世界贡献力量。同时,合合信息也将积极参与行业标准的制定与推广工作,携手业界同仁共同推动 AI 产业的繁荣发展。
4. 合合信息介绍
合合信息是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C 端和 B 端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。
合合信息的主要产品包括扫描全能王、名片全能王和启信宝等,广泛应用于文档管理、商务社交和企业信息查询等领域。公司荣获了多项国内外发明专利和顶级 AI 竞赛世界冠军,被评为上海市“科技小巨人企业”,并积极参与了国家标准和行业标准的制定工作。
总结
视觉内容安全技术作为保障图像和视频真实性、完整性和可信度的重要手段,在各个领域发挥着越来越重要的作用。随着技术的不断进步和市场的不断扩大,视觉内容安全技术将迎来更加广阔的发展前景。
未来,合合信息将继续加强技术研发和创新,提高算法的准确性和泛化能力,推动视觉内容安全技术的广泛应用和落地实施。同时加强合作和联动,共同构建视觉内容安全生态体系,为社会的和谐稳定和数字化转型提供有力保障。
评论