写点什么

多模态 AI,敏感数据识别的终结者

作者:权说安全
  • 2025-07-14
    江苏
  • 本文字数:862 字

    阅读完需:约 3 分钟

多模态AI,敏感数据识别的终结者

某科技公司技术中心运营部晨会

 

安全主管老王:“兄弟们,持续一周的数据防泄漏演习中,客户名单轻易发送到了私人邮箱!财务的报销单截图在朋友圈晒了三天!法务的合同草稿居然出现在相亲相爱一家人的群里?!数据防泄漏任务艰巨啊,我们的技防手段还是存在明显的不足呀!”

 

部门众兄弟心中默到:“第 1024 次失败了...防不甚防啊,一周的加班毁于一旦,”

 

为啥敏感数据防不甚防?

数据量大

每天每人至少产生 GB 级别数据,随着用户数增加,相关关联、外部交换数据会出现激增。

文件格式多样

文字报告、财务表格、合同扫描件、会议录音、监控截图、聊天记录、设计图纸,文件格式多样,数据展示形态多样。

文件流转途径多

即时通信工具、电子邮件、USB 外设、视频拍照,交互越多,通道越多。

 

数据防泄漏的关键在于对于数据的敏感性识别,除了无限量使用人力做纯“人工智能”识别,有没有更好的方案来解决这个问题?当然有,多模态 AI 了解一下。

什么是多模态 AI?

通俗的说,让 AI 像人类一样综合运用五感来感知认识世界。

多模态 AI =视觉+文本+语音+跨模态理解*数据融合

举个简单的例子:



从这里例子我们可以看出,相较于单模态的识别,多模态 AI 的判断会更准确,从而提供更高的准确性。

 

简单的多模态 AI 识别系统架构如下图所示。



基本功能模块构成包括如下:

文本感知,通常使用 NLP 语义分析+正则分析技术,常用于合同条款、身份证号、密钥分析

图像感知,通常使用目标检测+OCR 透视眼技术,主要用于处理截图中的二维码、公章、表格数据

语音感知,通知通过声纹识别+关键词捕捉,可以用识别会议录音中的电话号码等

多模态决策引擎,通过对于感知模块数据进行综合判定来最终确认“这数据到底多敏感”。

 

主流架构对比


多模态 AI 可以用做什么?

误杀率下降

以前:把“交易金额:一块两毛五”识别成敏感数据(金额也是钱!严谨!)

现在:自动忽略小额转账截图(AI:呵,人类穷得如此安全...)

 

检出率提升

成功拦截《公司烧烤福利申请表》里隐藏的客户手机号(提交人:“我写调料偏好里也能被发现?!”)

 

最好的安全防护,不是让人类变成机器,而是让机器学会人类的幽默与温度。

用户头像

权说安全

关注

专注零信任、网络安全 2022-04-28 加入

公众号【江苏易安联】【易安联安全云】

评论

发布
暂无评论
多模态AI,敏感数据识别的终结者_AI_权说安全_InfoQ写作社区