多模态 AI，敏感数据识别的终结者

某科技公司技术中心运营部晨会

安全主管老王：“兄弟们，持续一周的数据防泄漏演习中，客户名单轻易发送到了私人邮箱！财务的报销单截图在朋友圈晒了三天！法务的合同草稿居然出现在相亲相爱一家人的群里？！数据防泄漏任务艰巨啊，我们的技防手段还是存在明显的不足呀！”

部门众兄弟心中默到：“第 1024 次失败了...防不甚防啊，一周的加班毁于一旦，”

数据量大

每天每人至少产生 GB 级别数据，随着用户数增加，相关关联、外部交换数据会出现激增。

文件格式多样

文字报告、财务表格、合同扫描件、会议录音、监控截图、聊天记录、设计图纸，文件格式多样，数据展示形态多样。

文件流转途径多

即时通信工具、电子邮件、USB 外设、视频拍照，交互越多，通道越多。

数据防泄漏的关键在于对于数据的敏感性识别，除了无限量使用人力做纯“人工智能”识别，有没有更好的方案来解决这个问题？当然有，多模态 AI 了解一下。

通俗的说，让 AI 像人类一样综合运用五感来感知认识世界。

多模态 AI =视觉+文本+语音+跨模态理解*数据融合

举个简单的例子：

从这里例子我们可以看出，相较于单模态的识别，多模态 AI 的判断会更准确，从而提供更高的准确性。

简单的多模态 AI 识别系统架构如下图所示。

基本功能模块构成包括如下：

文本感知，通常使用 NLP 语义分析+正则分析技术，常用于合同条款、身份证号、密钥分析

图像感知，通常使用目标检测+OCR 透视眼技术，主要用于处理截图中的二维码、公章、表格数据

语音感知，通知通过声纹识别+关键词捕捉，可以用识别会议录音中的电话号码等

多模态决策引擎，通过对于感知模块数据进行综合判定来最终确认“这数据到底多敏感”。

误杀率下降

以前：把“交易金额：一块两毛五”识别成敏感数据（金额也是钱！严谨！）

现在：自动忽略小额转账截图（AI：呵，人类穷得如此安全...）

检出率提升

成功拦截《公司烧烤福利申请表》里隐藏的客户手机号（提交人：“我写调料偏好里也能被发现？！”）

最好的安全防护，不是让人类变成机器，而是让机器学会人类的幽默与温度。

发布于: 36 分钟前阅读数: 2

关注

专注零信任、网络安全 2022-04-28 加入

公众号【江苏易安联】【易安联安全云】

发布

暂无评论

评论