让 AI 在密文中奔跑:密流智能模型安全推理框架解密

当医疗 AI 遇上隐私困境
想象这样一个场景:一位患者需要进行血常规检查,医院将血液样本的显微图像上传到云端 AI 平台,几秒钟后,系统自动识别并计数出红细胞、白细胞和血小板的数量,辅助医生快速完成诊断。这样的智能医疗服务听起来很美好,但背后却隐藏着一个棘手的问题——患者的血液图像数据暴露在了云端服务器上。
这不是危言耸听。在当今 AI 技术飞速发展的时代,从 ChatGPT、Claude 这样的大语言模型,到医疗影像识别、人脸识别等计算机视觉应用,云端模型推理服务(PaaS)已经成为主流。然而,这种"数据上云、模型计算"的模式,正面临着严峻的双向隐私泄露风险:
- 用户的数据隐私面临威胁:医疗影像、人脸照片、语音输入……这些数据一旦上传到服务器,就完全暴露在服务提供方面前。
- 服务商的模型知识产权也不安全:如果让用户本地执行推理,就必须把训练好的模型参数发送给用户,这意味着模型的商业价值和训练数据的隐私都可能泄露。
这是一个两难困境:保护用户数据隐私和保护模型知识产权,这两个目标似乎无法同时满足。正是这一矛盾,成为 AI 技术在医疗、金融、安防等敏感领域大规模落地的最大瓶颈。
破局之道:让模型在"看不见"的数据上工作
那么,有没有办法让 AI 模型在"完全看不见"用户数据的情况下完成推理?答案是肯定的,这就是模型安全推理技术。
目前主流的基于密文计算的技术路线主要有两种:
1. 全同态加密(FHE):这是一种神奇的加密技术,可以直接在加密数据上进行计算,解密后的结果等同于在明文数据上计算的结果。用户只需将加密后的数据发送给服务器,服务器在密文上完成所有计算后,将加密结果返回,用户解密即可得到推理结果。整个过程无需任何交互,服务器始终"看不到"用户的真实数据。
2. 多方安全计算(MPC):通过"秘密分享"等协议,让客户端和服务器双方协同计算,每一方都只掌握数据的一部分"碎片",谁也无法单独还原出完整信息。这种方式对非线性计算(如 ReLU 激活函数、最大池化)支持较好,但需要多轮网络交互。
听起来很完美?实际上,这些技术都面临着巨大的性能开销——相比明文推理,加密推理的计算时间或通信开销可能增加几个数量级。同时,如何自动、便捷地将现有 AI 模型转换为支持加密推理的版本,也是一个技术难题。
我们的密文推理框架正是为了解决这些挑战而生。
接下来,让我们以一个真实案例——血细胞检测——为主线,看看这套模型安全推理框架是如何一步步将医疗 AI 模型转化为隐私安全的加密推理服务的。
案例背景:血细胞检测
血细胞计数检测(BCCD)是医学诊断中的常规检查项目,需要对血液样本中的红细胞、白细胞和血小板进行自动识别、分类和计数。我们使用的是轻量级目标检测模型 YOLOv5n(仅 1.9M 参数),在 BCCD 数据集上,明文模型的检测精度达到了 92.2% mAP@0.5。
现在的问题是:如何在不泄露患者血液图像隐私的前提下,让这个 AI 模型在云端完成推理?
这就需要将这个明文模型转换为支持密文计算的版本。整个流程涉及两个核心环节:
1. 模型编译及重训练
1)编译:通过编译器替换部分或全部不适合加密计算的非线性算子(如 ReLU 激活函数),插入密文刷新节点,生成最优的密文计算图。
2)重训练:训练替换非线性算子后的模型,以恢复替换前精度。
2. 加密推理部署
客户端加密图像,服务器在密文上执行推理,返回加密结果供客户端解密。
在深入这两个环节之前,我们需要先理解一个关键问题:为什么在加密数据上做 AI 推理这么难?
密文上的"三座大山":FHE+深度神经网络的技术挑战
如果你觉得"在加密数据上做计算"听起来很酷,那么现实会告诉你——这件事远比想象中复杂。全同态加密(FHE)虽然理论上可以支持密文计算,但要让它高效地运行神经网络推理,需要跨越三座"技术大山"。
挑战一:如何高效地"打包"和"并行"?
你可能听说过 SIMD(单指令多数据)这个概念——一条指令同时处理多个数据,这正是现代处理器加速计算的核心武器。在 CKKS 全同态加密方案中,一个密文可以"打包"数千甚至数万个数据(比如图像的像素值),一次加法或乘法操作就能同时处理所有数据,这听起来很美好。
但问题来了:
1. 密文槽位浪费问题:比如 32×32 的 CIFAR-10 图像,每个通道只有 1024 个像素,可以装进一个密文的"槽位"里。如果遇到带 stride 的卷积或池化(stride > 1),输出图像的元素在密文中会存在间隔,这些间隔用零值填充,造成密文槽位的极大浪费。这是因为 CKKS 密文的同态运算只能通过旋转操作来整体平移元素,无法灵活重排。
2. 高分辨率图像的卷积密文计算问题:我们的血细胞检测任务用的是 512×512 的高分辨率图像,每个通道有 26 万多个像素!这远超一个密文能容纳的范围。只能把一个通道"拆散"打包到多个密文里。这时候,卷积操作就变得十分复杂——卷积核在图像上滑动时,会跨越多个密文的边界,需要在不同密文之间做复杂的数据重组和同步。
我们的解决方案:广义交错打包(GIP)方案及配套设计的一系列保 GIP 格式的密文计算算子
我们提出了广义交错打包(GIP)方案,核心思想是引入通道打包因子 g,由图像分辨率与基础打包尺寸(不超过密文容量)的比例关系定义。广义交错打包方案根据通道打包因子自适应地选定打包格式:
g > 1:高分辨率图像,一个通道分解为 g² 个交错排列的子通道,分别打包到多个密文。
g = 1:分辨率适中,一个通道恰好装进一个密文。
g < 1:分辨率较低,一个密文打包多个通道,这些通道以交错方式在密文槽中排列。
配套地,我们设计了一系列保持 GIP 结构的高效密文计算算子(卷积、池化、上采样等),从而很好地兼容了模型前向传播中图像分辨率的变化。这样一来,执行 stride > 1 的卷积密文计算算子时,该算子输出多通道穿插打包的密文结果(对应以上 g < 1 的打包格式),完全避免了槽位浪费。此外,我们提出的大尺寸卷积密文计算算子以通过输入子通道及相应卷积核的密文计算来得到输出子通道的密文,从而实现了高分辨率图像的高效卷积密文计算。
挑战二:密文什么时候"刷新"最划算?
在全同态加密中,每个密文都有一个"等级(Level)"。每次做乘法操作,等级就会下降 1 级;当等级降到 0 时,密文就无法再进行乘法。
神经网络有很多层,每一层都会消耗等级:
卷积层:消耗 1-2 级
激活函数(多项式近似):消耗 1-3 级
全连接层:消耗 1 级
因此,必须在密文等级为 0 时"刷新"密文,恢复它的等级。
核心难题:在哪里插入刷新节点,完整计算图的计算开销或通信开销最小?
我们的解决方案:设计了智能编译器,通过搜索算法自动探索不同的刷新策略组合,找到最优的插入位置和方式,确保整个推理过程既准确又高效。
挑战三:神经网络的"非线性关卡"怎么过?
神经网络的非线性操作(ReLU 激活函数等)让模型能够拟合复杂的函数。但问题是,全同态加密只原生支持加法和乘法,无法直接计算 ReLU、指数函数、比较大小这些操作。
有两条路可以走:
路线 1:用多项式"模拟"非线性函数
比如用一个 2 次或 4 次多项式来近似 ReLU 函数
好处:纯 FHE 计算,无需交互,速度快
坏处:近似有误差,模型精度会下降
路线 2:用 MPC 协议精确计算
将密文转为秘密分享状态,客户端和服务器协同完成 ReLU 等非线性层
好处:精度几乎无损
坏处:需要频繁交互,通信开销大
我们的解决方案:
1. 混合策略:编译器自动决定哪些激活层用 MPC 精确计算,哪些用多项式近似,平衡精度和效率
2. 单阶段微调技术:提出创新的激活函数替换模块,只需少量训练轮次就能让模型适应多项式激活函数,恢复替换前精度。对于 YOLOv5n 血细胞检测任务,替换所有激活函数并重训练后,精度仅损失 0.2 个百分点(从 92.2%降到 92.0%),几乎可以忽略不计。
小结:这三座"大山"——高效并行打包、智能密文刷新、非线性函数处理——构成了 FHE 神经网络推理的核心技术壁垒。我们的框架通过广义交错打包、智能编译优化和单阶段微调技术,为这些难题提供了系统化的解决方案。
解决这三座"大山"后,我们就可以完整地走通从明文模型到加密推理服务的全流程了。接下来,让我们回到血细胞检测案例,看看这套框架如何一步步落地。
实战:YOLOv5n 血细胞检测的加密推理之旅
现在,让我们跟随一个 512×512 像素的血液样本图像,看看它如何从明文数据变成加密密文,又如何在服务器"看不见"的情况下完成 AI 检测。
第一站:智能编译——从 PyTorch 到密文计算图
输入:YOLOv5n 明文 PyTorch 模型结构
目标:生成一个支持单阶段微调的明文模型结构及其相应的支持加密推理的密文模型结构
编译器的工作流程:
1. 模型解析:编译器首先读取 YOLOv5n 的网络结构,识别出:60 多个卷积层,60 多个 SiLU 激活函数,若干个最大池化层、拼接层、上采样层等
2. 计算图生成:将模型的前向推理过程转换为有向无环图(DAG),每个计算层对应一个计算节点,计算层的输入或输出对应一个数据节点,数据流对应边。
3. 智能搜索最优方案:编译器自动搜索不同的替换非线性算子的方案,并统计不同方案的计算开销或通信开销,得出最优方案。
4. 输出文件:
替换部分或全部非线性层的明文计算图结构文件
替换后的明文计算图结构文件对应的密文计算图结构文件(包括 Bootstrapping 或 MPC 密文刷新节点)
CKKS 参数配置文件(N=16384, 初始等级=9 等)
关键价值:AI 工程师只需一行命令,无需手动调参,编译器自动输出最优方案。
第二站:单阶段微调——让模型适应"多项式激活"
输入:
编译器输出的替换部分或全部非线性层的明文计算图结构文件
预训练的未替换非线性层的基线模型
输出
模型参数文件
微调过程:
根据明文计算图结构文件使用多项式激活函数替换基线模型的部分或全部非线性层
以基线模型为起点,训练替换非线性层后的模型至收敛
微调结果:
明文基线模型:92.2% mAP@0.5
微调替换非线性层后的模型:92.0% mAP@0.5
- 精度损失仅 0.2 个百分点!
关键价值:相比传统重训练方法,训练时间大幅缩短,精度损失低,近似多项式阶数低,从而后续密文推理延迟低。
第三站:加密推理部署——密文上的目标检测
微调完成后,我们得到了一个"加密就绪"的 YOLOv5n 模型。现在开始部署加密推理服务。
服务端部署
1. 模型初始化
加载密文计算图结构
将模型参数编码为 CKKS 明文多项式(预处理,提升在线推理速度)
初始化各类精心设计的密文计算算子(卷积、池化、激活等)
2. 等待客户端请
客户端操作
场景:某医院需要对一张血液样本图像进行自动检测
密钥生成:客户端生成 CKKS 公钥-私钥对,私钥自己保管
图像加密:将 512×512×3 的血液图像按照 GIP 方案打包加密
发送请求:将密文和公钥一起发送给服务器
服务端加密推理
服务器收到密文和公钥后,执行完整的密文计算图,全程看不到明文。
推理时间:
FHE 计算时间:116 秒 (16 线程 CPU)
MPC 交互时间:116.6 秒
总延迟:232.6 秒(约 4 分钟)
客户端解密
服务器将加密的检测结果发回客户端。
客户端用私钥解密,得到:1)检测到 12 个红细胞,坐标为[(x1,y1,w1,h1), ...];2)检测到 3 个白细胞,坐标为[...];3)检测到 5 个血小板,坐标为[...]。
可视化:在原始图像上绘制检测框。
全程隐私保护:
服务器从未看到过血液图像的明文
服务器不知道检测结果是什么
客户端没有获得模型参数
双向隐私保护达成!
性能提升空间
当前的 4 分钟延迟是在 16 线程 CPU 上的表现。如果使用 FPGA 或 GPU 硬件加速器,FHE 计算时间预期可以从 116 秒压缩到约 10 秒以内(10 倍以上加速),实用性大幅提升。
小结:通过"编译→微调→推理"三步走,我们成功将一个明文 YOLOv5n 模型转换为支持加密推理的版本,精度损失可忽略不计,延迟在可接受范围内,真正实现了在隐私保护前提下的医疗 AI 应用。
其他应用场景
图像分类(CIFAR-10 数据集)
任务:将 32×32 小图像分类到 10 个类别(飞机、汽车、猫等)
模型:MobileNetv1(4.2M 参数)
性能表现:
明文基线精度:90.9%
安全推理模型精度:91.5%(甚至略有提升!)
FHE 计算时间(FPGA 加速):1.2 秒
MPC 交互时间:2.1 秒
总延迟:3.3 秒
通信量:51.4MB
应用价值:低分辨率图像的加密推理速度极快,适合边缘计算和实时推理场景。
大规模图像分类(ImageNet 数据集)
任务:将 224×224 图像分类到 1000 个类别(ImageNet 是计算机视觉领域的"黄金标准"数据集)
模型:MobileNetv2(3.5M 参数)
性能表现(FHE-Bootstrapping 模式,16 线程 CPU):
明文基线精度:71.8%
加密推理精度:70.1%(损失 1.7%)
FHE 计算时间:1257.0 秒
硬件加速潜力:
使用 FPGA 等硬件加速器,预计可将推理时间压缩至数十秒级别(约两个数量级加速)
应用价值:证明了框架在大规模、高分辨率、复杂分类任务上的可行性。
总结:隐私保护 AI 的未来已来
回到最初的问题:如何让 AI 在"看不见"数据的情况下工作?
通过这篇文章,我们看到了答案:
1. 技术可行:全同态加密+神经网络的结合,已经从理论走向实践。通过广义交错打包、智能编译优化、单阶段微调等创新技术,我们突破了高分辨率图像加密推理、密文刷新优化、激活函数替换等核心难题。
2. 精度保障:在多个任务上,安全推理模型的精度与明文模型相差无几(损失 0.2%-1.7%),完全满足实际应用需求。
3. 性能提升:结合 FPGA 等硬件加速器,密文计算延迟可降至数秒或数十秒,实用性大幅提升。
4. 自动化工具链:从模型编译、重训练到部署,全流程自动化,AI 工程师无需密码学背景即可上手。
5. 广泛适用:支持 ResNet、MobileNet、YOLO、U-Net 等主流网络架构,覆盖图像分类、目标检测、图像分割等多种任务。
真实应用价值
这套框架的意义,不仅在于技术突破,更在于解锁了 AI 在敏感领域的应用潜力:
医疗健康:患者的医学影像、基因数据可以在完全加密的状态下进行 AI 辅助诊断,医院无需担心隐私泄露风险,云端 AI 服务商也无法窃取或滥用数据。
金融风控:用户的交易记录、信用信息可以在加密状态下进行风险评估和欺诈检测。
智能安防:监控视频中的人脸识别可以在加密状态下完成,避免海量人脸数据泄露和滥用。
工业质检:企业的生产线图像可以在加密状态下进行缺陷检测,保护商业机密。
未来展望
当然,加密推理技术仍在快速发展中:
更高的性能:随着 FHE 算法优化、专用硬件(ASIC、FPGA)的成熟,推理延迟有望进一步降低。
更丰富的模型支持:从图像扩展到自然语言处理、语音识别、推荐系统等更多领域。
更灵活的部署模式:支持边缘计算等多种场景。
最后,让我们期待这样一个未来:AI 技术的强大能力与个人隐私保护不再是对立的矛盾体,而是和谐共存的双赢局面。用户可以安心地享受 AI 带来的便利,而不必担心自己的隐私被侵犯;企业可以放心地使用云端 AI 服务,而不必担心商业机密泄露。
隐私保护的 AI 时代,正在到来。
参考资料
关于本框架的技术细节,请参阅完整技术白皮书。
本文基于公开发表的技术白皮书撰写,旨在科普全同态加密神经网络推理技术的核心原理和应用价值。
在线演示
想亲身体验加密推理的神奇之处?欢迎访问我们的 演示Demos,感受隐私保护 AI 的实际效果。
关于我们
密流智能科技(深圳)有限公司是一家总部位于深圳的科技创新企业,专注于全同态加密(FHE)技术领域的产品和服务供应商。公司秉承“保障数据安全,激活数据资产价值”的使命,致力于全同态加密技术的自主研发与场景化落地研究。通过底层算法革新及工程化实践,密流智能推动全同态密文计算从理论迈向产业规模化应用。未来,密流智能将继续深耕全同态加密计算技术,推动全球密文计算技术从理论走向规模化应用,致力于成为全同态加密领域具有国际竞争力的领导品牌。
版权声明: 本文为 InfoQ 作者【密流智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/b5b021c2d7581ca54c0a72cb7】。文章转载请联系作者。







评论