技术前沿|ICML 2024 中稿快讯!解锁大模型密态推理场景下的“百变怪”?
导语:ICML 国际机器学习大会(International Conference on Machine Learning,简称 ICML)是机器学习领域最重要和最有影响力的学术会议之一,ICML 2024 于当地时间 7 月 21 日至 7 月 27 日正在奥地利维也纳召开。隐语团队论文《Ditto: Quantization-aware Secure Inference of Transformers upon MPC(量化感知的 Transformer 模型密态推理)》,在本次投稿中的 9,473 篇有效论文且接收率为 27.5%中脱颖而出,顺利中选。
该论文基于隐语开源的 Secretflow-SPU 框架,实现了量化感知的 Transformer 模型密态推理,保护了大模型推理过程中的模型参数及用户输入。隐语将为您带来最新技术干货分享,一起来关注!
Ditto:实现可量化感知的大模型密态推理
BY THE WAY!也许大家眼中的 Ditto 是《神奇宝贝》中的百变怪?但它现在同样也是是隐语团队针对大模型密态推理场景展开的一个创新研究工作:“Ditto can transform to different quantization settings.”取起百变之意,意指可以适配不同的量化计算设置。
Ditto 基于 Secretflow-SPU 框架实现了量化感知的 Transformer 模型密态推理,基于安全多方计算技术对大模型推理中的模型参数及用户输入提供可证安全保护。具体来说,Ditto 在先前隐语和蚂蚁技术研究院合作的工作 PUMA 基础之上(第一个支持 LLaMA-7B 模型密态推理的工作),受到明文场景中常用的量化技术的启发,Ditto 尝试将不同精度的量化运算应用在密态计算领域。然而,由于 cost model 的不同,简单地套用明文量化并不能带来显著的性能提升,甚至是负收益。
针对此问题,Ditto 采用了 layer-wise 静态量化方案,设计并实现了量化感知的编译器,能够自动地根据前端数据类型,执行不同精度的后端密态运算。此外,为了支持密态计算下的数据类型切换,Ditto 提出了相关安全多方计算算子的优化协议设计,能够以更高效率实现密态数据类型的切换,进而带来更优的密态推理性能。
我们在经典模型 Bert 和 GPT2 上进行了大量实验,实验结果表明,Ditto 可以在不显著降低模型可用性的情况下实现密态推理效率的提升,效率相较最新工作提升约 2~4 倍。
基于 隐语 SPU 打造,轻松实现明密文无缝切换
Ditto 得益于底层依赖的 Secretflow-SPU 框架,能够轻松地将前端机器学习代码(如 Jax、PyTorch 等)通过 Secretflow-SPU 进行桥接,直接从 Huggingface 导入训练好的模型,无缝地由明文推理切换到密态推理。
开发者既可以从前端机器学习侧,也可以从后端协议侧对整体应用性能进行优化!
学习文档:欢迎参考 SPU二次开发指北 进行尝试
GitHub 指路:https://github.com/secretflow/spu
此外,近期于 WAIC 现场发布的隐语云“大模型密算平台”,正是聚焦密算技术在 AI 大模型领域的创新实践,破解高质量数据供给及安全性的挑战,推进大模型在产业的深度应用。
Paper 解读直播预约
关于本篇论文的详细解读,将在 7 月 25 日「隐语 Live#13」线上直播中,与大家详细解读,欢迎预约直播~
隐语积极探索新一代隐私计算技术,研究大模型在实际应用中存在的隐私和安全问题。Ditto 是隐语在大模型密态推理过程中的重要尝试,欢迎产学研各界伙伴交流咨询!
👏 「隐语的小剧场」微信公众号后台回复「Ditto」,获取本篇论文及相关论文原文。
👏 欢迎添加隐语小助手微信(微信号:SecretFlow-04),进入隐语 Live 直播群,或咨询更多「大模型密算平台」相关信息。
评论