哪类技术助力了隐私计算的工业化?如何“组装”发挥更大价值?
如果将隐私计算比作一台设计精巧的机器,那么它所包含的关键技术就好比是这台机器的零部件,而不同零件的选取和组合会带来不同的运转效果,对于关键零部件的优化和组合甚至会影响到这台机器的产量、生产速度和生产效率的变化。
近日,数牍科技的隐私计算专家单进勇、副总裁张迎春为大家带来了隐私计算关键技术与应用主题演讲。数牍君将两位专家的演讲内容进行了梳理,希望通过常见术语和通俗描述,帮助大家快速进了解隐私计算的世界,本次演讲将分为多篇幅在公众号持续推送。
在演讲的开始,单博士抛出了这样一个问题:“在数据生产要素化、政企数据融合的大方向下,怎么把数据用起来?”
“传统的数据协作,会把(多方)的数据放到一起来做建模,数据和模型一起出库。但数据以及模型计算的结果都是企业等数据拥有者的核心价值和利益。传统的解决方式,是将数据进行简单的“脱敏”,然而脱敏地越彻底,数据就越不精确、越不可用。”单博士表示。
那么,什么是隐私计算?
首先,从满足法律法规要求的角度讲,即数据方在不泄漏隐私数据的前提下,对数据进行计算并能验证计算结果的信息技术。
并且,单博士强调,隐私计算不是单一的技术,它是一项工程,是以数据生命周期为视角(从采集到销毁)进行的管理,主要讲到的四项技术有:多方安全计算、联邦学习、同态加密、差分隐私:
隐私计算的关键技术和主流应用有哪些?
目前来讲,隐私计算的主流应用有:隐私求交、联合统计分析、联合建模、数据匿名查询,涉及到的底层技术包括秘密共享、同态加密、不经意传输、多方基础运算。
隐私保护集合求交(Private Set Intersection, PSI):
单博士讲到,这是目前应用非常成熟,并且已经能达到工业化应用的技术。比如,A、B 两个公司分别有用户列表 A 和用户列表 B,如何既找到共同用户,又能保证各自用户数据的保密性呢?
现实中有个很好的例子就是黑名单的查询:当 A 金融机构有一份完整的“黑名单”用户,而这个用户准备要去 B 银行借款,银行希望知道这位新客户是否在 A 机构有过不良记录。通过隐私保护集合求交技术,B 银行发现这位用户是否在 A 机构并无不良记录,而且 A 机构并不知道银行前来查询的这位有着借钱需求的用户是谁。
另外一个场景是通讯录的匹配的访问保护,当我们注册完成一款 app 并勾选同意访问通讯录时,app 会提醒我们通讯录也有一些人在使用这款产品,如果使用隐私求交技术,大家通讯录中未注册 app 的用户将无法被 app 获取。
为什么说可以打造一个工业化的应用?
这里就要应用到 OT-Extension 技术,在工程优化后,该技术可以实现海量数据隐私求交,在双方都为 5 亿用户的数据量的情况下,只需通过 1 个多小时,就可以将交集的结果算出来。随着物联网+5G 技术的普及,这项技术的效率还将进一步提升。
联合统计分析(Conjoint Analysis):
关于此项技术,应用较多的是隐私数据探查和隐私统计运算。
在双方进行联合建模的过程时,单个 ID 下所包涵的特征可能就有成百上千个,再乘以成百上千个 ID 将带来极大的运算量,使用联合统计分析技术,在保护双方原始数据不泄露的前提下,通过 IV、相关性、WOE 等方法做出特征筛选,找出相关性高的特征或组合产生的衍生特征,在此过程中,也会用到隐私求交、非同态加密、分箱+同态运算等。
例如,某地政务数据中有很多的数据类型和特征,在与某地银行进行联合建模时,不可能做到全部选取进行模型训练。在双方数据不出库的前提下,从特征的筛查和摘取、相关性分析、再进行逻辑回归和结果评估,完成模型训练(联邦学习)和业务规则(隐私统计)的一套“组合动作”,在充分保障隐私的前提下,提升双方的执行效果。
3.匿名查询(Anonymous query):
在某一用户不在另一方(比如 C 机构)的集合中时,A 机构、B 机构等同时来向 C 机构查询某一用户,即便是 C 没有这位用户的信息,这样反而会让 C 机构得到这位用户的数据沉淀。使用匿名查询,查询方发送出随机加密的查询条件,在被查询方无法得知查询条件和查询结果的前提下,经过解密得到了查询结果。这样既保护了查询方的利益,也保护了用户隐私。
4.联邦学习(Federated Learning):
相对于多方安全计算的密码学概念,联邦学习是基于分布式机器学习发展而来,相比于传统数据学习在单机中的数据处理,使用联邦学习后,每方保留自己的底层数据,在加密形态的前提下共建模型联合预测,提升模型的效果。常用模型有:逻辑回归、评分卡、XGBoost、KMeans。
下面看一些比较底层技术:
1.多方基础运算(Multi-Party Computing):
联想到经典的“百万富翁”议题,在没有第三方“作证”的前提下,双方“富翁”可以进行去中心化的 MPC 运算,在不泄露自己具体财富的前提下“比比谁更富有”。多方基础运算支持任意的四则运算,其中加减乘都有现成的解决方案,而属于非线性运算的除法是非常困难的,单博士透露,数牍改进了除法,比起行业通用的算法提升了一个数量级,整体有了更好的效率和通用性。
2.秘密共享(Secret Sharing)
秘密共享是多方安全计算的“好搭档”, 两位百万富翁将自己的财富秘密以适当的方式拆分,拆分后的每一个“秘密碎片”由不同的节点管理,单个节点无法恢复秘密信息,只有若干个节点一同协作才能恢复秘密消息。
3.同态加密(Homomorphic encryption)
加密就是将消息或原始信息,用数学方法打乱,然后将其保存或传递给另一方,后者将使用另一种数学方法对信息进行解密并读取它。而同态加密就是一种无需对加密数据进行提前解密就可以执行计算的方法,并且可以直接在数据加密后进行运算,运算结果揭秘后与未加密数据运算结果相同。
4.不经意传输(Oblivious Transfer,OT)
不经意传输是指消息发送者从一些待发送的消息中发送一条给接收者,或者发送多条消息,事后接收者接受了哪一条信息发送者并不可知。在之前提到的隐私集合求交(PSI)中,就涉及到大量的 OT 运算。由 OT 的一种实施方式是基于公钥运算,而公钥运算的代价比较高昂,一次 OT 运算需要在发送方和接收方之间做多轮交互。
在实际的应用场景中,倘若每一次都使用原始的不经意传输协议来实现,效率是十分低下的,因此,不经意传输扩展(OT Extension)协议的目的是通过执行固定次数的不经意协议,实现任意数量的不经意传输,运算变得非常快,也非常实用。因此,单博士表示,目前 PSI 基本可以达到工业级的使用,现在的应用非常广泛。
在演讲的最后,单博士介绍了数牍完全自主研发的隐私计算产品 Tusita,“计算分布式,控制有中心”的产品技术路线可以在保障原始数据不出库的前提下完成多方复杂运算,在架构设计层面具备更强的中立性,控制中心的设置能够实现对任务和数据传输的完整实时监管,更符合国家的数据安全和协作管理趋势;
在计算效率和通信成本方面,产品支持亿级数据联邦学习建模,在高并发、高实时性环境中,具备毫秒级响应能力并满足多种复杂场景的业务需求;在安全方面,产品能够提供全面且可工程验证的安全性保障;在易用性方面,完整的可视化支持与针对不同的行业应用场景基础模型(例如黑名单查询、评分卡等)大幅降低客户方使用门槛和落地成本;同时,平台充分考虑了同数据中台、AI 中台、区块链等平台的对接,降低各类数据协作主体的接入成本。 单博士表示,我们期待 Tusita 所具有的生态支撑能力衍生出更广泛的应用场景。(演讲来源 : 单进勇,整理编辑:千合、晶晶,更多关于隐私计算的干货文章,请关注微信公众号:数牍科技 )
评论