让 AI 发展避开“暗礁”,索信达控股推出自研区块链 + 联邦学习解决方案
近日,索信达控股有限公司(简称:索信达控股,03680.HK)面向金融行业推出自主研发的企业级联邦学习解决方案,采用区块链技术,在满足数据隐私安全和监管要求的前提下,让人工智能系统更加高效准确地共同使用各自数据的机器学习框架,助力金融客户实现更高效、安全和精准的模型训练。
本文作者:索信达 AI 创新中心邵俊博士
索信达控股 AI 创新中心科学家邵俊博士介绍,AI 技术在金融行业应用落地的过程中面临着两大瓶颈:一方面,金融客户拥有的数据难以聚沙成塔取长补短,数据孤岛现象普遍存在;另一方面,金融监管机构对数据隐私与安全问题日益重视。而“联邦学习”作为加密的分布式机器学习范式,可以实现各方在不公开各自数据集的情形下,协同完成模型训练,从而避开 AI 应用落地面临的“暗礁”险阻,为解决 AI 落地困境提供了更多可能性。
例如在银行风控场景中,各家银行拥有不同的客户样本数据。由于各家拥有的数据量有限,如果仅仅基于自身的数据来训练模型,受样本规模的限制,模型效果难以达到预期。如果能将各家数据聚合来训练,则可以大幅提升模型精度。然而出于机构间的竞争以及对数据隐私的监管要求,银行不可能将自身的客户数据向任何第三方发布,直接将各家数据聚合到一起建模是行不通的。因此,联邦学习技术应运而生,让金融机构在不泄露自身原始数据的情形下,共同训练机器学习模型提供了可能。除此之外,在银行营销环节,亦可运用联邦学习,结合海量数据和算法,精准触达目标客户群体,优化广告效果,同时降低获客成本,可广泛应用于贷款、信用卡、保险等场景;通过存量客户经营、高效触达高价值客户、唤醒沉睡客户等,达到对客户全生命周期的管理以及价值的深挖。
根据交易方拥有的数据,联邦学习一般可分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习指的是参与方拥有的用户数据具有近乎相同的特征,而几乎完全不同的样本;纵向联邦学习指的是参与方拥有几乎相同的用户群体,而拥有近乎完全不同的特征;联邦迁移学习指的是用户群体和用户特征都近乎完全不同的场景。下图展示了横向联邦学习的数据融合场景。
以银行欺诈客户识别问题结合横向联邦学习的场景为例,模型需要通过构建逻辑回归模型来识别银行用户是否为欺诈用户。模型训练的最终目的是需要找到合适的参数,使得总损失函数最小。通常会使用梯度下降方法来更新模型参数,即在给定了模型初始参数后,通过梯度信息一步步更新参数,直到损失函数的值达到最小。通过联邦学习,参与方之间不需要共享原始数据,而只需要基于自身数据建模,并将梯度信息传送出去,通过各家梯度信息更新参数即可完成模型训练。传统的联邦学习方案中会有一个协调方来负责收集各个参与方的梯度并进行汇总,再将汇总后的结果分发给各个节点。但是这样的方案有以下几个弊端:
1.中心依赖
成员间的协作非常依赖这个协调方(中心节点),一旦中心节点出现故障,或者中心节点出现恶意行为,将对整体的协同训练造成阻碍;
2.激励不足
数据体量小的机构往往对参与联邦学习有非常浓厚的兴趣,而那些本身数据体量大的机构则往往没有足够的动力投入到联邦学习中,因为参与联邦学习对于前者有较大的收益,而对后者而言收益甚微。出于投入产出比以及行业竞争考虑,大机构往往没有意愿加入到协同训练,导致联邦学习的生态无法良好的建立起来;
3.单点欺诈
基于 2 中的考虑,联邦生态会允许各参与方申报数据量、数据成本和数据收益等信息,根据各方对模型的使用情况收取相对应的费用,并依据各方对生态的贡献将收益进行分配,以激励大机构参与到联邦学习中。然而,对任何参与方以上信息的真伪都无法公开验证,参与方之间存在着信息不对称。在没有合理机制设计的情形下,各方都存在虚报自身数据信息的动机,通过报高数据体量、报高数据使用成本、报低数据收益等方式来使得自身利益最大化,而损害其他参与方的利益,导致合作失败;
4.隐私泄露
虽然各个参与方仅仅交换梯度信息,不会将自身的原始数据对外暴露,然而仅仅依据公开的梯度更新过程,仍然存在被反推出原始数据的风险。
下面我们来看看如何使用区块链技术巧妙解决联邦学习中遇到的以上痛点。
在这之前,我们先回顾一下什么是区块链技术?在当前社会,人们如果要完成一笔转账支付,是需要通过一个第三方机构-银行才可以实现的。银行依托国家信用作为背书,管理我们的账本,记录我们的交易,在交易时对双方的身份进行确认,并根据交易信息对双方账号的余额进行修改,完成交易结算。
2008 年一位化名中本聪的神秘人发布了《比特币白皮书-一种点对点的电子现金系统》,在白皮书中,设计了一种不需要任何第三方便能够进行交易的数字货币系统,而这个系统中的货币就是大家耳熟能详的比特币。
2009 年初,比特币主网上线。起初比特币无人问津,仅仅在一些极客的圈子里被小范围使用。然而随着比特币逐渐用于某些秘密和公开交易,便开始慢慢走进人们的视野,燃起了大家对它的热情。越来越多的机构和个人参与到比特币挖矿中,比特币挖矿也渐渐形成了一个产业。
而比特币的底层技术和设计机理,就是区块链。区块链是一种融合了密码学、博弈论以及点对点通信等前沿技术的一个分布式账本。拥有账本副本的各个节点在没有中心节点的情况下,通过预先设置的共识机制实现点对点的交易。该共识机制的巧妙设置使得所有节点在保持自身“正直”的情形下能够获得最大的利益,从而没有动力去作恶,损害区块链生态。
随着比特币价格节节走高,区块链成为越来越多开发人员的研究对象。由于比特币系统缺乏图灵完备性,其交易脚本只能够支持有限的运算,除了支付场景以外并不能够支持其他应用,年仅 19 岁的程序员 Vitalik 创建了被誉为第二代区块链应用平台的以太坊。以太坊的最大特性在于其支持智能合约,这是一种可以不经过任何第三方而约定权利义务,并可以保证在触发某些预先设定的条件下合约会被程序自动执行。于是人们可以通过在以太坊上创建智能合约,约定权利义务,以完成更加复杂的协作。
在以太坊之后,各式各样的区块链的变种开始出现了。这些变化基本围绕着共识机制、 交易速率、可扩展性、鲁棒性和隐私保护等核心性能的改良,并试图支撑越来越多的应用场景。
提取区块链的几个核心特征作为这部分的总结,这些特征将为我们解决联邦学习的困境提供支持。
1.节点之间通过点对点通信,没有第三方参与
2.每个参与方保留一份账本的副本,以对交易合法性进行验证
3.运用非对称加密算法,进行链上身份的识别。通过公钥进行数据加密,通过私钥对交易进行签名
4.通过哈希指针实现区块链的可追溯
5.通过比特币奖励鼓励矿工参与挖矿
6.通过工作量证明进行区块的确认
7.通过最长链机制保证区块链的安全
8.以太坊之后的区块链通过智能合约建立去中心化的信任系统
回到我们联邦学习的问题中来,我们先看看上面提到的第一个中心依赖的问题。
索信达控股-联邦学习解决方案通过建立联盟链,使得每个参与方成为联盟链上的节点。节点们在该点对点网络下进行通信,摆脱了对中心节点的依赖。
第二个是激励不足的问题。
区块链的共识机制依赖于激励机制的良好设计。激励机制会奖励对生态良性运转做出贡献的节点,而试图不按照共识机制活动的节点,则会遭受生态的惩罚。通过区块链共识机制的设计,联邦学习的参与方能够依据其对联邦生态的贡献获得相应的回报,从而实现生态的良性运转。
第三个问题,单点欺诈。
索信达控股-联邦学习解决方案设计了一种合理的多方博弈机制,使得各参与方只有在如实报告自身数据信息的情况下,才能够获得最大收益。通过将这些依据用户的行为而制定的奖惩措施提前写入智能合约中,使得区块链可以通过透明公正的规则对用户行为进行审计。此外,除了预先设定规则的审计,任何节点也可以对其他节点的行为进行监督,并对发现的恶意行为节点发起投票。由于区块链的不可篡改特性,所有中间数据上链,参与方的一切恶意行为可以被事后追索。
联盟链一般会使用如 PBFT(实用拜占庭容错机制)等这样的共识机制来保证链不受少量恶意节点操控。在 PBFT 的情形下,只要坏节点小于总节点数的 1/3,则区块链的正常运行将不会受到影响,同样任何投票,在获得超过 2/3 的票数则可以获得通过,实现生态的联邦自治。
第四个问题,隐私保护。
索信达控股-联邦学习解决方案使用了安全多方计算和同态加密技术来保证每个节点在不获取其他任何节点梯度明文信息的情形下,完成协同计算。节点可以将梯度加密后发送到区块链上,而同态加密技术保证加密后的密文运算能够与明文运算的结果相对应。然而在这个场景中同态加密技术难以直接使用,因为系统中没有管理私钥的第三方机构。如果让每个节点都使用相同的支持同态加密运算的密钥,则起不到保护隐私的作用。索信达通过自主研发设计的算法,克服了在没有中心节点的情况下密钥分发和管理的难题,实现了同态加密技术在梯度运算中的运用和隐私保护。
关于索信达控股 AI 创新中心
AI 创新中心是索信达控股有限公司(03680.HK)旗下专注人工智能与区块链技术在金融行业应用的研究部门,目前拥有北京、深圳与广州三大研发中心,共计拥有首席科学家张磊博士、邵俊博士等数十位科学家团队成员;其中博士学历占比超过 30%。索信达控股作为金融行业大数据及人工智能解决方案领导厂商,通过不断加码对 AI 创新中心的研发及人才投入,为金融行业提供大数据及人工智能技术迭代的新思路和源源不断的创新驱动力。
版权声明: 本文为 InfoQ 作者【索信达控股】的原创文章。
原文链接:【http://xie.infoq.cn/article/2b9a551823add7c070fd34476】。文章转载请联系作者。
评论