隐私计算,让企业大数据走进数据网络时代
01 数据应用理想与现实的差距
数据爆炸增长且存储分散,数据隐私保护的重要级也随之提升。随着互联网、移动互联网、物联网等的快速发展,数据量飞速增长。此同时,企业和个人在服务过程中产生的大量数据存储在了不同的服务提供方侧,使得对于个人、企业来说,数据分散存储,而这些数据只有融合起来才能够完整刻画一个对象。
数据反映了个人和企业的社会属性和行为,涉及大量的敏感信息,如金融交易、健康医疗、行为轨迹等,为保护个人隐私以及保障社会稳定,需要充分保障隐私信息的安全性。
以金融行业为例,银行做企业风控会涉及到非常多的数据,从央行征信报告、工商、司法、税务甚至包括企业主的行为,才能做精准全面的小微企业信贷风控,但实际情况比较骨感。对小微企业来说,可能存在经营报告不够完善,发票、税务信息不够完整等情况,因此就出现了小微企业融资难融资贵的问题。数智时代,传统的数据服务方式通过企业内部自循环的数据已远远不够,企业大数据应用已经从内生走向外延,需要从多角度、多维度补充外部数据,提升精准营销、信贷风控等业务场景的应用效果。
数据管理和使用面临安全性、可用性两大难题。政府机构间、政企以及企业之间存在数据共享、数据开放和数据交易的诉求。国务院办公厅《要素市场化配置综合改革试点总体方案》提出,建立健全数据流通交易规则,探索“原始数据不出域、数据可用不可见”的交易范式。
02“三用”建设可信的数据安全底座
当前,国家从各个方面加强数字化建设,本质在于推动数据流通,才能服务整个产业和社会的发展。无论是加快建设数字经济,加强政府数据开放,还是营造良好的数字生态,我们可以看到其本质是,数据成为生产要素,成为企业和社会数字化转型发展的基础。
与此对应的,企业需要如何建设安全可信的基础能力设施呢?
首先要数据可用,通过隐私保护和隐私计算相关技术实现数据的安全合规,从而实现数据对外使用产生价值。其次要数据好用,通过数据治理,包括分类分级等技术实现对数据的资产化能力,以及实现数据的互联互通,达到数据好用的状态。最后要数据易用,通过智能化、自动化的手段实现对数据的高效管理、高效应用,从而推进行业进入到数据经济时代。
03 如何理解数据流通
在此基础之上要理解数据流通,有以下几方面:
第一方面,企业对外输出数据和引入数据服务。数据的目的是发挥价值,核心在于应用,其中有两个核心能力。一是数据市场的概念,只有一个开放公开的市场才能加速政府机构、政企和企业间的数据流通。二是数据运营的概念,只有将合适的数据运用于合适的场景,才能够发挥和提升数据的价值效能。在这个过程中,我们还需要满足安全合规、对用法用量进行监控等,符合国家的相关规定。
第二方面,企业对内需要管控和治理数据。企业需要构建一套数据资产管控和治理的能力体系,包括分类分级、数据资产、数据质量等。
第三,在数据内外协作过程中,我们需要构建一套隐私安全计算的基础能力体系支撑。其涵盖面非常广,包括目前关注度比较高的多方安全计算、联邦学习,TEE(可信执行环境)等,还包括传统数据处理能力,比如数据静态脱敏、数据动态脱敏等应用于服务中。这个体系的构建以隐私计算技术为依托,承载上层的数据加工、处理、流通。
04 隐私计算使“既要安全又要效果”成为可能
我们认为隐私计算解决了两方面的问题:第一是数据安全流通问题,运用到多种技术优化和保障传统数据处理加工不同环节的安全性,包括信息对齐、统计分析、联邦建模、深度学习以及数据服务等等。第二方面是,隐私计算本身可以直接带来业务价值的提升。
这里有个示意图。过去的数据合作方式,双方把没有那么敏感的信息放在一起做数据服务分析,分析结果运用于企业生产。但因为安全性使得数据开放程度不够,实际效果提升有限。
第二个阶段,行业开始尝试做通用建模。比如某个企业以内部数据为基础做模型加工,对外做服务输出。因为这里面没涉及到数据输出,安全性比较高,但仅提供模型分析结果服务,准确率不高。还有定制建模,合作方仅提供 ID 和标签放在一个独立的网络环境中做定制建模。因为提供了更多的业务相关信息,模型效果有所提升,但降低了安全性。
基于隐私计算的联邦建模,能够达到联合建模同样的效果,还能够充分保障数据隐私安全。联邦学习的核心在于让数据都存在各方本地,通过密态数据交互的方式产生一个新的模型,极大提高业务效果。我们看到联邦学习或者隐私计算本身就能直接带来用户的数据价值,这是隐私计算解决的第二个问题。基于隐私计算构筑数据安全流通桥梁,打通数据供给侧和需求侧,真正赋能行业的发展。
05 隐私计算是更高层级的大数据 2.0
我们怎么看待隐私计算平台?
隐私计算的本质是什么?大概 2008、2009 年,大数据成为互联网科技行业的热词被熟知,由于开源技术的普及,国内大数据飞速发展。传统的大数据平台核心是把数据做物理汇聚,但在跨行业跨企业合作过程中面临数据的隐私安全问题。从而我们需要一个新的架构支撑跨企业的大数据平台,让数据发挥真正的价值。隐私计算本质上做的是,面向企业提供内外部数据融合平台,基于隐私计算节点将外部数据源以虚拟、逻辑的方式接入进来,当成本地数据一起进行使用,也就是建设跨企业跨行业的大数据平台。从这个意义上来看,隐私计算可以说推动了跨行业跨企业的大数据平台 2.0 时代,是更高层级的大数据 2.0,真正发挥多方数据联动的价值和效果。
其次,事物发展趋势都是从小点开始慢慢推广演进。这两年行业有很多点对点的业务场景合作,比如银行和运营商、银行和政府之间。点对点的架构相对来说并不复杂。但是随着数据协作的需求,未来会有更多的企业产生连接,比如工行、建行等国有大行、股份制银行、区域性银行以及保险、证券、运营商、政府等等,出现更多的数据协作方,形成一个更大的复杂网络。在大规模复杂网络的环境下,我们希望整个网络有一个控制节点,只参与控制协调,不参与任何计算,从而提高整个网络的运行效率和安全性。
06 国产自研的数牍隐私计算方案
“去中心”理念也正是数牍隐私计算平台功能架构的基本逻辑。平台采用了去中心的系统架构实现方式。计算节点数据本地存储,分布式计算,中间数据不流入控制节点,控制节点仅作中立性监控。平台真正能够在满足在《网络安全法》、《数据安全法》等法律法规对数据安全的规定下,数据可用不可见的要求。平台具备 ID 融合、AI 建模、安全统计、联合预测等完善的功能流程,面向上层业务场景有效赋能。比如银行反洗钱反欺诈、营销风控以及保险的核保等,数牍提供了成熟的全流程联邦学习解决方案。
如赋能小微企业信贷增信场景中,基于全流程联邦学习解决方案,帮助金融机构小微企业信贷业务补齐数据信任短板,安全合规地对接电力、税务、运营商等有价值的数据,提高小微信贷风控模型准确率,有效降低信息的不对称性与不透明性,从而助力小微企业“增信”,解决小微企业融资难、融资贵的问题。
在推动数据共享开放的实践方面,目前数牍已与北京、上海、深圳、重庆、合肥、江苏等多地政府机构展开技术研究及项目合作,将自主研发的隐私计算平台及关键技术成果应用到数据开放利用生态研究与建设中;数牍深度参与如北数所、深数所、上数所、贵州大数据交易所、西部数据交易中心及合肥数据要素流通平台等的建设,并成为首批数商,专注数据要素流通基础设施建设,为大数据的高质量发展赋能。
评论