写点什么

区块链与分布式存储构建数据要素市场基础设施

发布于: 2020 年 10 月 05 日
区块链与分布式存储构建数据要素市场基础设施

分布式存储就像分布式应用一样有两种技术解释,一种是将数据分散存储在多台独立的设备上,总体上实现了技术架构上的分布式,但所属权仍然是集中式的,而在区块链应用领域则表示的是以 IPFS 为代表的新一代分布式存储技术,与传统的存储技术不同,新一代的分布式存储不光改变了存储的方式,还改变了系统架构与网络传输协议,让分布式存储真正实现了可以分布存储在不同所有方之间,同时还实现了对于数据的隐私保护与安全。


那么,什么是 IPFS?


IPFS,全称 Inter Planetary File System,中文名为星际文件系统,IPFS 希望通过点对点传输网络构建一个完全分布式的互联网,类似于 BitTorrent,但是又有所发展和不同。在目前的互联中,如果你想从网上下载一张照片,你需要告诉电脑去哪里找这张照片,也就是照片所在的 IP 地址或域名——这就叫 " 地址寻址 "。但如果这个地址不存在了,也就是说服务器关闭了,你就无法获取那张照片了。不过很可能有人之前已经下载过那张照片,并且在他的电脑中仍然保存着备份,可你的电脑却无法从那个人那里获得该备份。为了解决这个问题,IPFS 把“地址寻址”改为“内容寻址”。这样一来,你不用再告诉电脑去哪里寻找资源,而只需告诉它你想要什么资源。从“地址寻址”到“内容寻址”是 IPFS 与现有存储技术与互联网协议最重要的区别。除此之外,IPFS 也是一种复合的技术,其中比较重要的有 4 种:BitTorrent、DHT、Git 和 SFS。


(1)DHT,全称为分布式哈希表(Distributed Hash Table),是一种分布式存储方法。DHT 的原理是在不需要服务器的情况下,每一个客户端存储一小部分数据,并负责一定区域的检索,进而实现整个 DHT 网络的寻址和检索。同时所有信息均以哈希表条目的形式加以存储在 Kademlia 网络(点对点协议中的一种算法,当我们在网络中搜索某些值,即通常搜索存储文件散列或关键词的节点的时候,Kademlia 算法需要知道与这些值相关的键,然后分步在网络中开始搜索。)这些信息被分散地存储在各个节点上,从而以全网构成一张巨大的分布式哈希表。可以形象地把这张哈希大表看成一本字典:只要知道了信息索引的 key,便可以通过 Kademlia 协议来查询与其对应的 value 信息,而不管这个 value 信息究竟是存储在哪一个节点之上。正是这一特性确保了 IPFS 成为没有中心调度节点的分布式系统。


(2)BitTorrent, ipfs 借鉴的首先是消极上传者的惩罚措施,在 BitTorrent 的客户端上传数据会奖励积分,而长期不上传的消极节点会被扣分,如果分数低于一定限度,那么网络会拒绝再为他们提供服务;其次是文件可用性检查,BitTorrent 优先把稀缺的文件分享出去,各个客户端之间相互补充,这样种子不容易失效,传输效率也提高了。


(3)Git,在进行大文件传输或修改的时候总会遇到存储或传输压力大的问题,而 Git 在版本迭代方面非常出色。Git 存储时会把文件拆成若干个部分,并计算各个部分的哈希值,利用这些构建起与文件对应的有向无环图(DAG),DAG 的根节点也就是该文件的哈希值。这样的好处十分明显:如果需要修改文件,那么只需要修改少数图中节点即可;需要分享文件,等价于分享这个图;需要传输全部的文件,按照图中的哈希值下载合并即可。


(4)Self-certifying FileSystem(SFS),它将所有的文件保存在同一个目录下,所有的文件都可以在相对路径中找到,其 SFS 路径名是其原路径与公钥的哈希。这样的设计包含身份的隐式验证功能,因此 SFS 被称为自验证文件系统。


区块链的诞生本是为了做到去中心化,在没有中心机构的情况下达成共识,共同维护一个账本。它的设计动机并不是为了高效、低能耗,抑或是拥有无限的可扩展性(如果追求高效、低能耗和扩展性,中心化程序可能是更好的选择),分布式存储与区块链协同工作,能够补充区块链的两大缺陷:


(1)区块链存储效率低,成本高。


区块链网络要求全部的矿工维护同一个账本,需要每一个矿工留有一个账本的备份在本地。那么在区块链中存放的信息,为了保证其不可篡改,也需要在各个矿工手中留有一份备份,这样是非常不经济的。如果有 1 万个矿工,即便在网络保存 1MB 信息,全网消耗的存储资源将是 10GB。可以使用 IPFS 存储文件数据,并将唯一永久可用的 IPFS 地址放置到区块链事务中,而不必将数据本身放在区块链中,因为 IPFS 的自验证文件系统技术可以保证其内容的不可篡改的特性。也就是区块链用于共识重要的数据,如数字资产、交易记录等,分布式存储作为存储层替代现有的中心化数据库,用于分布式的存储大量的附加信息,避免了链下数据集中被某个中心控制,而是由网络参与者一起参与存储,避免把所有信息放到链上,极大拓宽了区块链的应用范围。


(2)跨链需要各个链之间协同配合,难以协调。


IPFS 能协助各个不同的区块链网络传递信息和文件。IPFS 本身就具有保证其内容的不可篡改的特性,能够作为可信信息源。同时 IPFS 可将不同链的区块信息获取成可读内容,可协助链之间获取区块信息。


数据被纳入生产要素的基础现状 


相关试点:


2018 年 5 月,为贯彻落实党中央、国务院关于推进公共信息资源开放的有关工作部署,中央网信办、发展改革委、工业和信息化部联合印发《公共信息资源开放试点工作方案》,确定在北京、上海、福建、贵州开展公共信息资源开放试点,要求针对当前开放工作中平台缺乏统一、数据缺乏应用、管理缺乏规范、安全缺乏保障等主要难点,在建立统一开放平台、明确开放范围、提高数据质量、促进数据利用、建立完善制度规范和加强安全保障6方面开展试点,探索形成可复制的经验,逐步在全国范围加以推广。方案要求,试点地区要结合实际抓紧制定具体实施方案,明确试点范围,细化任务措施,积极认真有序开展相关工作,着力提高开放数据质量、促进社会化利用,探索建立制度规范,于2018年底前完成试点各项任务。


数据所有权界定不明确、不清晰


数据共享后难以追踪溯源;数据易泄露或被未授权使用


相关领域数据资源向社会开发的进展缓慢


缺乏公平、透明的数据利益分配机制和手段


未形成完善的产业链条,交易规模有效;缺少成熟案例 


通过区块链和智能合约对数据分类目录以及数据确权、授权、使用、加工、权利转移等操作记录进行存证和全程追溯,形成不可篡改的数据履历,提高数字资产交易市场的透明度和可信度。区块链提供了全程过程的可追溯性与不可篡改性。在下图的架构中解决的数据要素市场全周期的记录与管理,而数据本身需要存储在数据库中,利用分布式存储技术,可以做到数据的加密存储,授权访问模式,同时分布式存储对比传统中心化数据库更加安全。


在下图的架构中解决的数据要素市场全周期的记录与管理,而数据本身需要存储在数据库中,利用分布式存储技术,可以做到数据的加密存储,授权访问模式,同时分布式存储对比传统中心化数据库更加安全,无法单方面掌握整体数据,同时数据是加密存储,只有在区块链上完成了相应的授权才能获取完整数据,进而使用数据。从整体上保证数据被合法合规的利用。


用户头像

致力于发布区块链领域专业全面的资政信息 2020.05.24 加入

中国电子商务产业园发展联盟区块链专委会隶属于中华人民共和国商务部旗下的中国国际电子商务中心,简称“CECBC”,致力于发布区块链领域最新、专业、全面的资政信息,包括政策法规、行业发展、社会热点等。

评论

发布
暂无评论
区块链与分布式存储构建数据要素市场基础设施