深度 | Web 3.0 时代去中心化 IM 的挑战与思考
前言
Web3.0 时代的重要特点:
1、数据主权
用户将拥有自己的数据主权,用户所创造的数字内容,所有权和控制权都归属于用户,用户所创造的价值可以由用户自主支配。对于 IM 业务,就是用户的好友列表,聊天消息等数据属于用户,不属于任何商业机构。
2、去中心化
这个业务网络不被任何人和组织所控制,任何人和组织都可以参与这个网络,随时都可以加入和退出,为全网用户提供服务。用户不属于任何组织,组织是服务提供者不是用户的拥有者。
基于以上 Web3.0 两个特点,可以推导出 Web3.0 对 IM 的技术需求:
1.、动态网络:网络服务节点是动态的,全球任何一个地方的节点都可以随时加入和退出网络,任何节点的崩溃和退出都不影响网路正常运作。
2.、数据安全:用户数据必须是加密的,聊天消息要支持端到端加密安全,服务节点只做存储与转发,无法查看聊天消息和好友列表等数据内容。
这些需求对技术架构和实现具有非常大的挑战。
第 2 点需求意味着需要支持动态扩容和索容。大家都知道,传统 web2.0 技术是基于中心化的,服务器规格统一,性能都比较好,服务器之间的网络延迟极小一般在 1 毫秒以下,集群出口带宽可达到千兆甚至万兆。即使是在这么好的条件下,动态平滑地扩容和缩容,服务平稳运行都不是一件容易的事情。在去中心化环境中,参与网络的节点的性能,配置,可靠性,网络带宽等参差不齐,机器随时都可能关机,网络随时都可能断开,甚至还可能存在一些恶意节点,发送恶意数据影响网络正常运行。这些因素都是在设计和实现去中心化 IM 所要面对和考虑的,当然从另一个角度来看,如果这些问题都能得到解决,解决方案也可能反过来应用到中心化服务架构中,增强中心化服务的稳定性和鲁棒性。
在传统 web2.0 技术架构中,异地多活是一座高峰,是高可用服务架构的极致追求。从某种程度上来说,异地多活已经接近去中心化架构,所以我们先来重温一下异地多活架构,看看有哪些方面可以借鉴的。
图片引用自 《搞懂异地多活,看这篇就够了》
异地多活的思路和关键点:
• 提供一个路由层,对用户按地域或哈希把用户分配到某个机房
• 同一个用户的相关请求,只在一个机房内完成所有业务「闭环」,不再出现「跨机房」访问
• 机房之间互为热备份,每个机房都保存所有用户全量数据
• 当某个机房发生灾难时,备份机房的从库升级成主库,并在路由层切换用户到备份机房
异地多活的思路对于去中心化架构是非常具有借鉴意义的,可以把机房看成是一个节点,当无数个机房(节点)组成一个网络时,异地多活架构就泛化成了去中心化架构。
当然量变引发质变,当节点足够多时,传统的异地多活技术已经不能直接适用于去中心化架构,必须经过改进和改造才能为去中心化架构所采用。去中心化架构是另一座更高的山峰。
路由网络
路由网络的作用类似于异地多活中的路由层,提供了资源和服务发现(discovery)的服务。比如对于用户张三,我们需要知道当前服务张三的节点到底在哪里。一个直观的方案,是一个一个节点地问(查找),效率低下。在去中心化架构中,常用的路由发现技术是 Gossip 协议和 Kademlia 网络。
Gossip 协议
Gossip 协议的灵感来自于“好事不出门坏事传千里”,“办公室里的流言蜚语很快就传遍全公司”。比如张三连接的节点 1 随机向临近节点广播“张三在节点 1 上”, 临近节点再随机向它的临近节点广播,即一传十,十传百,消息很快传遍全网,所有节点都知道“张三在节点 1 上”。反过来,如果节点 2 不知道张三在哪里,它可以向全网询问“张三在哪里”,在传播的过程中,如果有节点指知道张三的地址,立即向节点 2 返回张三地址,结束查询过程。Gossip 不是一个新的东西,大家熟知的 redis 集群采用了 Gossip 协议。
Gossip 的优点是对网络的连通性和稳定性几乎没有任何要求,具有极强的鲁棒性。缺点是网络中的消息太多,而且有重复消息,增加了网络传输压力和节点的额外处理负载。
Kademlia 网络
Kademlia 是一种分布式哈希表(DHT)技术,被广泛应用于去中心化产品中,比如大家熟知的以太坊,磁力下载等。Kademlia 把成千上万个节点构成一个自我组织的网络,用户可以使用这个网络快速查找定位到资源。关于 Kademlia 技术在网络上能找到很多相关文章,但大多数都拘泥于细节中,这里简单介绍 Kademlia 的原理,能解决什么问题,至于详细原理请自行搜索其他文章。
1. Kademlia 网络是一个索引网络,解决的是如何快速定位资源位置的问题
2. 每个资源都有唯一的哈希值
3. 每个节点都有唯一的哈希值
4. Node-900 拥有一个资源,资源的哈希值是 100
5. Node-900 把资源发布到与资源哈希值最近的 Node-100(距离等于 0)
6. Node-100 的记录了一条目录,“哈希 100 的资源保存在 Node-900 上”
7. Node-800 想要访问资源-100,通过哈希值找到 Node-100,再根据目录访问 Node-900 找到资源
8. 目录数据的高可用与冗余
a. 资源拥有者 Node-900 发布到距离资源最近的 k 个节点,比如 Node-99(距离为 1),Node-100(距离为 0),Node-102(距离为 2)
b. 同样地,访问者访问距离资源最近的 k 个节点获取目录
c. 因为网络节点不断地上线下线,距离资源最近的 k 个节点集合会不断变化,所以资源拥有者 Node-900 要周期性地发布资源,比如 Node-100 下线后,k 个节点集合变成 Node-99(距离为 1),Node-102(距离为 2),Node-103(距离为 3)
9. Kademlia 的距离是逻辑距离,不是物理距离,两个逻辑距离很近的节点,物理上可能相隔很远。
消息顺序
IM 的核心功能是消息收发。在中心化架构中,所有上行消息通常都会归拢到一个地方,所以消息先后顺序由中心化来保证。但在去中心化架构中,上行消息可能是从不同的节点过来的,接收消息顺序可能会乱序。具体例子:
C 先收到 B 的消息,后收到 A 的消息,导致最终 C 的聊天记录和 A/B 的不一样。
解决方案:
• 时间戳
每条消息都打上一个时间戳,在接收端根据时间戳排序。但是去中心化网络中,节点间的时钟不可能完全同步,仍然存在先后顺序错乱的可能性。
• 依赖消息
每条消息都带有依赖消息 Id,表示当前消息排在依赖消息之后。客户端在收到一条消息后,先检查其依赖消息是否都已经收到并且上屏,如果没有收到则先暂存消息,直到所有依赖消息上屏。此方案的缺点是增加客户端处理消息的复杂度。
端到端加密
因为任何人都可以加入去中心化 IM 网络,任何节点都可能接触到消息,所以为了隐私和安全,消息必须是端到端加密的。常用的端到端加密方案是 Diffie–Hellman 密钥交换协议(DH),可以使通讯双方无需预先沟通,在不安全的网络中即可确定一个“协商密钥”,这个密钥可以在后续的通讯中作为对称密钥来加密消息内容,这样避免了双方网上协商密钥带来的泄露风险。
从图中可以看出在网络上传输的是公钥,真正用来加密的“对称密钥 S”是计算出来的,并没有通过网络传输,非常安全。但是如果所有消息都用同一个对称密钥 S,一旦 S 被破解得到则所有消息都会被破解。最好的办法是每条消息都用不同的密钥,即一消息一密钥。
• 通过密钥函数计算得出消息密钥
• 密钥函数通常为不可逆函数,即知道输出很难反向计算出输入,比如大家熟知的哈希函数就是不可逆函数
• 密钥函数的输出被分为链密钥和消息密钥两部分,链密钥作为下一次密钥函数的输入,消息密钥用来加密消息
• 重复这个过程,即链式反应
链式反应生成的密钥虽然很安全,但带来一个新的问题,即如何读取历史消息。读取历史消息通常是从某条消息开始拉去 n 条消息。从上图可以看出,要想得到“消息密钥 2”,必须从初始密钥开始计算 2 次才能得出,如果要得到“消息密钥 10000”,则要计算 10000 次才能得出,显然这样做的效率非常低下。
推送
推送是 IM 业务里比较重要的功能,在 app 退到后台或者被杀死,仍然可以通知到客户。在去中心化 IM 架构中,因为消息是端到端加密的,节点在给 app 发送推送时,只有提醒“您有一条新消息”,不会有消息内容。这是在隐私保护与用户体验之间的妥协与平衡。
开源现状
目前在开源社区比较接近去中心化 IM 理念的产品 matrix。
matrix 的特性:
• 每个用户都有归属于一个 Home Server,用户名格式 @user:domain,比如 @Alice:163.com , 跟 e-mail 邮箱名很类似
• Home Server 之间采用联邦式协议,Matrix 网络由分布在世界各地,由不同个人和组织运营的服务器组成,因此 Matrix 协议不容易被单个组织垄断
• 私聊和群聊是端到端加密的,所有聊天内容加密存储、加密传输。Home Server 无法看到用户的聊天内容
• 默认使用 HTTPS+JSON APIs 作为传输协议
• 可以通过 Bridge 与 Telegram, Discord, WhatsApp, Facebook, Hangouts, Signal 互通
• 支持通过 WebRTC 进行音视频通话
matrix 的缺点:
-用户 ID(地址)成本高,因为 @Alice:matrix.com 带有域名后缀,如果用户想拥有永久 Id,必须购买域名。如果使用 SP 的域名,则用户 Id 本身并不被用户所拥有,这跟 web3 的理念是相违背的。
- matrix 是 https + json,优点是容易理解,缺点是占用更多带宽,并且在序列化和反序列化时会消耗更多的 cpu。
- Home Server 之间是全连接(full mesh)方式,当参与的 Home Server 比较多时,比如有上千甚至上万个 Home Server 时,Server 之间的连接消耗会导致性能急剧下降。
总的来说 matrix 更像是一个去中心化的 e-mail,距离真正的去中心化还有一些差距。
目前 Web3 的技术创新和变革也是风起云涌,不断有新的算法和架构出现。环信作为国内 IM 云服务的开创者,在设计下一代 IM 技术架构时,也在积极借鉴和探索这些前沿技术,为我们的客户提供稳定、可靠、专业、低成本高质量的 IM 服务,为客户赋能和创造更多的价值。
版权声明:本文为 InfoQ 作者【环信】的原创文章,原文链接【https://www.easemob.com/news/9846】。文章转载请联系作者。
版权声明: 本文为 InfoQ 作者【环信】的原创文章。
原文链接:【http://xie.infoq.cn/article/9b8ed2a5d6bd29c4ef5233848】。文章转载请联系作者。
评论