写点什么

阿里 P9 架构师终于把毕生心血而成的分布式高可用算法笔记开源了

  • 2022-11-27
    湖南
  • 本文字数:1321 字

    阅读完需:约 4 分钟

说在前面的话

分布式系统无处不在。


一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。


为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如 Apache 基金会旗下的 ZooKeeper 项目就是一个应用广泛的分布式框架。


同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应该知道这些分布式框架背后的设计原理,做到“知其然,亦知其所以然”。

主要内容

本文尝试以通俗易懂的方式从理论的角度系统性地介绍分布式系统和算法,使读者不仅从算法层面知道诸如共享内存、共识、信号量等分布式抽象背后的工作原理,还知道分布式系统是如何被建模的,进而知道这些算法是怎么来的、为什么是对的、适用场景是什么,为将来自行设计分布式算法打下基础。


本文总共分为 10 章的内容,因为包含的内容比较多,这里只做了简单的介绍,每章里面包含很多小点,小点里面也有更加细化的内容。


1 初识分布式,介绍什么是分布式系统,分布式算法的用处,以及设计分布式算法面临的主要挑战,让读者对本文所介绍的分布式系统和算法的范围有初步认识



2 算法模型,通过本章的学习,读者将意识到设计分布式算法就是在定义自动机与外界的交互行为,并且能够阅读分布式算法。



3 系统模型,通过本章的学习,读者将掌握设计一个分布式系统主要的关注点。



4 链路,通过本章的学习,读者不仅会更熟悉编程模型,而且将更深入地理解自动机和它的生命周期。



5.失败检测和选主,通过本章的学习,读者将知道如何进行失败检测和选主,什么系统能够进行失败检测和选主,什么系统无法进行失败检测和选主。



6 可靠广播,从基础的尽力广播开始,依次介绍正则可靠广播、统一可靠广播、顽固广播、概率广播、先进先出广播和因果可靠广播。



7 共享内存,



8.共识,共识是分布式系统得以实现高可用和一致性的关键技术。



9.介绍基于共识的应用,包括全序广播、复制状态机、信号量、原子提交(事务)、组成员关系等。最后还会介绍复制状态机的重配技术,实现进程动态地加入和离开系统。在 ZooKeeper、etcd 等开源分布式框架中的 Reconfiguration 功能的背后,其实就是复制状态机的重配技术。



10.基于时钟的算法,本章介绍如何利用时钟同步系统构造网络同步系统,以及如何利用网络同步系统构造时钟同步系统,从而证明了时钟同步与网络同步的等价性。基于这一等价性,读者可以利用现代计算机的本地时钟、时钟同步协议以及原子钟等技术弥补网络的不足,即使在网络异步的情况下,也可以实现同步系统。




本文总结

本文从底层的 I/O 自动机模型开始,逐一深入,直到揭开共识的面纱,让读者能够系统地从底层原理了解分布式系统和算法在设计过程中的取舍与平衡。


同时,本文尽量避免使用过于复杂的数学记号,而是用自然语言的方式证明每个算法的正确性,相信用心的专业读者都能看懂。既把底层原理说清楚,又没有高深的数学符号,是本文的一大特色。

需要文章中配套资料的朋友可以——点击传送门

发布于: 刚刚阅读数: 3
用户头像

还未添加个人签名 2022-09-20 加入

还未添加个人简介

评论

发布
暂无评论
阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了_Java_小二,上酒上酒_InfoQ写作社区