LAXCUS 大数据集群操作系统:一个分布式分时共享 E 级系统软件(一)

用户头像
陈泽云
关注
发布于: 2020 年 10 月 14 日
LAXCUS大数据集群操作系统:一个分布式分时共享E级系统软件(一)

这是一篇论文,最早发在CCF的大数据年会上,详细阐述一个分布式大数据系统的设计研发过程,基本涵盖了目前分布式体系结构和大数据的所用到的知识、技术、功能。之前在InfoQ溜达,看到几个贴子在讨论分布系统,所以想到把这篇文章发出来分享给大家。

简单说下LAXCUS大数据集群操作系统。这是一个基于计算机集群的综合性平台,有云计算“IaaS/PaaS/SaaS”三层的功能,通过虚拟化的方式支持多用户接入,每个用户在集群里拥有各个独立的虚拟空间,通过运行分布式应用软件或者分布命令执行各种分布计算和数据处理。开发分布式应用软件,LAXCUS有一套分布应用库和工具来支持。我参与过空气流体和3D图像渲染两个项目,总体感觉和开发PC、手机软件差不多。同时LAXCUS还把还把云端、边缘端、终端整合到一起,实现了“云边端”的三位一体化协同。这意味着我们通过PC、手机、PDA,可以在任何时间任何地点做任何想做的事,简化了很多复杂的远程操作。LAXCUS大数据集群操作系统是我所在团队做的,完全是自主设计,没有抄袭任何开源代码,现在这套系统主要用在数据中台、高性能计算、大数据中心、工业云、物联网这些行业。

论文对标的是LAXCUS大数据集群操作系统的3.x版本,目前最新版本已经发展到5.x,界面和功能都发生很多变化,5.x版本还引入了人工智能,来控制计算机集群的资源分配调度一系列操作,我本人也参与了其中部分工作。现在官网上有下载,有兴趣的网友可以去下载一个安装试试,直观感受一下,会有不同的体现。另外论文比较长,有七万多字,我会分章贴出来。因为是论文,它的行文用语也比较学术化,各位如果有什么疑问请留言,我会尽力回答大家,希望对大家了解分布式体系结构和大数据技术有所帮助。

以下是正文。



摘要 Laxcus大数据集群操作系统是用于超大规模分布式存储和分布式计算的系统软件,旨在实现一个全功能和通用化的、整合主流软硬件设施、在各种网络环境里使用、管理百万台级计算机、处理EB级数据、支持亿级用户在线、并行百万级分布式应用软件的综合性平台。为此,我们摒弃积木式思维,采用自顶向下的体系化设计方法,从零开始,从底层做起,在结合大量应用案例的基础上,将数据处理各个层面的需求,进行汇总并统一设计和开发。软件最终测试使用证明,除了保证全功能、通用化、稳定性、可靠性、易用性的同时,也解决了模块类产品存在的功能重叠、层次繁多、兼容和安全性差、组织部署困难、运行效率低下、开发使用维护成本高昂等问题。



关键词 集群;节点;松耦合架构;安全;人机交互;FIXP协议;数据块;数据分区;可调CAP策略;分布描述语言;分布式应用软件;边缘应用软件;分布锁;RPC;SQL;DSM;NSM;Invoke/Produce;Diffuse/Converge;Scan/Sift;Marshal/Educe;跨账号资源共享;



中图法分类号 TP391



过去八年,我们设计开发了Laxcus大数据集群操作系统。在设计这套产品时,市场上已经存在着各种分布式存储和计算软件,但是却没有一家能够提供一套功能完整、适合全行业使用的分布式存储和计算的解决方案,这是我们设计这套系统的初衷。更重要的原因是,随着以网络为核心的各种新兴产业的快速发展,数据的存储和计算规模越来越大,越来越趋向多样化,导致数据处理越来越缓慢和复杂。如何解决这个问题,在保证效能的前提下,改变大数据应用现状?针对软硬件的性能特点,通过架构功能一体化设计,进行功能内聚,减少调用层次和处理流程,来提高数据处理效率,以及改进人机界面,来降低开发和运维难度,无疑是一个很好的解决思路。但是这个方案也因为体系化和集成化的缘故,涉及大量基础学科和技术领域,在当时技术条件下,如何设计好这种级别的大型软件,管理规模庞大的计算机集群,并保证系统和其上的分布式应用软件稳定可靠运行方面,有着太多不确定因素,面临着巨大的研发风险。这些风险归纳起来,主要包括以下一些方面:

1.现有条件下,对软硬件基础设施和运营成本的综合考量。

2.分布环境里,系统稳定性和可靠性的问题。

3.数据业务和处理规模可扩展性、可承载能力、适用性的问题。

4.软硬件冗余容错和处理的问题。

5.系统安全的问题。

6.人机接口的设计,包括分布式应用软件的开发、管理、处理流程的问题。。

7.软硬件相互结合和兼容的问题。

8.各个子系统内联整合和技术指标平衡的问题。

此后八年时间里,通过我们持续的研发和系统升级,上述问题已经全部解决,目前Laxcus大数据集群操作系统的主要特征是:

1.硬件基础设备定位于PC、移动架构平台,来减少用户采购、运营费用。

2.系统总体设计成松耦合架构,在此框架下实现多集群、多用户、多任务,和数据业务的可定制、可扩展。

3.全栈引入虚拟化技术,实现资源复用,降低管理使用成本。

4.网络通信采用二进制协议和多通道乱序处理,提高数据传输效率。

5.引入自适应机制和智能感知技术,使集群具备自组织管理和容错处理能力,降低运维成本,努力实现7*24小时无人值守。

6.依托多集群并行和弱中心化管理,支持从一个集群到数百个集群,从数个CPU到数百万个CPU之间的任务调度,来实现超大规模、可伸缩的分布式存储和计算。

7.数据底层采用混合存储方案,满足即时存取需要,支持OLTP和OLAP两种业务。

8.数据处理融入SQL思想,兼容数据库,满足高并发和高可靠性两种需求。

9.索引矩阵融合分区、图、键值等多种技术,实现网络数据的精准定位和快速检索。

10.多种全新设计的分布算法,保证数据处理过程的简捷高效。

11.分布式应用采取组件编程方案,结合应用容器管理,减少应用开发和维护的难度。

12.导入微服务,将更多工作分散到运行过程中执行,包括用户业务和系统业务。

13.体系化安全策略,将安全管理纳入系统运行的每一个环节。

14.从软硬件两方面整合和强化系统的异构计算能力,使数据处理范围更加丰富灵活高效,尤其是计算密集型业务,例如人工智能。

15.使用类自然语句命令操纵集群,覆盖全部数据处理和管理工作。

16.支持全球字符集,满足不同国家地区的用户语言使用习惯。

Laxcus大数据集群操作系统目前以寄居架构运行在Linux/Windows平台上,支持X86、Arm、PowerPC、龙芯、Nvidia 芯片。以下将以3.x版本为基础,结合之前版本,来介绍Laxcus大数据集群操作系统主要的设计、技术、实现,以及发展过程。



发布于: 2020 年 10 月 14 日 阅读数: 17
用户头像

陈泽云

关注

陈泽云 2020.10.09 加入

LAXCUS人工智能技术实验室系统工作师,八年分布系统研发经历,目前参与LAXCUS大数据集群操作系统的集群管理模块和小样本深度学习(DFL3)的开发工作.

评论

发布
暂无评论
LAXCUS大数据集群操作系统:一个分布式分时共享E级系统软件(一)