考古:IT 架构演进之 IOE 架构
IOE 架构(IBM, Oracle, EMC)出现在 20 世纪末至 21 世纪初,是一种典型的集中式架构体系。在这个阶段,企业的关键业务系统往往依赖于 IBM 的小型机(后来还包括大型机)、Oracle 的关系型数据库管理系统以及 EMC 的高端存储解决方案。这种架构的优势在于其高度稳定、可靠且性能强大,但是扩展性差、成本高昂,且过于依赖单一供应商的技术栈。基于以上特点,该架构主要在金融、电信以及其他关键业务领域得到了广泛使用。
这种架构强调高度集中、强大可靠且性能卓越,但在扩展性和成本效益方面存在局限性,尤其是在面对互联网时代的大规模、高并发和灵活扩展需求时就显得束手无策。
1、三大支柱
这一架构主要由 IBM 小型机、Oracle 数据库和 EMC 存储系统三大支柱构成,是过去企业级 IT 架构中的三个核心组成部分,它们在传统数据中心环境中发挥着至关重要的作用,并彼此之间有着密切的关联和相互依赖关系:
1.1、IBM(I)
IOE 架构中“I”通常指的是 IBM 的高性能服务器(IBM 小型机,如 Power Systems),这是一种高性能、高可靠性的计算平台,专为处理关键业务工作负载而设计,支持复杂的企业应用程序和数据库服务。IBM 小型机通常具备出色的稳定性、可用性和可管理性,以及较强的处理能力,可以承载诸如 Oracle 数据库在内的关键应用。
1.2、Oracle (O)
IOE 架构中“O”通常指的是 Oracle 数据库管理系统(业界领先的商业关系型数据库管理系统),这是一个在全球范围内广泛应用的关系型数据库软件。适用于企业级数据存储和管理,提供高度可靠、可扩展的数据服务。Oracle 数据库常用于处理大规模、高并发、对事务处理要求严格的业务场景,如金融交易记录、客户订单管理等。
1.3、EMC (E)
IOE 架构中“E”通常指的是 EMC 高端存储系统,是当时市场上备受青睐的企业级数据存储解决方案提供商,提供了一系列高性能、高容量、高可用的存储产品,满足企业对于海量数据存储和备份恢复的要求。EMC 的产品包括磁盘阵列、NAS(网络附加存储)和 SAN(存储区域网络)等,确保数据的安全性和访问效率。这些存储设备在为企业提供了可靠的、大容量的数据存储空间的同时,还通过高速的网络连接与 IBM 服务器和 Oracle 数据库配合,确保数据的高效存取和高可用性。
综上,三者之间的关系可以概括如下:
IBM 服务器为运行 Oracle 数据库提供坚实的硬件平台;
Oracle 数据库在 IBM 服务器上运行,处理和存储企业的核心数据;
EMC 存储系统与 IBM 服务器及 Oracle 数据库相联接,共同保障企业数据的安全存储和高效访问。
2、高可用实现
IOE 架构高可用的实现可从各个组成部分来拆分实现和操作系统、网络层面实现:
2.1、IBM
硬件冗余与故障切换,IBM 提供的系统通常具备高级别的硬件冗余设计,例如电源冗余、硬盘冗余(RAID)、内存镜像等。同时,许多 IBM 系统支持高可用集群(如 PowerHA SystemMirror 或 HACMP),在主系统发生故障时,可以自动切换到备用系统,保持业务连续性。
2.2、Oracle 数据库
RAC (Real Application Clusters):Oracle RAC 允许数据库在多台服务器之间共享,形成一个集群。当某一台服务器宕机时,其他服务器可以无缝接管服务,保证数据库的不间断运行。
Data Guard: Oracle Data Guard 通过创建数据库的备用实例,实时同步或异步复制主数据库的数据,以便在主数据库出现问题时,能够快速切换到备用实例继续提供服务。
2.3、EMC 存储高可用
存储阵列冗余:EMC 的高端存储系统会采用多种冗余机制,如 RAID、镜像、快照、复制等技术,确保数据在硬件故障时不会丢失。
存储区域网络(SAN)和网络附加存储(NAS):通过 SAN 或 NAS 技术可以构建共享存储环境,支持多台服务器同时访问同一份数据,结合存储虚拟化技术实现存储资源的动态分配和故障转移。
Geo-Replication 或类似异地灾备方案:用于实现跨地域的数据复制和恢复,即使主数据中心发生灾难性故障,也能在短时间内恢复业务。
2.4、操作系统层面的高可用设计
集群技术:在操作系统级别,通过集群软件可以将多个系统组成一个高可用集群,当某个节点失效时,集群能快速检测并重新分配资源,确保服务不中断。
2.5、网络冗余与负载均衡
在网络层面上,通过双路径或多路径网络设计,以及负载均衡器等设备,实现网络连接的冗余和流量分配,避免因网络故障导致的业务中断。
综上所述,IOE 架构通过整合 IBM 服务器的硬件冗余、Oracle 数据库的集群技术以及 EMC 存储系统的冗余与灾备机制,辅以操作系统级别的集群管理和网络层面的冗余与负载均衡设计,旨在构建涵盖硬件、操作系统、数据库直至网络层面的全方位高可用体系,以确保企业关键业务的连续性和数据安全性。
3、高可用案例
结合上述讲解的各类 IOE 组件、操作系统和网络实现高可用的方案中,IOE 架构通常结合使用虚拟 IP、心跳线以及进程清单等技术手段来实现高可用。
3.1、虚拟 IP (VIP)
虚拟 IP 地址是指在网络中不直接绑定到任何物理网卡上的 IP 地址,而是作为服务的访问入口。在高可用集群环境中,虚拟 IP 地址会被浮动地绑定到当前处于活跃状态的服务器上。
当集群中的主服务器正常工作时,虚拟 IP 会绑定在该服务器的网络接口上,所有客户端请求都会通过虚拟 IP 发送到主服务器。
当主服务器出现故障时,虚拟 IP 会自动漂移到备份服务器上,客户端无需感知服务器切换过程,仍可通过虚拟 IP 继续访问服务,从而实现服务的无缝切换。
3.2、心跳线
心跳线(Heartbeat)是集群成员之间用来监测对方健康状况的一种通信机制。集群内的每台服务器定期发送心跳消息给其他服务器,表示自身仍在正常运行。
如果主服务器停止发送心跳消息,那么备份服务器就会认为主服务器已出现故障,并启动接管程序,将虚拟 IP 地址绑定到自己身上,接手服务提供任务。
心跳线不仅可以监测服务器是否在线,还可以交换必要的集群状态信息,如哪个节点正在提供服务、是否有资源变动等。
3.3、进程清单
进程清单是指集群内定义的一系列关键业务进程及其监控规则。在高可用集群软件(如 Linux-HA 项目中的 Heartbeat、IBM PowerHA、Oracle RAC 等)中,会明确指定哪些服务或进程需要保持高可用性。
当主服务器出现故障,心跳线检测到异常后,备份服务器不仅会接管虚拟 IP,还会按照预设的进程清单启动相应的服务进程,确保业务连续性。
同样,当主服务器恢复正常时,备份服务器会释放虚拟 IP 并将服务切换回主服务器,保持集群环境的稳定和平衡。
综合以上三种技术,IOE 架构可以通过虚拟 IP 实现服务访问的统一入口和故障切换,通过心跳线实现实时监控和故障检测,通过进程清单确保关键业务的自动恢复和迁移,从而达到高可用目标。不过,具体的实施细节会根据不同的 IOE 组件(如 IBM AIX 系统上的 PowerHA、Oracle 数据库的 RAC 等)和相关集群管理软件的具体功能有所差异。
4、去 IOE 运动
IOE 架构的主要特点是高度集中和专业化,这样的架构在过去的 IT 环境中非常受欢迎,因为它能够提供极高的稳定性和服务质量,尤其适合那些对数据一致性、处理速度和业务连续性要求极高的场景。然而,随着云计算、分布式计算和开源技术的发展,IOE 架构的成本、扩展性问题逐渐凸显出来,尤其是在大规模互联网业务场景下,这种高度集中的架构显得不够灵活和经济。
“去 IOE”运动随之兴起,尤其是像阿里巴巴这样的大型互联网公司,他们开始倡导并实践使用更加开放、低成本、可扩展性强的 IT 架构,比如采用开源数据库 MySQL、MongoDB 等替代 Oracle 数据库,使用基于 x86 架构的 PC 服务器集群取代 IBM 小型机,以及使用分布式存储系统替代传统的高端存储设备,从而降低对单一供应商的依赖,提高 IT 架构的灵活性和经济效益。
“去 IOE”运动在中国尤其引人注目,尤其是阿里巴巴等公司在应对业务爆发式增长和技术自主可控的需求下,提出了摆脱对传统 IOE 架构的依赖,转向自主研发或采用更为开放、性价比更高的软硬件方案。 同时安全因素也推动了这一运动,例如棱镜门事件之后,信息安全的重要性被进一步强化,很多企业和政府机构开始寻求国内技术和产品的替代方案,减少对外部技术的依赖。
版权声明: 本文为 InfoQ 作者【乐只】的原创文章。
原文链接:【http://xie.infoq.cn/article/b6e619b58842a6f1093edc6d8】。文章转载请联系作者。
评论