写点什么

混沌工程

1 人感兴趣 · 76 次引用

  • 最新
  • 推荐

故障演练的逻辑

应用高可用建设往往是基于先验设计的具体实施,描绘一幅看似全面但静态的蓝图,而问题在于,随着部署环境、流量模式和调用依赖的日益复杂,应用系统的运行时处在一个信息过载的状态,没有人能知道将会发生什么,起码不能全部知道。

混沌工程 -Chaos Engineering

1、分布式系统通常过于复杂,任何工程师都无法完全理解,而且任何变更流程都无法完全预先确定变更对环境的影响。

https://static001.geekbang.org/infoq/8b/8b48d628118aedf48974a1793a5e528a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

服务韧性工程(SRE)论坛演讲实录丨中国移动:混沌工程与 SRE 的结合

2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。在当今数字化转型的浪潮中,混沌工程(Chaos Engineering)与服务韧性工程(SRE)的结合应运而生,中国移动信息技术中心的技术专家晁元宁,分享了其在SRE与混沌工程结合的实践和经验。

https://static001.geekbang.org/infoq/8b/8b48d628118aedf48974a1793a5e528a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

服务韧性工程(SRE)论坛演讲实录 | 混沌工程:复杂系统韧性实现之道

2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。在2024年第二届服务韧性工程(SRE)论坛上,混沌工程专家黄帅结合自己十年的实践经验,分享了如何通过混沌工程来增强系统的韧性,以及对未来的深刻思考。

https://static001.geekbang.org/infoq/8b/8b48d628118aedf48974a1793a5e528a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

2024 第二届服务韧性工程(SRE)论坛分会场“SRE 助力出海企业构建健壮的 IT 生态系统”成功举办

2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次大会,特别设置了“SRE助力出海企业构建健壮的IT生态系统”的分会场,为大家呈现了关于出海企业在IT系统建设、合规要求、隐私安全等多方面的实操指南和经验分享

https://static001.geekbang.org/infoq/91/91d651b5cd00ea10338a3e565f6017b1.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云 MongDB 主节点重启

MongoDB 主节点重启(MongDB Primary Node Restart)是指在 MongoDB 集群中,担任主节点的服务器发生故障或需要进行维护时,需要进行重启操作。在 MongoDB 集群中,主节点是负责管理整个集群状态和执行写操作的节点。如果主节点发生故障,整个集群将无法正常

https://static001.geekbang.org/infoq/64/6469c9f6240869eb613ae63d63ccd7b7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云 MySQL 主节点故障

MySQL 主节点故障是指在 MySQL 主从复制架构中,主数据库服务器(主节点)出现问题,无法正常提供数据库服务的情况。主从复制架构通常用于提高数据库的可用性和性能。在这种架构中,主节点负责处理写操作(如插入、更新和删除),而从节点负责处理读操作(如

https://static001.geekbang.org/infoq/92/92fb82ed74758937613afc92416d6eb9.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Pod/Node 内存高负载故障注入

在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行内存负载故障注入,以达到指定的内存占用百分比。腾讯云混沌演练平台故障动作:标准集群Pod/普通节点

https://static001.geekbang.org/infoq/f5/f5b507822059b9a0ce610e645e230745.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Pod/Node CPU 故障注入

在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行 CPU 负载故障注入,以达到指定的 CPU 负载百分比。

https://static001.geekbang.org/infoq/b8/b81cafab259d7d8c8a727e54d015c598.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

CPU 高负载故障演练

服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。然而,在日常的服务运维过程中,CPU 高负载却是非常常见的一种故障场景。引起 CPU 高负载的原因也多种

https://static001.geekbang.org/infoq/5f/5f88e1ead75c2ede64eddcc32ec4a859.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Redis 故障演练 - 主从切换

随着企业对数据处理和存储需求的不断增长,Redis作为一款高性能的内存数据结构存储系统,已成为业界的首选。然而,在Redis中的使用中,会面对一些潜在的故障风险,其中主节点故障,发生主从切换最为常见。

https://static001.geekbang.org/infoq/36/36fddfbeb8fd7c0ad0e9c5287dbfeda9.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

服务宕机灾难预防手段:混沌工程

Salesforce 是领先的云软件应用程序,全球约15万组织数百万员工使用。提供客户关系管理全套服务,包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录,所有数据存储在上面。

https://static001.geekbang.org/infoq/c8/c85e7823ffbe3f947df6e0f2e4171937.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Kafka Broker 开小差了~

现如今,Kafka 作为一个高性能、高可靠性、分布式的消息队列系统,广泛地被应用于大规模互联网服务中,如 Tencent、Facebook、LinkedIn、Netflix、Airbnb 等知名公司。然而,在大规模的分布式系统中,服务的不可预测性、复杂性和耦合性经常会导致一些不可预测

https://static001.geekbang.org/infoq/e9/e971f146b1d3b96cc9b9bdce925b5940.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

当 DNS 遭受攻击时,阁下当如何应对?

DNS攻击(投毒等)是一种比较常见的网络攻击手段。众所周知,当DNS被恶意篡改或者重定向之后,会导致互联网系统的大规模不可用或者甚至数据泄露。但是,长期以来,DNS 在互联网世界中的重要性却被人们所忽略。恶意的 DNS 污染、劫持,缺少高可用、可扩展等问

https://static001.geekbang.org/infoq/dd/dd5f0ab9ee8b595ec2e4a6bc5bb359a7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

混沌工程:是谁背着我偷偷写 Bug 🤸

GreptimeDB 支持以单机和分布式的形式进行部署,因此需要高效的系统来维持部署的运行,于是我们引入了混沌工程(Chaos engineering) 来提高系统的健壮性。

https://static001.geekbang.org/infoq/4d/4da1f3222aaa41d993dbc521fde53881.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

自动化混沌工程 ChaosMeta V0.6 版本发布

用户头像
ChaosMeta
2023-11-01

混沌工程 ChaosMeta 的全新版本 V0.6.0 现已正式发布!该版本包含了许多新特性和增强功能,在编排界面提供了包括流量注入、度量等各类节点的支持,可视化支撑演练全流程。解决混沌工程原则中“持续自动化运行实验”的最后一公里问题。

https://static001.geekbang.org/infoq/a0/a04a11896dc27080e17de0c00227ccbf.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

混沌工程 GameDay

GameDay在混沌工程中可以理解为一次有计划的演练实践活动,可以持续一天,也可以持续几个小时,也可以持续几天,持续时间根据具体的目标而定。GameDay活动旨在对系统如何应对现实世界中的混乱状况进行演习。通常来讲,实施混沌GameDay的团队需要探索下面几个

https://static001.geekbang.org/infoq/5f/5fc3b743d8a100738af8bd1cc6671422.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

混沌工程稳态假说

混沌工程旨在帮助建立对系统在面对各种复杂的故障状况下的信心,帮助发现系统薄弱点。一种操作方法是直接引入各种混乱状况,比如破坏网络、引入延迟等,然后看看哪里会崩溃。然而混沌工程是一种科学的稳定性建设方案,目的是发现系统薄弱点,而非简单的测试工

https://static001.geekbang.org/infoq/e5/e578f1cdcbd93cc32657fe50cc0ebe41.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

混沌工程理念:起源

在互联网及互联网+发展的高速期,简单的单体系统已经无法满足互联网用户的需求,逐渐从单体系统向分布式微服务架构系统演进。演进历程可以概括为以下几个阶段:

https://static001.geekbang.org/infoq/cb/cb77501c3dc41541c9e1ff21cab43ebd.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

云上稳定性保障神器——腾讯云混沌演练平台登场!

InfoQ的小伙伴们大家好,欢迎来到「腾讯云混沌演练平台」的官方账号!我们的使命是推广云上稳定性保障之道,向大家腾讯云混沌演练平台的强大功能和优势。很高兴能在与InfoQ的志同道合的各位共同成长!

https://static001.geekbang.org/infoq/51/5109bddc448bf653fe9e0147b013bc55.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

蚂蚁集团混沌工程 ChaosMeta V0.5 版本发布

用户头像
ChaosMeta
2023-09-04

混沌工程 ChaosMeta 的全新版本 V0.5 现已正式发布!该版本包含了许多新特性和增强功能,为用户提供了支撑混沌工程各个阶段的平台能力,以及降低使用门槛的用户界面。

https://static001.geekbang.org/infoq/00/00fa3927cb6e4bca15627fe3522372e7.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

强化服务韧性:ChaosBlade 磁盘故障模拟的原理与应用

磁盘故障是现实生活中很常见的一种故障,了解如何模拟磁盘故障更方便我们对系统进行演练,从而去验证磁盘故障下服务的稳定性和应急手段,

https://static001.geekbang.org/infoq/27/27ef114526bb1ab35fecedd258bb6259.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

助力 618-Y 的混沌实践之路 | 京东云技术团队

近三年,京东混沌工程作为大促三道防线之一,在促前扮演了非常重要的角色,而Y的混沌实践,也在不断地进行升级,主要从应用覆盖率和场景覆盖率两个方向明确提升方向,并在集团混沌大赛上取得了一系列突破和成绩。

https://static001.geekbang.org/infoq/36/36ebe6f75d1dc8b63b11acb41252cfc3.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

揭秘 ChaosBlade CPU 故障:实现 CPU 故障的黑科技

通过本文我们将了解如何利用 ChaosBlade 实现 CPU 负载故障的模拟(花式打爆CPU),同时会深入挖掘 ChaosBlade CPU 故障模拟的核心代码,了解其实现机制。

https://static001.geekbang.org/infoq/81/8149294213458e68ecbb372038686bd6.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

蚂蚁集团自动化混沌工程 ChaosMeta 正式开源

用户头像
ChaosMeta
2023-06-19

ChaosMeta 是一款面向云原生、自动化演练而设计的混沌工程平台。它是蚂蚁集团内部混沌工程平台 XMonkey 的对外开源版本,凝聚了蚂蚁集团在公司级大规模红蓝攻防演练实践中多年积累的方法论、技术能力以及产品能力。

https://static001.geekbang.org/infoq/b9/b91879851bb41a5b2266b48cc98dd33b.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

混沌演练状态下,如何降低应用的 MTTR(平均恢复时间) | 京东云技术团队

如何在混沌演练的场景中降低应用的MTTR,必须需要根据监控定位,然后人工进行反馈进行处理吗?是否可以自动化,是否有方案可以降低混沌演练过程中的影响?以此达到快速止血,进一步提高系统的稳定性。本篇文章将根据一些思考和实践来解答以上问题。

https://static001.geekbang.org/infoq/ec/ec129c8b546d928ebecfd3dd60fbdf4c.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

我对混沌工程的理解

用户头像
老张
2023-06-09

重新认识混沌工程。

https://static001.geekbang.org/infoq/36/36b32d5f9928f609d1a625bb3c7448f8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

主动发现系统稳定性缺陷:混沌工程 | 京东云技术团队

这是一篇较为详细的混沌工程调研报告,包含了背景,现状,京东混沌工程实践,希望帮助大家更好的了解到混沌工程技术,通过混沌工程实验,更好的为系统保驾护航。

https://static001.geekbang.org/infoq/84/84e52f9a38e4de57af15e827635b31da.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

混沌演练实践(二)- 支付加挂链路演练 | 京东云技术团队

当前微服务架构下,各个服务间依赖高,调用关系复杂,业务场景很少可以通过一个系统来实现,常见的业务场景实现基本涉及多个上下游系统,要保证整体链路的稳定性,需要尽量减少系统之间的耦合性,避免因为单点失效引起整个链路的故障。

混沌工程_混沌工程技术文章_InfoQ写作社区