混沌工程
1 人感兴趣 · 76 次引用
- 最新
- 推荐

服务韧性工程(SRE)论坛演讲实录 | 混沌工程:复杂系统韧性实现之道
2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。在2024年第二届服务韧性工程(SRE)论坛上,混沌工程专家黄帅结合自己十年的实践经验,分享了如何通过混沌工程来增强系统的韧性,以及对未来的深刻思考。

云 MongDB 主节点重启
MongoDB 主节点重启(MongDB Primary Node Restart)是指在 MongoDB 集群中,担任主节点的服务器发生故障或需要进行维护时,需要进行重启操作。在 MongoDB 集群中,主节点是负责管理整个集群状态和执行写操作的节点。如果主节点发生故障,整个集群将无法正常

云 MySQL 主节点故障
MySQL 主节点故障是指在 MySQL 主从复制架构中,主数据库服务器(主节点)出现问题,无法正常提供数据库服务的情况。主从复制架构通常用于提高数据库的可用性和性能。在这种架构中,主节点负责处理写操作(如插入、更新和删除),而从节点负责处理读操作(如

Pod/Node 内存高负载故障注入
在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行内存负载故障注入,以达到指定的内存占用百分比。腾讯云混沌演练平台故障动作:标准集群Pod/普通节点

Pod/Node CPU 故障注入
在复杂的分布式系统中,为了验证服务质量、监控告警、流量调度、弹性伸缩等能力,我们需要模拟不同的故障场景。本文将介绍如何使用混沌工具对 Pod/Node 进行 CPU 负载故障注入,以达到指定的 CPU 负载百分比。

CPU 高负载故障演练
服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。然而,在日常的服务运维过程中,CPU 高负载却是非常常见的一种故障场景。引起 CPU 高负载的原因也多种

Redis 故障演练 - 主从切换
随着企业对数据处理和存储需求的不断增长,Redis作为一款高性能的内存数据结构存储系统,已成为业界的首选。然而,在Redis中的使用中,会面对一些潜在的故障风险,其中主节点故障,发生主从切换最为常见。

服务宕机灾难预防手段:混沌工程
Salesforce 是领先的云软件应用程序,全球约15万组织数百万员工使用。提供客户关系管理全套服务,包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录,所有数据存储在上面。

Kafka Broker 开小差了~
现如今,Kafka 作为一个高性能、高可靠性、分布式的消息队列系统,广泛地被应用于大规模互联网服务中,如 Tencent、Facebook、LinkedIn、Netflix、Airbnb 等知名公司。然而,在大规模的分布式系统中,服务的不可预测性、复杂性和耦合性经常会导致一些不可预测


当 DNS 遭受攻击时,阁下当如何应对?
DNS攻击(投毒等)是一种比较常见的网络攻击手段。众所周知,当DNS被恶意篡改或者重定向之后,会导致互联网系统的大规模不可用或者甚至数据泄露。但是,长期以来,DNS 在互联网世界中的重要性却被人们所忽略。恶意的 DNS 污染、劫持,缺少高可用、可扩展等问

混沌工程:是谁背着我偷偷写 Bug 🤸
GreptimeDB 支持以单机和分布式的形式进行部署,因此需要高效的系统来维持部署的运行,于是我们引入了混沌工程(Chaos engineering) 来提高系统的健壮性。

云上稳定性保障神器——腾讯云混沌演练平台登场!
InfoQ的小伙伴们大家好,欢迎来到「腾讯云混沌演练平台」的官方账号!我们的使命是推广云上稳定性保障之道,向大家腾讯云混沌演练平台的强大功能和优势。很高兴能在与InfoQ的志同道合的各位共同成长!

强化服务韧性:ChaosBlade 磁盘故障模拟的原理与应用
磁盘故障是现实生活中很常见的一种故障,了解如何模拟磁盘故障更方便我们对系统进行演练,从而去验证磁盘故障下服务的稳定性和应急手段,

助力 618-Y 的混沌实践之路 | 京东云技术团队
近三年,京东混沌工程作为大促三道防线之一,在促前扮演了非常重要的角色,而Y的混沌实践,也在不断地进行升级,主要从应用覆盖率和场景覆盖率两个方向明确提升方向,并在集团混沌大赛上取得了一系列突破和成绩。

揭秘 ChaosBlade CPU 故障:实现 CPU 故障的黑科技
通过本文我们将了解如何利用 ChaosBlade 实现 CPU 负载故障的模拟(花式打爆CPU),同时会深入挖掘 ChaosBlade CPU 故障模拟的核心代码,了解其实现机制。

蚂蚁集团自动化混沌工程 ChaosMeta 正式开源
ChaosMeta 是一款面向云原生、自动化演练而设计的混沌工程平台。它是蚂蚁集团内部混沌工程平台 XMonkey 的对外开源版本,凝聚了蚂蚁集团在公司级大规模红蓝攻防演练实践中多年积累的方法论、技术能力以及产品能力。

混沌演练状态下,如何降低应用的 MTTR(平均恢复时间) | 京东云技术团队
如何在混沌演练的场景中降低应用的MTTR,必须需要根据监控定位,然后人工进行反馈进行处理吗?是否可以自动化,是否有方案可以降低混沌演练过程中的影响?以此达到快速止血,进一步提高系统的稳定性。本篇文章将根据一些思考和实践来解答以上问题。

主动发现系统稳定性缺陷:混沌工程 | 京东云技术团队
这是一篇较为详细的混沌工程调研报告,包含了背景,现状,京东混沌工程实践,希望帮助大家更好的了解到混沌工程技术,通过混沌工程实验,更好的为系统保驾护航。

混沌演练实践(二)- 支付加挂链路演练 | 京东云技术团队
当前微服务架构下,各个服务间依赖高,调用关系复杂,业务场景很少可以通过一个系统来实现,常见的业务场景实现基本涉及多个上下游系统,要保证整体链路的稳定性,需要尽量减少系统之间的耦合性,避免因为单点失效引起整个链路的故障。