项目上线之后，出现过线上问题吗？怎么排查和解决的？

作者：王中阳Go

2024-11-19
北京
本文字数：3470 字
阅读完需：约 11 分钟

在面试中，相信大家都遇到过这个问题。

本文将通过训练营内部抽奖项目的问题案例——抽奖结果通知延迟和抽奖列表加载缓慢，讲清楚它们的解决方法和优化策略。

回答思路

这些问题都是在我负责的项目中出现过的，给我留下了深刻的印象。

一、出现的线上问题

抽奖结果通知延迟
问题表现：有部分中奖用户未能及时收到抽奖结果通知，影响了用户体验。
影响范围：部分中奖用户。
抽奖列表加载缓慢
问题表现：在高峰时段，用户获取抽奖列表的速度明显变慢，甚至出现长时间等待的情况。
影响范围：所有查询抽奖列表的用户。

二、问题排查

对于抽奖结果通知延迟问题
检查消息队列（如 Kafka）的运行状态，确认是否存在消息积压或消费缓慢的情况。
查看异步任务队列（如 Asynq）的日志，确定开奖策略执行和通知发送的时间点。
检查小程序端的网络连接情况，排除网络问题导致的通知接收延迟。
对于抽奖列表加载缓慢问题
分析数据库性能指标，查看是否存在查询瓶颈，如慢查询、索引失效等问题。
检查缓存的命中率和过期策略，确定是否因为缓存未命中或频繁过期导致重新从数据库加载数据。
监控服务器的资源使用情况，包括 CPU、内存、网络带宽等，判断是否因为资源不足导致性能下降。

三、问题解决

针对抽奖结果通知延迟问题
优化消息队列：通过调整 Kafka 的消息队列配置，比如增加消费者的数量和消费速率，确保消息能够迅速被处理。
调整任务队列：修改 Asynq 任务队列的执行间隔和并发限制，确保开奖策略执行和通知推送的及时性。
增强客户端功能：在小程序中增加通知重试机制，若用户在设定时间内没有接收到通知，则自动重新查询抽奖结果。
针对抽奖列表加载缓慢问题
优化数据库查询：对抽奖列表的查询语句进行优化，引入更适合的索引，提高数据库查询效率。
改进缓存策略：延长缓存的有效期，减少因缓存失效而导致的数据库访问次数。同时，采用缓存预热机制，在高峰时段前提前将热门抽奖数据加载到缓存中。
动态调整服务容量：根据服务器的实际负载，利用 Docker 和 Kubernetes 等技术实现服务的自动扩展和收缩，确保系统能够在高峰期保持良好的响应速度。

代码示例

为了便于理解和应用上述解决方案，下面提供了一些关键的代码示例。

2.1 使用 Go 语言和 Kafka 消息队列优化消费者数量和消费速度

package main
import (    "fmt"    "github.com/Shopify/sarama"    "time")
func main() {    config := sarama.NewConfig()    // 设置消费者组    config.Consumer.Group.Rebalance.Strategy = sarama.BalanceStrategyRange    // 增加消费者数量    config.Consumer.Group.MembershipRebalanceTimeout = 5 * time.Second    config.Consumer.Fetch.Min = 1024    config.Consumer.Fetch.Default = 10 * 1024    config.Consumer.MaxWaitTime = 2 * time.Second
    // 创建消费者    consumer, err := sarama.NewConsumer([]string{"your-kafka-broker-address"}, config)    if err != nil {        panic(err)    }    defer consumer.Close()
    // 订阅主题    partitionConsumer, err := consumer.ConsumePartition("your-topic", 0, sarama.OffsetNewest)    if err != nil {        panic(err)    }    defer partitionConsumer.Close()
    // 处理消息    for msg := range partitionConsumer.Messages() {        fmt.Printf("Received message: %s\n", string(msg.Value))        // 处理通知消息的逻辑    }}

复制代码

在上述代码中，通过设置sarama.Config的参数来优化消费者的行为，增加了消费者数量（可以通过多个消费者组或多个分区消费者来实现）和消费速度（调整Fetch.Min、Fetch.Default和MaxWaitTime等参数），以确保能够及时处理通知消息。同时，要确保 Kafka 集群的配置也能够支持高并发的消费。

2.2 使用 Go 语言结合 Redis 实现调整缓存策略和缓存预热

package main
import (    "context"    "fmt"    "time"
    "github.com/go-redis/redis/v8")
var ctx = context.Background()var redisClient *redis.Client
func init() {    redisClient = redis.NewClient(&redis.Options{        Addr:     "localhost:6379",        Password: "",        DB:       0,    })}
// 设置缓存并延长过期时间func setWithExtendedTTL(key string, value interface{}, expiration time.Duration) error {    return redisClient.Set(ctx, key, value, expiration).Err()}
// 获取缓存func getFromCache(key string) (string, error) {    return redisClient.Get(ctx, key).Result()}
// 缓存预热（假设热门抽奖数据的key有特定前缀）func warmUpCache() {    // 假设热门抽奖数据的key前缀为"hot_lottery_"    for i := 1; i <= 10; i++ {        key := fmt.Sprintf("hot_lottery_%d", i)        // 这里模拟从数据库获取热门抽奖数据        value := fmt.Sprintf("Hot lottery data %d", i)        err := setWithExtendedTTL(key, value, 2*time.Hour)        if err != nil {            fmt.Printf("Error warming up cache for key %s: %v\n", key, err)        }    }}

复制代码

你可以在项目启动时调用warmUpCache函数进行缓存预热，并且在设置缓存数据时使用setWithExtendedTTL函数来延长缓存过期时间，减少缓存未命中的情况。注意：代码中的模拟数据只是为了示例目的，实际应用中需要从真实的数据源获取数据进行缓存预热。

2.3 监控 Linux 服务器的资源使用情况，包括 CPU、内存、网络带宽等，常用命令有哪些？

1. CPU 监控

top
这是一个功能强大且常用的命令。运行top后，会实时显示系统的进程信息以及 CPU、内存等资源的使用情况。
输出结果中，%Cpu(s)部分展示了总的 CPU 使用率，包括us（用户空间占用 CPU 百分比）、sy（内核空间占用 CPU 百分比）、ni（用户进程空间内改变过优先级的进程占用 CPU 百分比）、id（空闲 CPU 百分比）、wa（等待输入输出的 CPU 时间百分比）等子项。
对于每个进程，%CPU列显示该进程占用 CPU 的百分比，可以据此找出占用 CPU 资源较高的进程。
mpstat
用于查看多处理器系统的 CPU 统计信息。例如，mpstat -P ALL 1命令会每秒更新一次所有 CPU 核心的使用情况。
输出结果包括每个 CPU 核心的%usr（用户模式时间百分比）、%nice（用户模式下 nice 值为负的进程占用 CPU 时间百分比）、%sys（内核模式时间百分比）、%iowait（等待 I/O 完成时间百分比）等信息，方便查看各个核心的负载情况。
vmstat
可以查看 CPU 和其他系统资源的综合情况。例如，vmstat 1（每秒更新一次）。
在输出中，r列表示运行队列中的进程数量，b列表示处于不可中断睡眠状态的进程数量，us（用户 CPU 时间百分比）、sy（系统 CPU 时间百分比）、id（空闲 CPU 时间百分比）等列能帮助判断 CPU 的使用状态。

2. 内存监控

free
简单直观地显示系统内存的使用情况。free -h命令以人类可读的格式（如 KB、MB、GB）输出内存信息。
输出内容包括total（总内存）、used（已使用内存）、free（空闲内存）、shared（共享内存）、buff/cache（缓冲/缓存内存）等项，并且还会显示available（可用于启动新应用的内存）。
vmstat
除了能查看 CPU 信息外，也能监控内存。swpd列表示交换分区（虚拟内存）的使用量，free列是空闲物理内存量，buff（缓冲内存）和cache（缓存内存）列的大小也能帮助了解内存的使用情况。
top
在top命令的输出中，%MEM列显示每个进程占用内存的百分比，同时也可以看到系统总的内存使用情况，包括总内存、已用内存和空闲内存等信息。

3. 网络带宽监控

ifconfig（较旧但仍常用）或 ip
ifconfig可以查看网络接口的基本信息。例如，ifconfig eth0（假设 eth0 是网络接口）可以查看该接口接收和发送的字节数、数据包数量等。
ip -s link show dev eth0（较新的方式）也可以查看类似的网络接口统计信息，包括接收和发送的字节数、数据包数量、错误数等详细数据。
nload
这是一个实时查看网络带宽使用情况的实用命令。运行nload后，会显示网络接口的入站和出站流量，以直观的图表形式展示带宽使用情况，并且可以通过-i和-o选项指定要监控的网络接口的入站和出站带宽。
sar -n DEV
sar -n DEV 1命令可以每秒更新一次网络设备的统计信息。
输出内容包括每个网络接口的接收和发送的数据包数量（rxpck/s和txpck/s）、字节数（rxbyt/s和txbyt/s）等详细数据，用于查看网络接口的吞吐率。

希望这些经验和方法能够给你带来启发和帮助。

欢迎关注 ❤

我们搞了一个免费的面试真题共享群，互通有无，一起刷题进步。

没准能让你能刷到自己意向公司的最新面试题呢。

感兴趣的朋友们可以加我微信：wangzhongyang1993，备注：infoq 面试群。

发布于: 刚刚阅读数: 4

王中阳Go

关注

靠敲代码在北京买房的程序员 2022-10-09 加入

【微信】wangzhongyang1993【公众号】程序员升职加薪之旅【成就】InfoQ专家博主👍掘金签约作者👍B站&掘金&CSDN&思否等全平台账号：王中阳Go

发布

暂无评论

创作场景