写点什么

线上问题排查异闻录

作者:小小怪下士
  • 2023-04-11
    湖南
  • 本文字数:1875 字

    阅读完需:约 6 分钟

如何解决堆内存溢出问题

OOM 有很多种情况啊,这里就先讲解最常见也是最容易观测的 java.lang.OutOfMemoryError: Java heap space,也就是堆内存溢出。

发现

启动 Java 程序的时候,最好参数加上-XX:+HeapDumpOnOutOfMemoryError,该参数不影响程序运行,运行时没有任何开销,只有 OOM 时会自动生成 Java Heap Dump(特定时刻 JVM 内存中所有对象的快照)。该文件默认会在运行应用程序同级目录下生成一个格式为 hprof 的文件,当然也可以使用参数-XX:HeapDumpPath=/data 指定生成到 data 文件夹下。



这里说一下我对于 Java 程序运行添加参数的一些理解,这是我项目的一个常规启动命令,java -javaagent:/usr/local/app/skywalking_agent_zy/skywalking-agent.jar -Dskywalking.agent.service_name=appName−Dskywalking.collector.backendservice={appName} -Dskywalking.collector.backend_service=appName−Dskywalking.collector.backendservice={skywalkingIp}:skywalkingPort−Dskywalking.plugin.toolkit.log.grpc.reporter.serverhost={skywalkingPort} -Dskywalking.plugin.toolkit.log.grpc.reporter.server_host=skywalkingPort−Dskywalking.plugin.toolkit.log.grpc.reporter.serverh​ost={skywalkingIp} jvmoption−Dserver.port=8080−Denv=jvmoption -Dserver.port=8080 -Denv=jvmoption−Dserver.port=8080−Denv={env} -jar /usr/local/app/app.jar。${}占位符这里是在 DevOps 上面配的,当然大家也没必要关注,嘻嘻。这里这个 env 是公司框架让配的环境参数,前面 Javaagent 一堆参数都是 skywalking 要用的。


除开这些客制化的东西,对于普通的应用,一般配置堆大小相同比较好,因为通常来说一个服务器或者容器只会有一个 Java 应用,释放内存给谁用呢,是吧,没那必要。JVM 初始分配的堆内存由-Xms 指定,默认是物理内存的 1/64,JVM 最大分配的堆内存由-Xmx 指定,默认是物理内存的 1/4。默认空余堆内存小于 40%时,JVM 就会增大堆直到-Xmx 的最大限制,空余堆内存大于 70%时,JVM 会减少堆直到-Xms 的最小限制。因此一般设置-Xms、-Xmx 相等以避免在每次 GC 后调整堆的大小。

定位

拿到 hprof 文件后,可以选用 jvisualvm(Jdk8 之后不自带,需要到 Github 上下载)、JProfiler 和 IDEA 的 Profiler(旗舰版才有)打开文件,三者的操作逻辑都是类似的,目前我用的最舒服的是 JProfiler,以下就拿 JProfiler 截图举例。



导入 hprof 文件到 JProfiler 之后经过解析,默认会跳到该界面,这里直接选上面的最大对象,继续解析。



这里右键选定比较大的对象后会弹出这样一个框,选择引用-传入引用。为啥是传入引用呢,因为我们要找问题的源头啊,哪里来的才是比较重要的。



找到对应堆栈信息,点击显示更多,即可发现带恶人。



以上就是一次完整的查询过程,如果点开发现都是差不多的内容,为了少点几次,保护鼠标,我建议可以换成旭日图更加便捷地查看



可以观察到相对类型地这个对象比较多啊,这里点击一下这块进入内部查询


如何解决 CPU 占用高问题

CPU 占用高的问题就没有挂了之后自动 dump 文件的好事了。这时候需要善用 jstack、监控和 Arthas 等工具。

发现

正常来说,咱们会有监控软件去监控服务器的一些性能指标,我这用的是 Prometheus+Grafana,非常大众哈。



如图可以观察到一个服务器 CPU 占用的折线图,配合告警可以及时通知相关人员定位问题。

定位-传统武学

通过上面地监控及时发现问题,接下来就该上手具体的操作了。


  1. top -o %CPU,Linux 上按 CPU 从大到小排序,找到占用最多的 PID(这里假设是 Java 应用)

  2. jstack pid > thread.txt,通过 jstack 命令打印当前 Java 应用的堆栈信息

  3. top -Hp pid,通过该命令观察此 pid 进程中所有线程的 CPU 占用

  4. 找到线程 pid,通过命令 printf '%x\n' pid 得到转换为 16 进制的 nid

  5. 在 jstack 获得的文件 thread.txt 中,找到 nid 对应的线程堆栈信息,找到对应代码块即可

  6. 通常除了 CPU 占用过高的线程,还需要重点关注线程状态为 BLOCKED、WAITING 和 TIMED_WAITING 的部分

定位-新派宝典

我一开始接触的也是传统武学,啪啪啪一堆命令敲得也是非常麻烦嗷,那有没有开箱即用的好东西呢。没错,那肯定是有的,就是大名鼎鼎的 Arthas 啦。


  1. 下载 Arthas.jar,curl -O arthas.aliyun.com/arthas-boot…

  2. 运行 java -jar arthas-boot.jar 并选择需要监听的 Java 应用,图形化很赞

  3. 输入命令 dashboard 打开看板,随时监控,默认 5000ms 一刷

  4. 针对上面 CPU 问题,直接选择 Thread 系列命令


效果如下,牛中牛中牛,解放双手。相比 jstack 输出的文件,甚至多了 cpuUsage 这个参数,更加直观。



Arthas 还有很多别的牛逼功能,不仅仅是 Jdk 工具的一个打包,更是对前者进行了易用性上的极大优化,同时也提供了很多新功能,要知道这玩意才一百多 KB 啊。

用户头像

还未添加个人签名 2022-09-04 加入

热衷于分享java技术,一起交流学习,探讨技术。 需要Java相关资料的可以+v:xiaoyanya_1

评论

发布
暂无评论
线上问题排查异闻录_Java_小小怪下士_InfoQ写作社区