arthas 火焰图(async-profiler)在云交易中的运用
data:image/s3,"s3://crabby-images/75ee9/75ee96640184925569ee5d12f8a12387913662c0" alt="arthas火焰图(async-profiler)在云交易中的运用"
在日常工作中经常会遇到系统应用出现 full gc、cpu 内存飙高等场景,如果想要快速解决这些线上问题就需要首先能快速定位,最好能定位到具体代码。本文旨在通过一款线上监控诊断产品,阿里巴巴的 arthas(阿尔萨斯)内部集成的火焰图工具 async-profiler 结合自身系统应用中的使用,方便我们能够快速定位线上问题。
一、背景
1、在订单域任务系统,master 机器和 slaver 机器频繁出现 full gc 和 cpu 间歇性升高的现象,young GC 也出现平均 1 分钟 10 次。master 机器线程也增加到 1500 左右。系统应用采用的是 CMS 垃圾回收器,4c8g 分配堆内存大小 4G。但是堆内存和非堆内存正常。
2、随着时间推移,full gc 从每隔 20 分钟一次变成 每个 5 分钟或者 3 分钟一次,stop the world。FULL GC 和 Young GC 不正常,如下图。
data:image/s3,"s3://crabby-images/a4449/a44498108589b86a692b9117f00810e478653a43" alt=""
data:image/s3,"s3://crabby-images/e762c/e762c8d0f552a1f2975b14661d5f4b4d68a189e6" alt=""
堆内存和非堆内存正常。
data:image/s3,"s3://crabby-images/ff579/ff579684d7d3cb0f51394bbd4dda2452330b395e" alt=""
CPU 一分钟一次达到高点,部分机器达到 75%以上。线程,在上午超过 1400,重启后正常。
data:image/s3,"s3://crabby-images/3bd01/3bd01bcf6408806af2dec66e2790f8ea8c6da8e9" alt=""
data:image/s3,"s3://crabby-images/58edc/58edca4c57d9638bd71e40010760b35bd913ef83" alt=""
系统稳定性受到挑战,需要尽快排查出问题所在。
二、工具选型及实践
市面上很多排查工具,怎样才能快速排查出问题。结合 arthas、async-profiler 火焰图(采样)、visualVM(跨时间 dump 文件对比)、gceasy 这四种工具,都进行实战对比。
1、arthas 分析
下图分析 master 机器是反序列化商品域渠道配置接口对象耗 CPU
data:image/s3,"s3://crabby-images/689ca/689ca7517fcad9112e022eff741c271b61d10dad" alt=""
下图也发现反查快手任务也会引起高 cpu。分析这台机器既是 master,又是 slaver。slaver 会执行反查快手任务。
data:image/s3,"s3://crabby-images/497dc/497dc4c026efbdb7717733cd0384dc4873cfe809" alt=""
2、visualVM 分析
dump 两个文件,跨时一天,进行对比。
启动 visualVM
cd /Library/Java/JavaVirtualMachines/jdk1.8.0_191.jdk/Contents/Home/bin
jvisualvm
/Library/Java/JavaVirtualMachines/jdk1.8.0_191.jdk/Contents/Home/lib/visualvm 目录下 visualvm.conf 修改内存空间大小
data:image/s3,"s3://crabby-images/414b7/414b724daefc22feaf456d8240abe40aa2f0a84b" alt=""
对比发现,最大是查询 ES 的数据,反序列化对象并不是最大,但是也能在 dump 文件中查找到。因为 arthas 查的是 CPU 和线程,dump 文件是内存,所以不完全一致。
data:image/s3,"s3://crabby-images/14708/14708c2ac6070c6409b28be8b6a435abd743b0a2" alt=""
一次 500 个
data:image/s3,"s3://crabby-images/b5acd/b5acd25a09db892309fd0b83d09e4618d9c933ea" alt=""
3、gceasy 分析
修改 jvm,-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:./gc.log,打印 gc 日志。
通过gceasy.io线上对比工具,没有内存泄露,但是也未发现 gc 产生的具体原因。
data:image/s3,"s3://crabby-images/9e5e2/9e5e2f805d096a88113acd38613db0529b107e92" alt=""
4、async-profiler 火焰图
data:image/s3,"s3://crabby-images/d287f/d287f54b65ef5974bc3acc1e784136392c6e6e09" alt=""
从上图,看到主要分为两大部分,左边的反查快手任务(因 master 机器,既是 master,也是 slaver),右边是扫描 es 里面代扣任务的反序列化对象占用很大比重。和 arthas 分析的一样。
下载内存火焰图, 可以看到左边也是快手反查,右边则是查询 ES(包含反序列化对象)。和 dump 文件比较能核对上。
data:image/s3,"s3://crabby-images/d87e9/d87e92dc0e2a2de142fec2e5a1ee760b74e3812f" alt=""
三、修复上线
根据上述四种工具的排查过程,可以明显看到使用 arthas 集成的 async-profiler 更直观和方便,便于定位问题。在修改对应的代码后,上线进行后续观察系统稳定正常。
data:image/s3,"s3://crabby-images/62e9c/62e9c06099f6b7f0f0a0f4f6d26386a6f26c34e6" alt=""
四、使用步骤
async-profiler 火焰图。
1、申请堡垒机(root 权限)
2、登陆以后下载 最新的 jar 包 wget https://alibaba.github.io/arthas/arthas-boot.jar
3、安装(admin 权限 cd)java -jar arthas-boot.jar
4、查看 cpu 耗时、dashboard(q 命令表示退出)、thread
5、profiler start 启动火焰图工具进行采样
data:image/s3,"s3://crabby-images/f2d83/f2d8329a2c08ed474cb3d706b674131243295343" alt=""
profiler getSamples
profiler status
profiler stop --format html。生成火焰图
6、下载火焰图
data:image/s3,"s3://crabby-images/978ea/978ead9f2c6223af78c3d5605e7c9318dcbbd507" alt=""
7、多种维度:
lock 锁对象\alloc 内存\默认 cpu
data:image/s3,"s3://crabby-images/eb548/eb548b1293682bd242797859940fda54e636c25f" alt=""
8、效果
data:image/s3,"s3://crabby-images/c068d/c068dc429ca9533e1d48fff14d6e2682d54a213b" alt=""
data:image/s3,"s3://crabby-images/ba0f3/ba0f311c98376b486828a12dee5a10dbbe1a1950" alt=""
CPU\内存等不同的火焰图
9、其他
还可以反编译 jar 包的代码
data:image/s3,"s3://crabby-images/069c9/069c97e4f8614d148fe7c5d963d669fe800660ce" alt=""
统计方法调用时间
data:image/s3,"s3://crabby-images/d8666/d8666a248e66aa496092b8524c018fe573fb9cc7" alt=""
以上。本文旨在通过具体的场景运用和实操,介绍 arthas 火焰图如何在系统中快速定位问题,欢迎感兴趣的同事一起学习探讨。
作者:交易研发 郭森
来源:京东零售技术 转载请注明来源
版权声明: 本文为 InfoQ 作者【京东零售技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/517dbcd2eee06ece37266abcc】。文章转载请联系作者。
评论