填坑总结:python 内存泄漏排查小技巧
摘要:最近服务遇到了内存泄漏问题,运维同学紧急呼叫解决,于是在解决问题之余也系统记录了下内存泄漏问题的常见解决思路。
本文分享自华为云社区《python内存泄漏排查小技巧》,作者:lutianfei。
最近服务遇到了内存泄漏问题,运维同学紧急呼叫解决,于是在解决问题之余也系统记录了下内存泄漏问题的常见解决思路。
首先搞清楚了本次问题的现象:
服务在 13 号上线过一次,而从 23 号开始,出现内存不断攀升问题,达到预警值重启实例后,攀升速度反而更快。
服务分别部署在了 A、B 2 种芯片上,但除模型推理外,几乎所有的预处理、后处理共享一套代码。而 B 芯片出现内存泄漏警告,A 芯片未出现任何异常。
思路一:研究新旧源码及二方库依赖差异
根据以上两个条件,首先想到的是 13 号的更新引入的问题,而更新可能来自两个方面:
自研代码
二方依赖代码
从上述两个角度出发:
一方面,分别用 Git 历史信息和 BeyondCompare 工具对比了两个版本的源码,并重点走读了下 A、B 两款芯片代码单独处理的部分,均未发现任何异常。
另一方面,通过 pip list 命令对比两个镜像包中的二方包,发现仅有 pytz 时区工具依赖的版本有变化。
经过研究分析,认为此包导致的内存泄漏的可能性不大,因此暂且放下。
至此,通过研究新旧版本源码变化找出内存泄漏问题这条路,似乎有点走不下去了。
思路二:监测新旧版本内存变化差异
目前 python 常用的内存检测工具有 pympler、objgraph、tracemalloc 等。
首先,通过 objgraph 工具,对新旧服务中的 TOP50 变量类型进行了观察统计
objraph 常用命令如下:
这里为了更好的观测变化曲线,我简单做了个封装,使数据直接输出到了 csv 文件以便观察。
如下图所示,用一批图片在新旧两个版本上跑了 1 个小时,一切稳如老狗,各类型的数量没有一丝波澜。
此时,想到自己一般在转测或上线前都会将一批异常格式的图片拿来做个边界验证。
虽然这些异常,测试同学上线前肯定都已经验证过了,但死马当成活马医就顺手拿来测了一下。
平静数据就此被打破了,如下图红框所示:dict、function、method、tuple、traceback 等重要类型的数量开始不断攀升。
而此时镜像内存亦不断增加且毫无收敛迹象。
由此,虽无法确认是否为线上问题,但至少定位出了一个 bug。而此时回头检查日志,发现了一个奇怪的现象:正常情况下特殊图片导致的异常,日志应该输出如下信息,即 check_image_type 方法在异常栈中只会打印一次。
但现状是 check_image_type 方法循环重复打印了多次,且重复次数随着测试次数在一起变多。
重新研究了这块儿的异常处理代码。
异常声明如下:
抛异常代码如下:
问题所在
思考后大概想清楚了问题根源:
这里每个异常实例相当于被定义成了一个全局变量,而在抛异常的时候,抛出的也正是这个全局变量。当此全局变量被压入异常栈处理完成之后,也并不会被回收。
因此随着错误格式图片调用的不断增多,异常栈中的信息也会不断增多。而且由于异常中还包含着请求图片信息,因此内存会呈 MB 级别的增加。
但这部分代码上线已久,线上如果真的也是这里导致的问题,为何之前没有任何问题,而且为何在 A 芯片上也没有出现任何问题?带着以上两个疑问,我们做了两个验证:
首先,确认了之前的版本以及 A 芯片上同样会出现此问题。
其次,我们查看了线上的调用记录,发现最近刚好新接入了一个客户,而且出现了大量使用类似问题的图片调用某局点(该局点大部分为 B 芯片)服务的现象。我们找了些线上实例,从日志中也观测到了同样的现象。
由此,以上疑问基本得到了解释,修复此 bug 后,内存溢出问题不再出现。
进阶思路
讲道理,问题解决到这个地步似乎可以收工了。但我问了自己一个问题,如果当初没有打印这一行日志,或者开发人员偷懒没有把异常栈全部打出来,那应该如何去定位?
带着这样的问题我继续研究了下 objgraph、pympler 工具。
前文已经定位到了在异常图片情况下会出现内存泄漏,因此重点来看下此时有哪些异样情况:
通过如下命令,我们可以看到每次异常出现时,内存中都增加了哪些变量以及增加的内存情况。
使用 objgraph 工具 objgraph.show_growth(limit=20)
使用 pympler 工具
通过如下代码,可以打印出这些新增变量来自哪些引用,以便进一步分析。
通过 graphviz 的 dot 工具,对上面生产的 graph 格式数据转换成如下图片:
这里,由于 dict、list、frame、tuple、method 等基本类型数量太多,观测较难,因此这里先做了过滤。
内存新增的 ImageReqWrapper 的调用链
内存新增的 traceback 的调用链:
虽然带着前面的先验知识,使我们很自然的就关注到了 traceback 和其对应的 IMAGE_FORMAT_EXCEPTION 异常。
但通过思考为何上面这些本应在服务调用结束后就被回收的变量却没有被回收,尤其是所有的 traceback 变量在被 IMAGE_FORMAT_EXCEPTION 异常调用后就无法回收等这些现象;同时再做一些小实验,相信很快就能定位到问题根源。
另,关于 python3 中 缓存 Exception 导致的内存泄漏问题,知乎有一篇讲的相对更清楚一点:https://zhuanlan.zhihu.com/p/38600861
至此,我们可以得出结论如下:由于抛出的异常无法回收,导致对应的异常栈、请求体等变量都无法被回收,而请求体中由于包含图片信息因此每次这类请求都会导致 MB 级别的内存泄漏。
另外,研究过程中还发现 python3 自带了一个内存分析工具 tracemalloc,通过如下代码就可以观察代码行与内存之间的关系,虽然可能未必精确,但也能大概提供一些线索。
参考文章
https://testerhome.com/articles/19870?order_by=created_at&
https://blog.51cto.com/u_3423936/3019476
https://segmentfault.com/a/1190000038277797
https://www.cnblogs.com/zzbj/p/13532156.html
https://drmingdrmer.github.io/tech/programming/2017/05/06/python-mem.html
https://zhuanlan.zhihu.com/p/38600861
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/987d62b7c296892bb70cc4d45】。文章转载请联系作者。
评论