本文记录一次线上oom问题的定位过程以及如何解决问题的思路。
很多java的线上问题都可以用类似思路去定位问题以及解决问题,不管是我们自己写的业务bug导致的 或者是框架层的bug. 希望本文可以在排查java问题给到大家一些思路上的帮助。
问题现象
某次周五快要下班的时候,udb登录服务突然有大波告警,赶紧登上机器排查原因,回家吃晚饭的时间又要推迟咯。
一会就有用户反馈上来说 登录不上。二话不说,先重启机器,保留一台现场留作分析。事实上,重启之后,过段时间又有告警上来了。
原因定位
首先使用top命令,查看进程状态,发现app_lgn服务的进程占用cpu异常;
然后查看java的垃圾回收情况
jstat -gcutil pid 1000 100
发现进程确实在频繁地进行着FullGC,结合cmdb上的机器监控以及进程的gc日志,可以确定java 堆内存中因为部分对象释放不了,进入老年代,老年代不断增大,触发FullGC,FullGC的时候,会导致cpu飙升。

使用jmap确认java堆内存的使用情况:
jmap -heap 56608
多运行几次,对比一下,也可以发现老年代确实处于使用满的状态。
大概确认问题原因之后,就是dump现场堆内存来分析具体原因:
jmap -F -dump:format=b,file=文件名 [pid]
进程的内存比较大,dump可能需要一段时间,耐心等待,等dump下来之后,机器上先压缩一下,然后下载到本机,做分析使用。
本机上有很多软件,可以用作java的内存分析,比如自带的jvisua

本文详述了一次线上Java OOM问题的排查过程,通过分析CPU使用、垃圾回收、堆内存状况,发现了Spring MVC的一个内存泄露问题。通过复现问题、调试源码,最终确认为Spring MVC框架的bug,并向官方提交了问题,官方在后续版本中修复了此bug。文章旨在分享问题定位和解决的思路。
最低0.47元/天 解锁文章
3340

被折叠的 条评论
为什么被折叠?



