故障现象
同一台物理机上的多台虚拟机同时出现应用服务超时、无法访问等现象,ping虚拟机和物理机丢包严重。
故障原因
物理机上某台虚拟机建立了大量连接,导致物理机连接追踪表被大量ESTABLISHED连接记录塞满,进而出现丢包现象。
处理方法
调整物理机内核参数,增大最大连接追踪记录数、减小ESTABLISHED、TIME_WAIT、CLOSE_WAIT、FIN_WAIT等连接记录的超时时间。
排查过程
一开始从业务层面排查,分析是否有某台虚拟机占用带宽的情况,但是排查监控和实时流量并没有发现问题,未果。第二次出现问题时,在宿主机上ping故障虚拟机,出现“ping: sendmsg: Operation not permitted”的报错:
# ping 172.16.3.5PING172.16.3.5 (172.16.3.5) 56(84) bytes of data.ping: sendmsg: Operation not permittedping: sendmsg: Operation not permittedping: sendmsg: Operation not permittedping: sendmsg: Operation not permitted
查看内核日志,报错如下:
# dmesg | tail[64802472.971773] nf_conntrack: table full, dropping packet
[64802472.972242] nf_conntrack: table full, dropping packet
[64802472.973668] nf_conntrack: table full, dropping packet
[64802472.978622] nf_conntrack: table full, dropping packet
[64802472.988458] nf_conntrack: table full