CLOSE_WAIT状态的生成原因

CLOSE_WAIT状态的生成原因
首先我们知道,如果我们的Client程序处于CLOSE_WAIT状态的话,说明套接字是被动关闭的!

因为如果是Server端主动断掉当前连接的话,那么双方关闭这个TCP连接共需要四个packet:

       Server  --->  FIN  --->  Client

       Server  <---  ACK  <---  Client

    这时候Server端处于FIN_WAIT_2状态;而我们的程序处于CLOSE_WAIT状态。

       Server  <---  FIN  <---  Client

这时Client发送FIN给Server,Client就置为LAST_ACK状态。

        Server  --->  ACK  --->  Client

Server回应了ACK,那么Client的套接字才会真正置为CLOSED状态。

 

我们的程序处于CLOSE_WAIT状态,而不是LAST_ACK状态,说明还没有发FIN给Server,那么可能是在关闭连接之前还有许多数据要发送或者其他事要做,导致没有发这个FIN packet。

 

原因知道了,那么为什么不发FIN包呢,难道会在关闭己方连接前有那么多事情要做吗?

elssann举例说,当对方调用closesocket的时候,我的程序正在调用recv中,这时候有可能对方发送的FIN包我没有收到,而是由TCP代回了一个ACK包,所以我这边套接字进入CLOSE_WAIT状态。

所以他建议在这里判断recv函数的返回值是否已出错,是的话就主动closesocket,这样防止没有接收到FIN包。

因为前面我们已经设置了recv超时时间为30秒,那么如果真的是超时了,这里收到的错误应该是WSAETIMEDOUT,这种情况下也可以主动关闭连接的。

 

还有一个问题,为什么有数千个连接都处于这个状态呢?难道那段时间内,服务器端总是主动拆除我们的连接吗?

 

不管怎么样,我们必须防止类似情况再度发生!

首先,我们要保证原来的端口可以被重用,这可以通过设置SO_REUSEADDR套接字选项做到:


重用本地地址和端口
以前我总是一个端口不行,就换一个新的使用,所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况,我希望加一个限定,只是当前这个端口处于CLOSE_WAIT状态!

在调用

sockConnected = socket(AF_INET, SOCK_STREAM, 0);

之后,我们要设置该套接字的选项来重用:

/// 允许重用本地地址和端口:

/// 这样的好处是,即使socket断了,调用前面的socket函数也不会占用另一个,而是始终就是一个端口

/// 这样防止socket始终连接不上,那么按照原来的做法,会不断地换端口。

int nREUSEADDR = 1;

setsockopt(sockConnected,

              SOL_SOCKET,

              SO_REUSEADDR,

              (const char*)&nREUSEADDR,

              sizeof(int));
 

教科书上是这么说的:这样,假如服务器关闭或者退出,造成本地地址和端口都处于TIME_WAIT状态,那么SO_REUSEADDR就显得非常有用。

也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现,但起码可以保证不会占用新的端口。

其次,我们要设置SO_LINGER套接字选项:

从容关闭还是强行关闭?
LINGER是“拖延”的意思。

默认情况下(Win2k),SO_DONTLINGER套接字选项的是1;SO_LINGER选项是,linger为{l_onoff:0,l_linger:0}。

如果在发送数据的过程中(send()没有完成,还有数据没发送)而调用了closesocket(),以前我们一般采取的措施是“从容关闭”:

因为在退出服务或者每次重新建立socket之前,我都会先调用

/// 先将双向的通讯关闭

     shutdown(sockConnected, SD_BOTH);

     /// 安全起见,每次建立Socket连接前,先把这个旧连接关闭

closesocket(sockConnected);

 

我们这次要这么做:

设置SO_LINGER为零(亦即linger结构中的l_onoff域设为非零,但l_linger为0),便不用担心closesocket调 用进入“锁定”状态(等待完成),不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”,因为套接字的虚电路立即被复位,尚未发出的所有数 据都会丢失。在远端的recv()调用都会失败,并返回WSAECONNRESET错误。

在connect成功建立连接之后设置该选项:

linger m_sLinger;

m_sLinger.l_onoff = 1;  // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留)

m_sLinger.l_linger = 0; // (容许逗留的时间为0秒)

setsockopt(sockConnected,

         SOL_SOCKET,

         SO_LINGER,

         (const char*)&m_sLinger,

         sizeof(linger));
 

 

总结
也许我们避免不了CLOSE_WAIT状态冻结的再次出现,但我们会使影响降到最小,希望那个重用套接字选项能够使得下一次重新建立连接时可以把CLOSE_WAIT状态踢掉。


我的意思是:当一方关闭连接后,另外一方没有检测到,就导致了CLOSE_WAIT的出现,上次我的一个朋友也是这样,他写了一个客户端和 APACHE连接,当APACHE把连接断掉后,他没检测到,出现了CLOSE_WAIT,后来我叫他检测了这个地方,他添加了调用 closesocket的代码后,这个问题就消除了。 
如果你在关闭连接前还是出现CLOSE_WAIT,建议你取消shutdown的调用,直接两边closesocket试试。


另外一个问题:

比如这样的一个例子: 
当客户端登录上服务器后,发送身份验证的请求,服务器收到了数据,对客户端身份进行验证,发现密码错误,这时候服务器的一般做法应该是先发送一个密码错误的信息给客户端,然后把连接断掉。

如果把 
m_sLinger.l_onoff = 1; 
m_sLinger.l_linger = 0; 
这样设置后,很多情况下,客户端根本就收不到密码错误的消息,连接就被断了。

 


出现CLOSE_WAIT的原因很简单,就是某一方在网络连接断开后,没有检测到这个错误,没有执行closesocket,导致了这个状态的实现,这在TCP/IP协议的状态变迁图上可以清楚看到。同时和这个相对应的还有一种叫TIME_WAIT的。

另外,把SOCKET的SO_LINGER设置为0秒拖延(也就是立即关闭)在很多时候是有害处的。 
还有,把端口设置为可复用是一种不安全的网络编程方法。

 

能不能解释请看这里 
http://blog.csdn.net/cqq/archive/2005/01/26/269160.aspx

 

再看这个图:


http://tech.ccidnet.com/pub/attachment/2004/8/322252.png

断开连接的时候, 
当发起主动关闭的左边这方发送一个FIN过去后,右边被动关闭的这方要回应一个ACK,这个ACK是TCP回应的,而不 是应用程序发送的,此时,被动关闭的一方就处于CLOSE_WAIT状态了。如果此时被动关闭的这一方不再继续调用closesocket,那么他就不会 发送接下来的FIN,导致自己老是处于CLOSE_WAIT。只有被动关闭的这一方调用了closesocket,才会发送一个FIN给主动关闭的这一 方,同时也使得自己的状态变迁为LAST_ACK。



比如被动关闭的是客户端。。。

当对方调用closesocket的时候,你的程序正在

int nRet = recv(s,....); 
if (nRet == SOCKET_ERROR) 

// closesocket(s); 
return FALSE; 
}

很多人就是忘记了那句closesocket,这种代码太常见了。

我的理解,当主动关闭的一方发送FIN到被动关闭这边后,被动关闭这边的TCP马上回应一个ACK过去,同时向上面应用程序提交一个ERROR,导 致上面的SOCKET的send或者recv返回SOCKET_ERROR,正常情况下,如果上面在返回SOCKET_ERROR后调用了 closesocket,那么被动关闭的者一方的TCP就会发送一个FIN过去,自己的状态就变迁到LAST_ACK.


原文地址

<think>好的,我需要解决用户关于Linux服务器上出现大量CLOSE_WAIT状态的问题。首先,我得回顾一下TCP连接的状态转换过程,尤其是CLOSE_WAIT和TIME_WAIT的区别。根据引用[5],CLOSE_WAIT出现在被动关闭连接的一方,也就是服务器在接收到客户端的FIN报文后进入这个状态,等待应用程序关闭连接。而TIME_WAIT则是主动关闭连接的一方在发送最后一个ACK后进入的状态,用来处理可能延迟的报文。 用户的问题是服务器上有大量CLOSE_WAIT,这说明服务器端的应用程序没有正确关闭连接。引用[4]提到,检测到对端关闭后,node.js会自动关闭本端socket,但如果应用程序没有执行close操作,就会导致CLOSE_WAIT堆积。因此,根本原因可能在于代码中没有正确释放连接资源。 接下来,我需要整理解决方案的步骤。首先,应该检查应用程序代码,确保所有socket连接在使用后正确关闭,特别是数据库连接、文件句柄等资源。引用[3]指出服务端使用短连接时,主动关闭连接会导致TIME_WAIT,但这里的问题不同,是CLOSE_WAIT,所以重点在代码层面的资源释放。 然后,查看系统参数,虽然引用[2]提到TIME_WAIT可以通过优化服务器参数解决,但CLOSE_WAIT更多是应用程序的问题,系统参数调整可能有限,但可以检查文件描述符限制,比如ulimit -n的设置,避免资源耗尽。 接下来,网络排查。使用netstat或ss命令查看具体连接情况,确认是哪些进程导致的CLOSE_WAIT,结合lsof或/proc文件系统定位到具体进程和代码位置。例如,使用netstat -ae | grep CLOSE_WAIT,类似引用[1]中的命令,但替换为CLOSE_WAIT状态。 另外,引用[3]提到服务端主动关闭连接导致TIME_WAIT,但这里的情况是服务端被动关闭,所以需要确保应用程序在收到FIN后及时close。如果是HTTP服务,检查是否使用了Keep-Alive,适当调整超时时间,避免连接长时间未关闭。 可能还需要使用压力测试工具模拟高并发场景,观察CLOSE_WAIT的增长情况,验证修复措施是否有效。同时,监控工具如Prometheus或Grafana可以帮助实时监控连接状态变化。 最后,总结解决方案步骤,从代码检查、资源释放、系统参数、网络排查到监控优化,逐步排除问题。需要提醒用户,CLOSE_WAIT问题通常由应用程序未正确关闭连接引起,与TIME_WAIT不同,后者更多是系统参数调整的问题,如引用[2]和[3]所述。 需要确保回答结构清晰,分步骤说明,并引用相关参考资料。同时,生成的相关问题要围绕TCP状态、区别、其他状态的解决方案等。</think>### 处理Linux服务器中大量CLOSE_WAIT连接的解决方案 #### 1. **理解CLOSE_WAIT状态的本质** CLOSE_WAITTCP连接关闭过程中的一个中间状态,表示**被动关闭方(通常是服务器)已收到主动关闭方(客户端)的FIN报文**,但尚未关闭本端连接[^5]。大量CLOSE_WAIT连接的堆积表明**应用程序未正确关闭socket连接**,导致资源无法释放[^4]。 --- #### 2. **排查与解决步骤** ##### **步骤1:检查应用程序代码** - **核心问题**:未显式调用`close()`方法释放连接。 - **常见场景**: - 数据库连接未关闭 - HTTP请求未关闭响应流 - 文件句柄泄漏 - **代码修复示例**(以Python为例): ```python # 错误示例:未关闭socket def handle_request(client_socket): data = client_socket.recv(1024) # 处理请求但未关闭连接 # 正确示例:显式关闭连接 def handle_request(client_socket): try: data = client_socket.recv(1024) # 处理请求 finally: client_socket.close() # 确保关闭 ``` ##### **步骤2:检查系统资源限制** - 使用命令查看当前进程打开的文件描述符数量: ```bash lsof -p <进程PID> | wc -l ``` - 调整系统文件描述符限制(临时生效): ```bash ulimit -n 65535 # 修改为更高限制 ``` ##### **步骤3:网络连接分析** - 使用`netstat`或`ss`命令定位问题: ```bash netstat -antop | grep CLOSE_WAIT # 查看所有CLOSE_WAIT连接 ss -s | grep CLOSE_WAIT # 更高效的统计方式 ``` - 结合`lsof`追踪具体进程: ```bash lsof -i :<端口号> # 查看占用端口的进程 ``` ##### **步骤4:优化连接管理策略** - **HTTP服务场景**: - 禁用不必要的Keep-Alive:减少长连接占用时间。 - 设置合理的超时时间(如Nginx配置): ```nginx keepalive_timeout 5; # 5秒后关闭空闲连接 ``` --- #### 3. **对比CLOSE_WAIT与TIME_WAIT的差异** | 状态 | 触发方 | 原因 | 解决方案 | |------------|----------|-------------------------------|------------------------------| | CLOSE_WAIT | 被动关闭 | 应用程序未关闭连接 | 修复代码逻辑 | | TIME_WAIT | 主动关闭 | 系统等待延迟报文 | 调整`tcp_tw_reuse`等内核参数[^3] | --- #### 4. **监控与验证** - **实时监控命令**: ```bash watch -n 1 "netstat -ant | grep CLOSE_WAIT | wc -l" # 每秒统计CLOSE_WAIT数量 ``` - **验证修复效果**: - 重启应用后观察CLOSE_WAIT是否减少。 - 使用压力测试工具(如`ab`、`wrk`)模拟高并发场景。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值