自学内容网 自学内容网

TCP网络编程:CLOSE_WAIT和TIME_WAIT导致端口耗尽的问题与解决方案

TCP网络编程:CLOSE_WAIT和TIME_WAIT导致端口耗尽的问题与解决方案

1. 直接上解决方案

1.1 解决CLOSE_WAIT过多的问题

这个问题很简单, 就是你忘记close套接字了

CLOSE_WAIT状态的根源是代码逻辑未正确关闭套接字。
CLOSE_WAIT表示本端接收到了对端发送的FIN,但还未调用close释放套接字资源。

解决方法:
确保你的代码中,在不再需要使用套接字时,正确调用close,例如:

void handle_client(int client_fd) {
    // ... 处理客户端请求逻辑
    close(client_fd); // 释放套接字资源
}

常见错误场景:

  • 忘记调用close,导致资源泄漏。
  • 有长时间阻塞的处理逻辑,没有及时清理套接字。
  • recv返回0时, 逻辑没有正确处理

注意:
如果服务端代码是多线程或多进程实现的,确保每个线程或进程都能正确关闭其持有的文件描述符,避免僵尸连接堆积。


1.2 解决TIME_WAIT过多的问题

TIME_WAIT状态是TCP协议中的正常现象,但在某些场景下会导致端口耗尽问题。

以下是两种常见的优化方案:

1.2.1 使用SO_LINGER强制关闭连接

通过设置SO_LINGER选项,可以让套接字在关闭时直接跳过TIME_WAIT状态,立即释放资源:

static void set_linger(int sockfd) 
{
    struct linger sl;
    sl.l_onoff = 1;  // 打开 linger 功能
    sl.l_linger = 0; // 设置 linger 时间为 0 秒,强制关闭 socket
    setsockopt(sockfd, SOL_SOCKET, SO_LINGER, &sl, sizeof(sl));
}

技术细节:

  • 设置sl.l_linger = 0时,close调用会发送一个RST报文,直接终止连接,而不是走正常的四次挥手流程。
  • 此选项适合短连接场景,比如高频连接和断开的短周期服务。

优点:

  • 快速释放端口资源,减少TIME_WAIT积压。

缺点:

  • 数据丢失风险: 强制关闭会丢弃未发送完的数据包。
  • 对端异常处理: 对端收到RST报文可能会触发错误(如ECONNRESET),需要确保业务逻辑能接受这种异常。
1.2.2 使用SO_REUSEADDR直接使用处于TIME_WAIT状态的端口

启用SO_REUSEADDR选项可以允许程序绑定一个处于TIME_WAIT状态的端口,从而快速重用该端口:


// 限定使用的本地端口范围, 避免把系统所有端口都用完
// 当然也可以不限制, 但是如果端口耗尽, 那些没有使用SO_REUSEADDR的程序就无法新建连接了
// 当然我们使用SO_REUSEADDR还是可以新建连接的
const (
bindPortStart = 40000
bindPortEnd   = 40010
)

func dialWithReuseAddr(serverAddr string, id int) error {
// 创建一个套接字
sock, err := syscall.Socket(syscall.AF_INET, syscall.SOCK_STREAM, syscall.IPPROTO_TCP)
if err != nil {
return fmt.Errorf("socket creation error: %v", err)
}
defer syscall.Close(sock)

// 设置SO_REUSEADDR选项
err = syscall.SetsockoptInt(sock, syscall.SOL_SOCKET, syscall.SO_REUSEADDR, 1)
if err != nil {
return fmt.Errorf("failed to set SO_REUSEADDR: %v", err)
}

// 绑定本地端口
localPort := bindPortStart + id%(bindPortEnd-bindPortStart+1)
localAddr := &syscall.SockaddrInet4{
Port: localPort,
}
copy(localAddr.Addr[:], net.IPv4zero.To4()) // 绑定到0.0.0.0

err = syscall.Bind(sock, localAddr)
if err != nil {
return fmt.Errorf("bind error on port %d: %v", localPort, err)
}

// 将地址解析为sockaddr
raddr, err := net.ResolveTCPAddr("tcp", serverAddr)
if err != nil {
return fmt.Errorf("resolveTCPAddr error: %v", err)
}

// 构造远程sockaddr
remoteAddr := &syscall.SockaddrInet4{}
copy(remoteAddr.Addr[:], raddr.IP.To4())
remoteAddr.Port = raddr.Port

// 连接服务器
err = syscall.Connect(sock, remoteAddr)
if err != nil {
return fmt.Errorf("connect error: %v", err)
}

fmt.Printf("[%d] Connected to server using local port %d.\n", id, localPort)

// 连接后立即关闭以模拟短连接
// 关闭后可能进入TIME_WAIT状态
return nil
}


技术细节:

  • 启用SO_REUSEADDR后,即使端口仍处于TIME_WAIT状态,也允许bind绑定。
  • 对于服务器应用,,在重新启动时尤为有用,可以快速恢复监听服务。
  • 对于客户端应用, 在connect之前先bind处于TIME_WAIT状态的套接字也是可以的
    • 如果不主动bind一个指定的端口, 在connect时, 操作系统还是会选择一个新的可用端口, 而不是使用已经处于TIME_WAIT状态的端口

优点:

  • 快速恢复服务,特别适用于频繁重启的服务器程序。

缺点:

  • 并不会真正跳过TIME_WAIT状态,连接可能仍受到TCP层延迟的影响, 虽然这种影响非常小。

注意: 两种方法各有优劣。如果不确定如何选择,请继续阅读以下原理部分。


2. TIME_WAIT 的作用和产生原因

TIME_WAIT状态是我们在TCP连接关闭过程中经常会遇到的一种状态。它的存在不是多余的,而是TCP协议设计的一部分,主要用来保证连接的安全性和可靠性。

简单来说TIME_WAIT不是BUG, 而是设计如此

接下来我们来看看它的作用和它是怎么产生的。

2.1 TIME_WAIT 的作用

为什么需要TIME_WAIT?主要是为了保证网络中的“迟到”数据包不捣乱

  • 假设你刚关闭了一个连接,但是网络中还有一些未送达的旧数据包。这时候,如果你立即重用了同样的端口和IP,旧数据包可能会误闯到新的连接里,导致数据错乱。TIME_WAIT就是用来解决这个问题的——通过让端口保持一段时间不被复用,确保旧数据包完全过期。
  • 一个TCP连接的唯一标识是四元组:<源IP, 源端口, 目标IP, 目标端口>。在TIME_WAIT状态下,系统会禁止重复使用这个四元组,直到它完全过期。这样就能避免旧连接的“鬼魂”干扰新连接,尤其是在网络延迟很大的情况下。

所以,TIME_WAIT的核心作用就是保护新连接,清理旧数据

2.2 TIME_WAIT 的产生过程

那么,TIME_WAIT是怎么来的呢?这要从TCP的四次挥手说起,咱们来一步步看:

  1. 客户端:发FIN
    客户端决定“我这边的数据发完了,不玩了”,于是发送一个FIN请求。

  2. 服务端:回ACK
    服务端收到FIN后表示“好的,我知道了”,返回一个ACK确认。这个时候,服务端可能还有数据没发完,所以连接还没完全关闭。

  3. 服务端:发FIN
    服务端完成自己的任务后,也发出FIN,表示“我这边也没啥事了,可以关了”。

  4. 客户端:回ACK并进入TIME_WAIT
    客户端收到服务端的FIN后,再发一个ACK确认。至此,连接的关闭流程就算结束了,但客户端不会马上释放端口,而是进入TIME_WAIT状态,保持一段时间。

上面是客户端先close的情况, 如果服务器先close, 过程也是一样的

  • 服务器会产生TIME_WAIT, 因为服务器是最后发送ACK的一方,它需要等一会儿以防万一,比如客户端没收到ACK还会重传FIN,这时候服务器还能继续响应。

2.3 TIME_WAIT 的持续时间

TIME_WAIT状态的持续时间是2倍的MSL(Maximum Segment Lifetime)

  • MSL是一个报文在网络中存活的最大时间,默认值通常是30秒或者60秒。
  • 2MSL的设计有两个目的:
    1. 确保网络中的所有旧数据包(比如未送达的FINACK)完全消失。
    2. 防止同样的四元组在短时间内被重复使用。

举个例子:如果系统默认MSL是60秒,那么TIME_WAIT状态会持续120秒。这段时间内,端口都不能被复用。

Linux内核选项可以修改这个时间
在/etc/sysctl.conf 加入以下内容, 修改MSL为30秒

net.ipv4.tcp_fin_timeout = 30

2.4 注意事项

  1. TIME_WAIT 和长连接没关系
    很多人可能会觉得TIME_WAIT是长连接的问题,其实完全不是。无论是长连接还是短连接,只要连接关闭了,该有TIME_WAIT还是会有。

3. SO_LINGER的作用和用法

SO_LINGER选项用于控制套接字在调用close后是否立即关闭连接,以及是否等待套接字缓冲区中的剩余数据被发送完成。

3.1 SO_LINGER的作用

SO_LINGER通过设置struct linger结构体的值来决定套接字关闭的行为:

struct linger {
    int l_onoff;  // 是否启用 linger 选项
    int l_linger; // 延迟关闭时间(秒)
};
  1. 立刻关闭(发送RST包)

    • 设置sl.l_onoff = 1sl.l_linger = 0时:
      • 调用close后,套接字立即关闭,未发送的数据将被丢弃。
      • 内核会向对方发送一个RST(重置)包,跳过正常的TCP四次挥手过程。
      • 对方收到RST包后可能直接关闭连接,并终止任何未完成的传输操作。

    示例代码:

    struct linger sl;
    sl.l_onoff = 1;  // 启用 linger
    sl.l_linger = 0; // 设置为立即关闭
    setsockopt(sockfd, SOL_SOCKET, SO_LINGER, &sl, sizeof(sl));
    close(sockfd);
    
  2. 延迟关闭

    • 设置sl.l_onoff = 1sl.l_linger > 0时:
      • 调用close后,套接字会等待缓冲区中的数据发送完成或超时。
      • 如果超时时间内数据未发送完毕,连接会关闭,但不会发送RST包。
      • 这种情况下,仍会进入TIME_WAIT状态,TIME_WAIT的持续时间取决于内核的2MSL配置。

    示例代码:

    struct linger sl;
    sl.l_onoff = 1;  // 启用 linger
    sl.l_linger = 5; // 等待 5 秒
    setsockopt(sockfd, SOL_SOCKET, SO_LINGER, &sl, sizeof(sl));
    close(sockfd);
    
  3. 默认行为(未设置SO_LINGER

    • 如果未启用SO_LINGER,调用close时,系统会尝试发送缓冲区中的所有数据。
    • 连接将正常进入四次挥手流程,并进入TIME_WAIT状态。

3.2 SO_LINGER的优缺点

优点:
  1. 释放资源
    • 在高并发环境下,通过立即关闭连接快速释放系统资源,避免套接字和端口的长期占用。
  2. 跳过TIME_WAIT
    • 通过发送RST包,避免了进入TIME_WAIT状态,适合某些短连接、高频请求场景。
缺点:
  1. 数据丢失风险
    • 设置sl.l_onoff = 1sl.l_linger = 0时,未发送的数据将被丢弃,可能导致对方未接收到关键数据。
  2. 可能引发问题
    • 由于跳过了正常的TCP关闭流程,对方可能未正确关闭连接,导致不一致的状态或资源泄露。

3.3 SO_LINGERTIME_WAIT的关系

  1. 立即关闭(RST包)

    • 当设置为sl.l_onoff = 1sl.l_linger = 0时,连接不会进入TIME_WAIT状态,因为RST包会终止连接。
  2. 延迟关闭

    • 设置为sl.l_onoff = 1sl.l_linger > 0时,连接仍然会进入TIME_WAIT状态,因为TCP关闭流程会正常进行。
    • 注意: sl.l_linger的值仅决定套接字在发送缓冲区中的数据完成传输所允许的时间,和TIME_WAIT状态持续的2MSL时间无关。

3.4 SO_LINGER的使用场景

  1. 高并发服务

    • 当服务器需要处理大量短连接时,可以使用SO_LINGER选项快速关闭连接,避免TIME_WAIT状态积压影响性能。
  2. 资源敏感型应用

    • 在资源有限的嵌入式设备或高负载环境中,SO_LINGER可以减少连接占用的时间,提升资源利用率。
  3. 非关键数据传输

    • 对于丢失部分数据影响较小的场景,可以启用SO_LINGER的立即关闭功能来优化性能。

4. SO_REUSEADDR的作用

用于允许程序绑定一个正在处于TIME_WAIT状态的端口。

通过这一功能

  • TCP服务程序可以快速重启,避免因端口被占用而导致的绑定失败。
  • TCP客户端程序可以bind处于TIME_WAIT状态的套接字, 然后再connect

4.2 SO_REUSEADDR的优缺点

优点:

  • 快速绑定端口,提升服务程序的可用性。
  • 在多播编程中,支持多个进程绑定同一地址。

缺点:

  • 无法解决TIME_WAIT状态的根本问题,例如网络延迟或旧连接的冲突。

注意事项:
启用SO_REUSEADDR后,程序仍需谨慎处理绑定逻辑,确保不会影响现有的有效连接。


4.4 顺便说一下SO_REUSEPORT

SO_REUSEPORT是Linux系统中提供的一种高级端口复用功能,与SO_REUSEADDR相比,它具有不同的作用和使用场景。

  1. 作用

    • 允许多个程序或线程绑定到同一个端口。
    • 内核会自动为这些绑定的套接字实现负载均衡。
    • 常用于高并发服务器中实现多核负载均衡。
  2. 特点

    • 是Linux的独有功能(Windows没有提供类似选项)。
    • 解决的是端口复用问题,而非TIME_WAIT状态的问题。
  3. 用法
    SO_REUSEPORT的设置方式类似于SO_REUSEADDR

int sockfd = socket(AF_INET, SOCK_STREAM, 0);
if (sockfd < 0) {
    perror("socket");
    return -1;
}

int opt = 1;
// 启用 SO_REUSEPORT
if (setsockopt(sockfd, SOL_SOCKET, SO_REUSEPORT, &opt, sizeof(opt)) < 0) {
    perror("setsockopt");
    close(sockfd);
    return -1;
}

// 绑定端口
struct sockaddr_in addr;
addr.sin_family = AF_INET;
addr.sin_port = htons(8080);
addr.sin_addr.s_addr = INADDR_ANY;

if (bind(sockfd, (struct sockaddr*)&addr, sizeof(addr)) < 0) {
    perror("bind");
    close(sockfd);
    return -1;
}

4.5 SO_REUSEADDRSO_REUSEPORT的区别与配合

  1. 区别

    • SO_REUSEADDR解决TIME_WAIT端口的快速重用问题。
    • SO_REUSEPORT允许多个应用程序同时绑定同一端口,实现负载均衡。
  2. 配合使用

    • 两者可以同时启用,既可解决TIME_WAIT问题,又能实现多核性能优化:
      setsockopt(sockfd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt));
      setsockopt(sockfd, SOL_SOCKET, SO_REUSEPORT, &opt, sizeof(opt));
      

通过对SO_REUSEADDRSO_REUSEPORT的结合使用,可以根据实际场景自由选择解决方案,既提升服务的可用性,又优化负载能力。


5. 总结

  • CLOSE_WAIT问题的根源是代码逻辑错误,修复代码即可解决。
  • TIME_WAIT积压的本质是TCP的安全机制,需根据场景选择解决方法:
    • 强制关闭:使用SO_LINGER
    • 快速重用:使用SO_REUSEADDR
  • 理解TCP状态和内核行为,才能在解决问题时更有针对性。

关闭套接字的先后顺序对TCP状态的影响

  • 注意: 下图是在Ubuntu测试的结果, Windows测试的结果可能不一样
    调用close的影响

原文地址:https://blog.csdn.net/weixin_47763623/article/details/144758235

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!