k8s 排查集群中故障节点

🕗 发布于 2024-11-05 03:07 kubernetes 容器云原生运维 k8s

在 Kubernetes 集群中，故障节点可能导致 Pod 无法正常运行或资源分配异常。以下是排查集群中故障节点的常用方法：

1. 使用 `kubectl get nodes` 查看节点状态

首先检查所有节点的健康状态，kubectl get nodes 命令会显示集群中所有节点的状态。

kubectl get nodes

输出示例：

NAME          STATUS     ROLES    AGE     VERSION
node1         Ready      <role>   10d     v1.24.0
node2         NotReady   <role>   10d     v1.24.0

STATUS 列：节点状态，包括 Ready、NotReady、Unknown 等。如果节点处于 NotReady 或 Unknown 状态，可能存在网络、资源或节点本身的问题。

2. 查看节点详细信息和事件

kubectl describe node <node-name> 命令可用于查看故障节点的详细信息和事件日志。

kubectl describe node <node-name>

在输出中查找 Conditions 和 Events 部分，观察是否存在以下常见问题：

OutOfDisk：磁盘空间不足。
MemoryPressure：内存压力过大，节点内存不足。
DiskPressure：磁盘 I/O 压力过高。
PIDPressure：进程数过多，节点已超出系统允许的最大 PID。
NetworkUnavailable：节点网络不可用，可能是网络插件或连接问题。

3. 检查节点上的关键服务状态

Kubernetes 节点需要关键服务保持正常运行。使用 SSH 登录到节点，检查以下关键服务的状态：

# 检查 kubelet 服务
systemctl status kubelet

# 检查容器运行时（如 Docker 或 containerd）
systemctl status docker  # 若使用 Docker
systemctl status containerd  # 若使用 containerd

确保 kubelet 和容器运行时服务都在运行。如果服务出现故障，可以尝试重启：

sudo systemctl restart kubelet
sudo systemctl restart docker  # 或 containerd

4. 查看节点的资源使用情况

使用 kubectl top nodes 查看每个节点的 CPU 和内存使用情况，以检查资源是否耗尽。

kubectl top nodes

如果某些节点的资源使用率极高（接近 100%），则可能会导致 Pod 调度失败或节点变为 NotReady 状态。

5. 查看网络插件日志

如果 kubectl describe node 显示 NetworkUnavailable 或节点连接中断，可能与网络插件有关（如 Calico、Flannel 等）。检查网络插件的 Pod 日志：

kubectl -n kube-system get pods | grep calico  # 查找网络插件 Pod
kubectl -n kube-system logs <network-plugin-pod-name>  # 查看网络插件日志

6. 检查节点上的 kubelet 日志

kubelet 是节点管理服务，其日志可以帮助定位问题。在节点上使用以下命令查看 kubelet 的日志：

journalctl -u kubelet -f

日志中查看是否有错误或告警信息，例如认证失败、资源不可用或节点连接问题。

7. 检查网络连接

网络连接问题可能会导致节点状态异常。可以在节点上使用 ping 或 curl 命令检查节点与主节点（如 apiserver）的网络连通性。

ping <master-node-ip>
curl -k https://<master-node-ip>:6443/healthz  # 检查 apiserver 健康状态

8. 检查节点的容器日志

如果某些节点上的 Pod 异常，可以查看其容器日志，定位 Pod 运行异常的原因：

kubectl logs <pod-name> -n <namespace> -c <container-name>

9. 重新标记节点（若节点恢复正常）

如果节点恢复正常，但仍显示 NotReady，可以先将节点标记为不可调度（cordon）再恢复：

kubectl cordon <node-name>    # 暂时标记节点为不可调度
kubectl uncordon <node-name>  # 恢复节点为可调度

总结

通过上述方法可以排查出节点故障原因，比如资源耗尽、服务故障、网络中断等。根据具体问题采取相应的措施，如重启服务、增加资源、调整网络配置等，从而恢复节点正常状态。

原文地址：https://blog.csdn.net/u010674101/article/details/143409295

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源模型应用落地-Qwen2.5-7B-Instruct与TGI实现推理加速
下一篇：＜项目代码＞YOLOv8 猫狗识别＜目标检测＞

基于RK3588的移动充电机器人应用解决方案
伴随着国内新能源汽车保有量的持续增长，充电难题愈发凸显，配套充电设施的建设需求进一步扩大。可外接4G/5G、WiFi模块，用于传感数据、视频数据的上传，同时，通过网络的连接，能够远程监控机器人的状态和
阅读更多2024-11-16
开源，一天200star，解锁视频字幕生成新方式——一款轻量级开源字幕工具，免费，支持花字，剪映最新会员模式吃相太难看了
是一款基于开源的轻量级视频字幕生成工具，由开发者 @WEIFENG2333 精心打造。其主要目的是为用户提供一套免费、易用的字幕生成方案，支持各种视频格式，并结合现代化的自然语言处理技术，实现精准、高
阅读更多2024-11-16
docker：基于Dockerfile镜像制作完整案例
docker：基于Dockerfile镜像制作完整案例
阅读更多2024-11-16
【数据库系列】 Spring Boot 集成 Neo4j 的详细介绍
Spring Boot 提供了对 Neo4j 的良好支持，使得开发者可以更方便地使用图数据库。通过使用 Spring Data Neo4j，开发者可以轻松地进行数据访问、操作以及管理。本文将详细介绍如
阅读更多2024-11-16
微信小程序02-页面制作
微信小程序提供了丰富的组件，如view、image等，用于构建具有微信风格的UI界面。视口单位用于移动端页面适配，如vw和vh。表单组件用于收集用户信息，如form、button、input等。
阅读更多2024-11-16
2024 CCF中国开源大会“开源科学计算与系统建模openSCS”分论坛成功举办
目前MWORKS用户已遍及国内外295所高校，仅深圳就有41家应用验证企业，覆盖新能源、芯片、车辆、低空经济、医疗、制造、自动化、电力、航天、金融、船舶等优势行业单位，已经具备良好的生态基础。该委员会
阅读更多2024-11-16
C&C++内存管理
pChar3是指针变量，存在栈中，*pChar3是由const修饰的，pChar3指向的内容不能修改，内容具有常属性，因此pChae3存在代码段中，也就是常量区。内存泄漏并不是指内存在物理上的消失，而
阅读更多2024-11-16
单片机面试
答案：宏定义是在编译预处理阶段被处理的。预处理包含：头文件包含，宏替换，条件编译，去除注释，添加行号。
阅读更多2024-11-16
Ubuntu23.10下解决C语言调用mysql.h问题
在学习C语言和MySQL的调用的时候遇到包和版本的问题，由于使用的书很老（10年的），因此很多MySQL的包已经过时，在查找很多资料和询问gpt之后得到了解决方案
阅读更多2024-11-16
高级java每日一道面试题-2024年11月07日-Redis篇-Redis有哪些功能?
Redis 是一个功能强大且灵活的 NoSQL 数据库，广泛应用于缓存、消息队列、实时分析等多种场景。在高级 Java 面试中，了解 Redis 的数据类型、持久化、发布/订阅、事务、Lua 脚本、主
阅读更多2024-11-16