Kubernetes集群启动失败问题解决

🕗 发布于 2024-10-11 21:28 kubernetes 容器云原生

因前段时间HVV以及中间国庆节，服务器关机了。开机之后就出现了Master节点Containerd无法启动的问题。下面是对问题定位以及解决过程的总结（虽然是测试环境，也希望能对遇到相似问题的生产环境有一些启发）。

Containerd服务启动失败问题现象及定位

重新启动Kubernetes集群master节点的containerd服务一直无法成功启动，查看服务状态：

```
~]# systemctl status containerd
● containerd.service - containerd container runtime
   Loaded: loaded (/usr/lib/systemd/system/containerd.service; enabled; vendor preset: disabled)
   Active: activating (auto-restart) (Result: exit-code) since Wed 2024-10-09 15:46:36 CST; 4s ago
     Docs: https://containerd.io
  Process: 1641 ExecStart=/usr/bin/containerd (code=exited, status=2)
  Process: 1639 ExecStartPre=/sbin/modprobe overlay (code=exited, status=0/SUCCESS)
Main PID: 1641 (code=exited, status=2)
```

并没有有效的报错信息，只有一个(code=exited, status=2)；执行journalctl -f -u containerd查看日志信息如下：

```
~]# journalctl -f -u containerd
-- Logs begin at Wed 2024-10-09 15:46:11 CST. --
……
10月 09 15:55:02 k8s130-node190 systemd[1]: containerd.service: Service RestartSec=5s expired, scheduling restart.
10月 09 15:55:02 k8s130-node190 systemd[1]: containerd.service: Scheduled restart job, restart counter is at 97.
10月 09 15:55:02 k8s130-node190 systemd[1]: Stopped containerd container runtime.
10月 09 15:55:02 k8s130-node190 systemd[1]: Starting containerd container runtime...
10月 09 15:55:02 k8s130-node190 containerd[3456]: time="2024-10-09T15:55:02.862285381+08:00" level=info msg="starting containerd" revision=8b3b7ca2e5ce38e8f31a34f35b2b68ceb8470d89 version=1.6.32
10月 09 15:55:02 k8s130-node190 containerd[3456]: time="2024-10-09T15:55:02.906085764+08:00" level=info msg="loading plugin \"io.containerd.snapshotter.v1.aufs\"..." type=io.containerd.snapshotter.v1
……
10月 09 15:55:02 k8s130-node190 containerd[3456]: time="2024-10-09T15:55:02.912801252+08:00" level=info msg="loading plugin \"io.containerd.grpc.v1.cri\"..." type=io.containerd.grpc.v1
10月 09 15:55:02 k8s130-node190 containerd[3456]: panic: invalid page type: 345: 10
10月 09 15:55:02 k8s130-node190 containerd[3456]: goroutine 66 [running]:
10月 09 15:55:02 k8s130-node190 containerd[3456]: go.etcd.io/bbolt.(*Cursor).search(0xc0003f3b10, {0x55e669fae988, 0x6, 0x6}, 0x3fe0000000000000?)
……
10月 09 15:55:02 k8s130-node190 containerd[3456]: created by github.com/containerd/containerd/runtime/restart/monitor.init.0.func1 in goroutine 14
10月 09 15:55:02 k8s130-node190 containerd[3456]: /root/rpmbuild/BUILD/runtime/restart/monitor/monitor.go:96 +0x1a5
10月 09 15:55:02 k8s130-node190 systemd[1]: containerd.service: Main process exited, code=exited, status=2/INVALIDARGUMENT
10月 09 15:55:02 k8s130-node190 systemd[1]: containerd.service: Failed with result 'exit-code'.
10月 09 15:55:02 k8s130-node190 systemd[1]: Failed to start containerd container runtime.
```

也没啥有效的错误信息，只是对status=2一进步解释：INVALIDARGUMENT。难道是containerd的配置文件有问题？查看/etc/containerd/config.toml，并没有发现问题。为了避免忽略了配置文件的一些细节，备份配置并重装了containerd：

mv /etc/containerd/config.toml{,_bak}
yum -y erase containerd.io
yum -y install containerd.io --disableexcludes=docker-ce-stable

但是，仍然无法正常启动containerd服务，报错信息仍然如上。看来确实不是配置文件的问题，也不是参数的问题。

Containerd服务启动失败问题解决

网上查找是否有相同问题的解决方案，确实查到了一个：

yum -y erase containerd.io
rm -rf /var/lib/containerd
重启系统
yum -y install containerd.io --disableexcludes=docker-ce-stable
mv /etc/containerd/config.toml{,_docker}
mv /etc/containerd/config.toml{_bak,}
systemctl restart containerd

但是，如上操作有一个后遗症，删除/var/lib/containerd，会将containerd的所有数据均给删除了，包括：容器、镜像等。实属无奈之举。

Kubernetes APIServer访问失败问题现象及解决

虽然，containerd服务启动成功了，也将丢失的Image找了回来：

1、如果可以连接互联网，或者配置的本地私有镜像仓库，可以重新拉取

kubeadm config images pull --config=kubeadm-init.default.yaml

2、如果无法连接互联网，并且私有镜像仓库中不存在这些镜像，其地方将Image pull后打包成tar，然后load到本机：

docker save registry.aliyuncs.com/google_containers/kube-apiserver:v1.30.0 registry.aliyuncs.com/google_containers/kube-controller-manager:v1.30.0 registry.aliyuncs.com/google_containers/kube-scheduler:v1.30.0 registry.aliyuncs.com/google_containers/kube-proxy:v1.30.0 registry.aliyuncs.com/google_containers/etcd:3.5.12-0 registry.aliyuncs.com/google_containers/coredns:v1.11.1 -o kubernetes.tar
ctr -n k8s.io images import kubernetes.tar  --platform linux/amd64

但是，apiserver等启动后访问失败：

```
kubectl get cs
E1011 15:23:37.066185 2683 memcache.go:265] couldn't get current server API group list: Get "https://192.168.11.190:6443/api?timeout=32s": Forbidden
……
Unable to connect to the server: Forbidden
```

遇到上面的问题，不太想仔细分析原因了，毕竟也没有什么需要保留的数据，所以就将Kubernetes reset了：

kubeadm reset && rm -rf /etc/cni/net.d && ipvsadm --clear && rm -rf $HOME/.kube && rm -rf /etc/kubernetes/* &&  -rf /var/lib/etcd

现在回想起来，极有可能是因为我配置了web代理，因为在我reset完重新init的时候有告警信息：

```
kubeadm init --config=kubeadm-init.default.yaml |tee kubeadm-init.log
[init] Using Kubernetes version: v1.30.0
[preflight] Running pre-flight checks
[WARNING HTTPProxy]: Connection to "https://192.168.11.190" uses proxy "http://用户名:密码@192.168.XX.229:3128". If that is not intended, adjust your proxy settings
[WARNING HTTPProxyCIDR]: connection to "10.254.0.0/16" uses proxy "http://用户名:密码@192.168.XX.229:3128". This may lead to malfunctional cluster setup. Make sure that Pod and Services IP ranges specified correctly as exceptions in proxy configuration
[WARNING HTTPProxyCIDR]: connection to "2408:822a:730:af01::/112" uses proxy "http://用户名:密码@192.168.XX.229:3128". This may lead to malfunctional cluster setup. Make sure that Pod and Services IP ranges specified correctly as exceptions in proxy configuration
[WARNING HTTPProxyCIDR]: connection to "172.254.0.0/16" uses proxy "http://用户名:密码@192.168.XX.229:3128". This may lead to malfunctional cluster setup. Make sure that Pod and Services IP ranges specified correctly as exceptions in proxy configuration
[WARNING HTTPProxyCIDR]: connection to "fa00:cafe:42::/56" uses proxy "http://用户名:密码@192.168.XX.229:3128". This may lead to malfunctional cluster setup. Make sure that Pod and Services IP ranges specified correctly as exceptions in proxy configuration
```

将master reset完之后，其他node也要reset，然后重新加入到集群中；详细过程就不在这里赘述了，可以去看《kubernetes集群部署：环境准备及master节点部署（二）》系列。但是，此过程遇到了2个问题，需要记录一下。

1、k8s+docker+cri-docker的一个node，执行reset报错：

```
~]# kubeadm reset -f kubeadm-join.default.yaml && rm -rf /etc/cni/net.d && ipvsadm --clear && rm -rf $HOME/.kube && rm -rf /etc/kubernetes/* && rm -rf /var/lib/etcd
Found multiple CRI endpoints on the host. Please define which one do you wish to use by setting the 'criSocket' field in the kubeadm configuration file: unix:///var/run/containerd/containerd.sock, unix:///var/run/cri-dockerd.sock
To see the stack trace of this error execute with --v=5 or higher
```

原因：在node上安装了cri-dockerd，导致除了原生的unix:///var/run/containerd/containerd.sock外，多了一个unix:///var/run/cri-dockerd.sock，所以需要明确指定：

```
kubeadm reset --cri-socket unix:///var/run/cri-dockerd.sock && rm -rf /etc/cni/net.d && ipvsadm --clear && rm -rf $HOME/.kube && rm -rf /etc/kubernetes/*

或
kubeadm config print reset-defaults >kubeadm-reset.yaml
修改criSocket: unix:///run/cri-dockerd.sock
kubeadm reset --config kubeadm-reset.yaml
```

2、启动calico组件后，master一直NotReady。

可能kubeadm reset后，有一些历史数据未清理。执行kubectl delete calico，然后重启服务器，重新执行kubectl apply calico就OK了。

原文地址：https://blog.csdn.net/avatar_2009/article/details/142863118

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：winform实现托盘语音提醒
下一篇：代码随想录训练营第59天|并查集

《深入浅出LLM基础篇》（五）：Propmt工程优化
本篇为《深入浅出LLM基础篇》：Propmt工程优化，主要讨论各Propmt优化的tips，与效果差进行对比展示。由于 OpenAI模型的训练方式，特定的提示格式效果特别好，可以产生更有用的模型输出。
阅读更多2024-10-14
pytorh学习笔记——手写数字识别mnist
net # 定义网络def __init__(self, channel=32): # 通道数（channel）指的是卷积层中的滤波器数量。# 这个参数对于控制内存使用和训练速度非常重要。self.c
阅读更多2024-10-14
区块链到底是什么？
区块链是一种分布式、数字化的、不可篡改的账本，用于记录交易和以安全透明的方式存储数据。它基于一个去中心化的节点网络，这些节点共同维护一个权威记录，允许参与者直接与协议交互，而无需中介服务商。区块是一种
阅读更多2024-10-14
第4天：用户界面和布局补充材料——`activity_login.xml`解读
整体上，这段XML代码定义了一个简单的登录界面，包含一个标题、两个输入框（用户名和密码）以及一个登录按钮。下面是对“第4天：用户界面和布局补充材料”该文学习的更深层次的补充材料，对。
阅读更多2024-10-14
【exceljs】纯前端如何实现Excel导出下载和上传解析？
前段时间写过一篇类似的文章，介绍了sheetjs。最近发现了一个更好用的库ExcelJS，它支持高级的样式自定义，并且使用起来也不复杂。实际上sheetjs也支持高级自定义样式，不过需要使用付费版。E
阅读更多2024-10-14
【MATLAB问题及需求收集】关于往期算法问题收集/新需求收集
1、往期的代码中如果存在什么问题，需要更新和完善，麻烦私信我，我根据大家的建议安排更新的时间，并把完善进度更新在这个帖子里。2、如果需要新增功能或者有其他新需求，也可以私信或者评论，我会根据大家的建议
阅读更多2024-10-14
#Swift 对比 Static 在Swift 和 OC中的用法
在 Objective-C 和 Swift 中，`static` 关键字都用于定义类型级别的成员，但它们的用法和行为在两个语言中有所不同。让我们来详细对比一下 Objective-C 和 Swift
阅读更多2024-10-14
AI时代到理想国：保持核心竞争力，拒绝变革焦虑
因此，在学习编程的过程中，我们应该保持清醒的头脑，明确自己的需求和目标，有选择性地吸收和掌握知识。随着社会的进步，编程的门槛正逐渐降低，就像当年办公软件的普及一样，未来，掌握一些编程知识，将成为职场人
阅读更多2024-10-14
linux修改mac和ip地址的方法
修改 MAC 地址和 IP 地址都需要管理员权限。修改 MAC 地址可以使用ip或ifconfig命令，也可以通过修改配置文件实现。修改 IP 地址可以使用ip或ifconfig命令，也可以通过修改配
阅读更多2024-10-14
科技特长生的选拔标准与规范：提升公平性与防止短期包装
科技特长生的培养是中国科技创新人才储备的重要组成部分，如何公平公正地选拔这些人才，是国家教育政策的重要目标。通过规范化管理科技竞赛、透明化评审过程和严格的培训机构监管，科技特长生的选拔将变得更加科学和
阅读更多2024-10-14