云服务器K8s集群部署前的10项必查清单

K8s（Kubernetes，容器编排系统）集群是云服务器实现高可用容器化部署的核心工具，但实际运维中常因前期检查不到位，导致部署失败或后期稳定性问题。我们结合近百次云服务器K8s部署案例，总结出10项必查清单，帮你提前排雷。

云服务器K8s集群部署前的10项必查清单

1. 网络连通性：集群的"血管"不能堵

节点间网络不通是K8s部署最常见的"隐形杀手"。曾有客户因交换机配置错误，导致Master节点与Worker节点无法通信，部署卡在Pod调度阶段。
具体怎么做？先用`ping <节点IP>`测试节点互访，再用`curl -I www.baidu.com`验证公网访问（K8s拉取镜像需外网）。特别提醒：云服务器的安全组规则要同步检查，避免误封6443（API Server）、2379（ETCD）等关键端口。

2. 系统资源：别让"内存饥荒"拖慢集群

K8s组件（如kubelet、kube-proxy）和容器应用会持续消耗资源。某客户曾因节点内存仅剩20%，导致Pod频繁被OOM（内存溢出）杀死。
建议用`top`看CPU负载（单节点建议预留20%空闲），`free -m`查内存（至少2GB可用），`df -h`验磁盘（/var/lib/docker目录需留30%以上空间）。云服务器的弹性扩缩容功能此时可派上用场，若资源紧张可临时升级配置。

3. 操作系统：版本不对，安装就"翻车"

K8s对Linux发行版和内核版本有严格要求（如v1.28仅支持CentOS 7.7+或Ubuntu 20.04+）。曾有用户用CentOS 6部署，结果kubeadm init直接报错。
执行`cat /etc/os-release`确认系统版本，`uname -r`查看内核（建议4.19以上）。云服务器镜像市场通常提供预优化的K8s适配镜像，优先选择可减少兼容性问题。

4. 防火墙：端口开放要"精准滴灌"

防火墙规则过严会阻断组件通信，过松又增加安全风险。某企业因开放全部端口，导致ETCD被恶意扫描攻击。
用`systemctl status firewalld`确认防火墙状态，`firewall-cmd --list-ports`查看开放端口。按K8s官方文档开放必要端口（如Master节点6443、2379-2380，Worker节点10250-10255），其他端口保持关闭。

5. Docker：版本不匹配的"暗雷"

Docker与K8s存在版本兼容矩阵（如K8s v1.27推荐Docker 20.10.x），版本过新或过旧都可能导致容器启动失败。
执行`docker --version`查看当前版本，访问K8s官网核对兼容列表。若需升级，建议先备份镜像（`docker save -o image.tar <镜像名>`），再通过`yum update docker`或二进制包安装。

6. 时间同步：集群的"生物钟"要一致

节点时间偏差超5秒，K8s API认证可能失效；偏差超10秒，ETCD数据同步会出错。某金融客户就因时间不同步，导致交易日志时间戳混乱。
用`chronyc sources`检查NTP同步状态（推荐使用阿里云时间服务器或本地NTP服务），修改`/etc/chrony.conf`添加可靠时间源，最后`systemctl restart chronyd`生效。云服务器的元数据服务（如`169.254.169.254`）也可提供时间同步接口，可按需配置。

7. Swap分区：K8s的"性能毒药"

Swap分区（虚拟内存）会让K8s调度器误判内存资源，导致Pod分配不合理。实测关闭Swap后，集群响应速度平均提升15%。
临时关闭用`swapoff -a`，永久关闭需编辑`/etc/fstab`，注释掉包含`swap`的行（操作前务必备份文件）。云服务器的大内存实例可替代Swap功能，高并发场景建议选择16GB以上内存配置。

8. SELinux：安全与便利的"平衡术"

SELinux（安全增强型Linux）强制访问控制可能限制kubelet操作容器文件系统。某开发团队因SELinux开启，导致Pod无法挂载PVC（持久化卷）。
`getenforce`查看状态（输出Enforcing表示开启），临时关闭用`setenforce 0`，永久关闭需修改`/etc/selinux/config`中`SELINUX=disabled`（重启生效）。生产环境建议保留SELinux，但需通过`sepolicy`添加K8s相关策略。

9. 组件版本："全家桶"必须"同岁"

kube-apiserver、kubelet、kube-proxy版本不一致，会导致API调用失败或调度策略冲突。某客户因漏升级Node节点的kubelet，集群一直处于"NotReady"状态。
执行`kubectl version --short`（Master节点）和`kubelet --version`（所有节点），确保Server Version与Client Version一致（如v1.28.3）。升级时建议用`kubeadm upgrade apply v1.28.3`统一操作。

10. 存储系统：数据的"保险箱"要稳固

存储IO延迟超200ms，会导致容器日志写入失败；存储空间不足，Pod无法创建。某电商大促时，因存储性能不足，订单系统日志丢失近3000条。
检查存储状态用`iostat -x 1 3`（查看%util和await），容量用`df -h`。云服务器的块存储（如EBS）支持弹性扩容，建议为`/var/lib/kubelet`目录单独挂载高IOPS磁盘。

完成这10项检查后，再执行`kubeadm init`或`k3s install`会更顺畅。实际部署中，建议先在测试环境模拟操作（云服务器的快照功能可快速恢复测试环境），验证无误后再切生产。若遇到复杂网络或存储问题，可联系技术团队获取定制化检查脚本。