docker swarm 集群故障与异常详解

服务器 2024/11/15 佚名

2 0 1

神剑山庄资源网 Design By www.hcban.com

本文介绍了docker swarm 集群故障与异常详解，分享给大家，具体如下：

在上次遭遇 docker swarm 集群故障后，我们将 docker 由 17.10.0-ce 升级为最新稳定版 docker 17.12.0-ce 。

前天晚上22:00之后集群中的2个节点突然出现CPU波动，在CPU波动之后，在凌晨夜深人静、访问量极低的时候，整个集群出现了故障，访问集群上的所有站点都出现了502，过了一段时间后自动恢复正常。

ECS实例：swarm1-node5，CPU百分比于00:52发生告警，值为96.14%，持续时间0分钟

。。。

昨天早上发现访问部分节点中的容器应用响应有些慢，于是我们通过阿里云控制台强制重启这些节点后恢复正常。

今天上午我们在集群上更新一个应用时（部署新的镜像），出现了奇怪的问题。应用是在 swarm1-node1 这个 manager 节点上部署的，部署后容器运行在其他节点上，但奇怪的是只有在 swarm1-node1 这个节点上可以正常访问容器中的站点，在其他节点上访问都是 503 ，用 docker stack rm 命令删除应用并重新部署问题依旧。

当时 docker-flow-proxy（路由应用）的 2 个容器都是部署在 swarm1-node1 节点上的，从问题现象看，在 swarm1-node1 节点上 docker-flow-proxy 容器与外界的通信正常，docker-flow-proxy 容器与其他节点上的容器的 overlay 网络（网络A）通信正常；在其他节点上，外界的请求通过 overlay 网络（网络B）被正常转发到 docker-flow-proxy 容器，却不能被正常路由到其他节点上对应的容器（也是通过 overlay 网络A）。对这个奇怪现象实在想不通，但是问题摆在那，想不通也要解决。想不通背后的原因，那我们换个角度，其他节点都异常，就 swarm1-node1 正常，根据少数服从多数的粗暴原则，那就认为swarm1-node1 不正常吧。于是通过下面的命令将swarm1-node1 节点下线：

docker node update --availability drain swarm1-node1

swarm1-node1 下线后，其他节点都恢复了正常，果然是 swarm1-node1 不正常。

swarm1-node1 下线的背后是 docker-flow-proxy 容器换到其他节点上运行。

问题就这样被猜测解决了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

docker,swarm,集群,docker,swarm

标签：

docker,swarm,集群,docker,swarm

神剑山庄资源网 Design By www.hcban.com

神剑山庄资源网 免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

神剑山庄资源网 Design By www.hcban.com

评论“docker swarm 集群故障与异常详解”

暂无docker swarm 集群故障与异常详解的评论...

www.hcban.com 神剑山庄资源网

139,976影音资源

144,792福利资源

21,817软件资源

631,128技术资源

更新日志

2024年11月15日

docker swarm 集群故障与异常详解

docker,swarm,集群,docker,swarm

CentOS7 Nvidia Docker环境搭建

详解Ubuntu Docker Registry 搭建私有仓库

评论“docker swarm 集群故障与异常详解”

更新日志

友情链接