真实故障案例库¶
这里收集高频运维故障的排查路径。每个案例都按“现象 -> 快速判断 -> 排查命令 -> 常见原因 -> 处理建议 -> 高危提醒 -> 相关专题”的结构整理,适合值班、培训和应急排障。
按症状查找¶
| 现象 | 优先查看 |
|---|---|
| 页面打不开、网关错误 | 网关超时、负载均衡健康检查失败、Nginx 502/504、DNS 解析失败、证书过期、TLS 证书链不完整 |
| 服务端口不可用 | 端口被占用、Nginx 启动失败、MySQL 启动失败、Redis 连接失败 |
| 服务启动失败 | systemd 服务启动失败、Nginx 启动失败、Docker Compose 启动失败 |
| 主机资源异常 | 磁盘空间满、CPU 飙高、Java 服务 OOM、Linux Permission denied |
| 容器或 Pod 异常 | Docker 容器反复重启、Docker 镜像拉取失败、Pod CrashLoopBackOff、ImagePullBackOff、Kubernetes Node NotReady、Kubernetes DNS 异常 |
| 数据库连接异常 | 数据库连接池耗尽、MySQL 启动失败、MySQL 连接数打满、Redis 连接失败 |
| 中间件连接异常 | 消息队列连接失败、Redis 连接失败、数据库连接池耗尽 |
| 监控无数据或告警 | Prometheus 告警规则误报、Prometheus Target Down、Grafana 无数据 |
| 远程登录失败 | SSH 连接失败、DNS 解析失败、端口被占用 |
案例列表¶
| 故障 | 文档 |
|---|---|
| 磁盘空间满 | 磁盘空间满排查 |
| CPU 飙高 | CPU 飙高排查 |
| 端口被占用 | 端口被占用排查 |
| SSH 连接失败 | SSH 连接失败排查 |
| Linux Permission denied | Linux Permission denied 排查 |
| systemd 服务启动失败 | systemd 服务启动失败排查 |
| Nginx 启动失败 | Nginx 启动失败排查 |
| Nginx 502/504 | Nginx 502/504 排查 |
| 网关超时 | 网关超时排查 |
| 负载均衡健康检查失败 | 负载均衡健康检查失败排查 |
| MySQL 启动失败 | MySQL 启动失败排查 |
| MySQL 连接数打满 | MySQL 连接数打满排查 |
| 数据库连接池耗尽 | 数据库连接池耗尽排查 |
| Redis 连接失败 | Redis 连接失败排查 |
| 消息队列连接失败 | 消息队列连接失败排查 |
| Java 服务 OOM | Java 服务 OOM 排查 |
| DNS 解析失败 | DNS 解析失败排查 |
| 证书过期 | 证书过期排查 |
| Docker 容器反复重启 | Docker 容器反复重启排查 |
| Docker 镜像拉取失败 | Docker 镜像拉取失败排查 |
| Docker Compose 启动失败 | Docker Compose 启动失败排查 |
| Kubernetes Pod CrashLoopBackOff | Pod CrashLoopBackOff 排查 |
| Kubernetes ImagePullBackOff | ImagePullBackOff 排查 |
| Kubernetes Node NotReady | Kubernetes Node NotReady 排查 |
| Kubernetes DNS 异常 | Kubernetes DNS 异常排查 |
| TLS 证书链不完整 | TLS 证书链不完整排查 |
| Prometheus Target Down | Prometheus Target Down 排查 |
| Grafana 无数据 | Grafana 无数据排查 |
| Prometheus 告警规则误报 | Prometheus 告警规则误报排查 |
案例模板¶
完整写作说明见 故障案例写作模板。
# 案例标题
## 现象
## 快速判断
## 排查命令
## 常见原因
## 处理建议
## 高危提醒
## 相关专题