跳转至

真实故障案例库

这里收集高频运维故障的排查路径。每个案例都按“现象 -> 快速判断 -> 排查命令 -> 常见原因 -> 处理建议 -> 高危提醒 -> 相关专题”的结构整理,适合值班、培训和应急排障。

按症状查找

现象 优先查看
页面打不开、网关错误 网关超时负载均衡健康检查失败Nginx 502/504DNS 解析失败证书过期TLS 证书链不完整
服务端口不可用 端口被占用Nginx 启动失败MySQL 启动失败Redis 连接失败
服务启动失败 systemd 服务启动失败Nginx 启动失败Docker Compose 启动失败
主机资源异常 磁盘空间满CPU 飙高Java 服务 OOMLinux Permission denied
容器或 Pod 异常 Docker 容器反复重启Docker 镜像拉取失败Pod CrashLoopBackOffImagePullBackOffKubernetes Node NotReadyKubernetes DNS 异常
数据库连接异常 数据库连接池耗尽MySQL 启动失败MySQL 连接数打满Redis 连接失败
中间件连接异常 消息队列连接失败Redis 连接失败数据库连接池耗尽
监控无数据或告警 Prometheus 告警规则误报Prometheus Target DownGrafana 无数据
远程登录失败 SSH 连接失败DNS 解析失败端口被占用

案例列表

故障 文档
磁盘空间满 磁盘空间满排查
CPU 飙高 CPU 飙高排查
端口被占用 端口被占用排查
SSH 连接失败 SSH 连接失败排查
Linux Permission denied Linux Permission denied 排查
systemd 服务启动失败 systemd 服务启动失败排查
Nginx 启动失败 Nginx 启动失败排查
Nginx 502/504 Nginx 502/504 排查
网关超时 网关超时排查
负载均衡健康检查失败 负载均衡健康检查失败排查
MySQL 启动失败 MySQL 启动失败排查
MySQL 连接数打满 MySQL 连接数打满排查
数据库连接池耗尽 数据库连接池耗尽排查
Redis 连接失败 Redis 连接失败排查
消息队列连接失败 消息队列连接失败排查
Java 服务 OOM Java 服务 OOM 排查
DNS 解析失败 DNS 解析失败排查
证书过期 证书过期排查
Docker 容器反复重启 Docker 容器反复重启排查
Docker 镜像拉取失败 Docker 镜像拉取失败排查
Docker Compose 启动失败 Docker Compose 启动失败排查
Kubernetes Pod CrashLoopBackOff Pod CrashLoopBackOff 排查
Kubernetes ImagePullBackOff ImagePullBackOff 排查
Kubernetes Node NotReady Kubernetes Node NotReady 排查
Kubernetes DNS 异常 Kubernetes DNS 异常排查
TLS 证书链不完整 TLS 证书链不完整排查
Prometheus Target Down Prometheus Target Down 排查
Grafana 无数据 Grafana 无数据排查
Prometheus 告警规则误报 Prometheus 告警规则误报排查

案例模板

完整写作说明见 故障案例写作模板

# 案例标题

## 现象

## 快速判断

## 排查命令

## 常见原因

## 处理建议

## 高危提醒

## 相关专题