服务运行状况检查
单机模式
当系统出现局部功能异常或全局访问受阻时,可遵循以下流程按序排查。
容器服务日志检查
查看微服务应用容器健康检查日志
docker logs $(docker ps -a | grep mingdaoyun-community | awk '{print $1}')
查看存储组件容器健康检查日志
docker logs $(docker ps -a | grep mingdaoyun-sc | awk '{print $1}')
日志判定及排查思路:
-
正常: 日志以 INFO 级别为主,滚动更新平稳。
-
异常: 出现连续的 ERROR 或堆栈信息,需针对性分析。
-
Kafka 异常: 若存储组件日志提示 Kafka 无法启动,请参考Kafka 启动失败处理步骤。
-
MongoDB 异常: 若日志显示 MongoDB 发生过自动重启,通常由服务器内存满载引起;可尝试临时重启 HAP 服务以恢复。
-
微服务异常: 若存储组件日志正常,但微服务应用日志异常,通常可尝试重启 HAP 服务尝试恢复。
-
重启 HAP 服务方法
在安装管理器解压路径下执行
bash service.sh restartall
-
如遗忘
service.sh文件所在路径,可使用以下命令查找find / -path /proc -prune -o -name "service.sh" -print
服务器物理资源检查
CPU 占用检查
top -c
-
单机模式下,16核足以应对绝大数场景,如依旧CPU占满且占用CPU最高的是 mongod 进程,通常为慢查询导致,可参考慢查询优化帮助文档。
-
top cpu 的指标项中的 wa,代表磁盘等待耗时。正常值通常为 0 或 0.x;若达到 5 或更高,说明服务器磁盘性能过低,务必更换 SSD 类型磁盘。
内存使用检查
free -h
- 在内存接近满载的情况下,极易引发系统异常,也可能会连带导致 CPU 占用率异常升高。
- 若在 64G 或更高内存的环境下使用率依旧过高,可以使用
top -co %MEM命令按内存占用比例排序查看,定位异常进程。
磁盘空间检查
df -Th
- 若数据分区磁盘占满,会导致系统功能不可用。
- 可参考文档清理历史镜像、删除冗余日志数据,或进行磁盘空间扩容,完成后重启服务即可恢复。
历史资源使用趋势检查
系统异常有时具有滞后性,需结合历史资源趋势进行回溯排查。
-
既有监控: 若服务器环境已安装监控程序(如 Zabbix、Prometheus 等),请优先查看故障发生时间段内的 CPU、内存及 I/O 指标趋势。
-
补充安装: 若当前环境缺乏监控手段,建议安装运维平台以实现对系统资源的实时监测与历史数据分析。