跳到主要内容

服务运行状况检查

单机模式

当系统出现局部功能异常或全局访问受阻时，可遵循以下流程按序排查。

容器服务日志检查

查看微服务应用容器健康检查日志

docker logs $(docker ps -a | grep -E 'mingdaoyun-community|mingdaoyun-hap' | awk '{print $1}')

查看存储组件容器健康检查日志

docker logs $(docker ps -a | grep mingdaoyun-sc | awk '{print $1}')

日志判定及排查思路：

正常：日志以 INFO 级别为主，滚动更新平稳。
异常：出现连续的 ERROR 或堆栈信息，需针对性分析。
- Kafka 异常：若存储组件日志提示 Kafka 无法启动，请参考Kafka 启动失败处理步骤。
- MongoDB 异常：若日志显示 MongoDB 发生过自动重启，通常由服务器内存满载引起；可尝试临时重启 HAP 服务以恢复。
- 微服务异常：若存储组件日志正常，但微服务应用日志异常，通常可尝试重启 HAP 服务尝试恢复。

重启 HAP 服务方法

在安装管理器解压路径下执行

bash service.sh restartall

如遗忘 service.sh 文件所在路径，可使用以下命令查找
```
find / -path /proc -prune -o -name "service.sh" -print
```

服务器物理资源检查

CPU 占用检查

top -c

单机模式下，16 核足以应对绝大多数场景，如依旧 CPU 占满且占用 CPU 最高的是 mongod 进程，通常为慢查询导致，可参考慢查询优化帮助文档。
top cpu 的指标项中的 wa，代表磁盘等待耗时。正常值通常为 0 或 0.x；若达到 5 或更高，说明服务器磁盘性能过低，务必更换 SSD 类型磁盘。

内存使用检查

free -h

在内存接近满载的情况下，极易引发系统异常，也可能会连带导致 CPU 占用率异常升高。
若在 64G 或更高内存的环境下使用率依旧过高，可以使用 top -co %MEM 命令按内存占用比例排序查看，定位异常进程。

磁盘空间检查

df -Th

若数据分区磁盘占满，会导致系统功能不可用。
可参考文档清理历史镜像、删除冗余日志数据，或进行磁盘空间扩容，完成后重启服务即可恢复。

历史资源使用趋势检查

系统异常有时具有滞后性，需结合历史资源趋势进行回溯排查。

既有监控：若服务器环境已安装监控程序（如 Zabbix、Prometheus 等），请优先查看故障发生时间段内的 CPU、内存及 I/O 指标趋势。
补充安装：若当前环境缺乏监控手段，建议安装运维平台以实现对系统资源的实时监测与历史数据分析。

单机模式
- 容器服务日志检查
- 服务器物理资源检查