跳到主要内容

服务运行状况检查

单机模式

当系统出现局部功能异常或全局访问受阻时,可遵循以下流程按序排查。

容器服务日志检查

查看微服务应用容器健康检查日志

docker logs $(docker ps -a | grep mingdaoyun-community | awk '{print $1}')
查看存储组件容器健康检查日志
docker logs $(docker ps -a | grep mingdaoyun-sc | awk '{print $1}')

日志判定及排查思路:

  • 正常: 日志以 INFO 级别为主,滚动更新平稳。

  • 异常: 出现连续的 ERROR 或堆栈信息,需针对性分析。

    • Kafka 异常: 若存储组件日志提示 Kafka 无法启动,请参考Kafka 启动失败处理步骤

    • MongoDB 异常: 若日志显示 MongoDB 发生过自动重启,通常由服务器内存满载引起;可尝试临时重启 HAP 服务以恢复。

    • 微服务异常: 若存储组件日志正常,但微服务应用日志异常,通常可尝试重启 HAP 服务尝试恢复。

重启 HAP 服务方法

在安装管理器解压路径下执行

bash service.sh restartall
  • 如遗忘 service.sh 文件所在路径,可使用以下命令查找

    find / -path /proc -prune -o -name "service.sh" -print

服务器物理资源检查

CPU 占用检查

top -c
  • 单机模式下,16核足以应对绝大数场景,如依旧CPU占满且占用CPU最高的是 mongod 进程,通常为慢查询导致,可参考慢查询优化帮助文档

  • top cpu 的指标项中的 wa,代表磁盘等待耗时。正常值通常为 0 或 0.x;若达到 5 或更高,说明服务器磁盘性能过低,务必更换 SSD 类型磁盘。

内存使用检查

free -h
  • 在内存接近满载的情况下,极易引发系统异常,也可能会连带导致 CPU 占用率异常升高。
  • 若在 64G 或更高内存的环境下使用率依旧过高,可以使用 top -co %MEM 命令按内存占用比例排序查看,定位异常进程。

磁盘空间检查

df -Th
  • 若数据分区磁盘占满,会导致系统功能不可用。
  • 可参考文档清理历史镜像、删除冗余日志数据,或进行磁盘空间扩容,完成后重启服务即可恢复。

历史资源使用趋势检查

系统异常有时具有滞后性,需结合历史资源趋势进行回溯排查。

  • 既有监控: 若服务器环境已安装监控程序(如 Zabbix、Prometheus 等),请优先查看故障发生时间段内的 CPU、内存及 I/O 指标趋势。

  • 补充安装: 若当前环境缺乏监控手段,建议安装运维平台以实现对系统资源的实时监测与历史数据分析。