南大通用GBase8a MPP Cluster集群状态gcadmin输出说明

GBase 8a数据库集群提供了gcadmin的管理命令查看集群状态,包括当前整体状态,各个服务的状态等。本文介绍各个状态的含义,便于运维和巡检人员,根据情况做处理。

目录导航

样例

LOCK

大于或等于一半的管理节点不可用(非OPEN状态)

V95提示:

在V9版本里,取消了LOCK状态,一直是NORMAL。后续SQL会卡住,直到恢复。修改的原因是一半管理节点离线的情况,大致分如下2种:

1、确实坏了一半管理节点,且需要很久才能修复。此时系统无论怎么都恢复不了,必须人工介入维修。 业务是报错还是卡住,对结果没有影响,都是不能对外正常服务。

2、偶发故障,常见于网络断开或资源繁忙。即使故障只有1分钟,但以前的方案是期间一直报错,由用户应用层进行重试。 现有方案是GBase后台自动重试,直到恢复后继续运行下去,不报错。

从实际使用看,后者发生概率远远大于前者,新的处理方案为用户提供了更好的使用感受(看做偶然卡了一下,局部拥堵了一小会)。

对于集群状态检测,以前是直接显示LOCK状态,现在必须要通过设置TIMEOUT超时机制,超过能接受的时间依然没有返回,则需要告警,由运维人员进行查看确认。

OFFLINE

节点无法ssh连接,一般是网络故障,网络很卡或者SSH安全配置问题,也遇到过其它集群配置corosync的IP与本机群重复,干扰了当前集群运行的情况。

CLOSE

该服务进程不存在。 ps 查看对应进程是否存在,并查看对应的日志报错信息。

数据状态

为0正常。为1表示有不一致的情况,可以参考

GBase8a MPP Cluster查看集群数据不一致的详情

南大通用GBase8a MPP Cluster集群状态gcadmin输出说明》有1条评论

评论已关闭。