南大通用GBase 8a集群常见报错ERROR [CLM ] port_scanning error sockfd:81 time:1(ms) cfg_connect_timeout:5000(ms) error

GBase 8a数据库的gcware集群一致性管理层,是通过节点间的扫描,来判定节点状态的。当前是使用ssh服务,如果在指定时间内,没有连通目标节点,则会报cfg_connect_timeout的错误,并会判定目标节点处于离线状态。

原因

节点服务访问,OFFLINE

corosync或gcware服务,在扫描某个节点服务时,在指定时间内没有成功,认定超时。在集群层,会设置该节点为OFFLINE状态。

该信息出现在v8版本的/var/log/corosync.log里或者V9版本的【安装目录】/gcware/log/gcware.log里。

节点服务CLOSE

节点服务,是通过连接5050、5258、5288等端口来实现检测的,如果超过参数值没有连接上,则判断服务CLOSE。

解决

根据报错原因,一般是

  • 对面sshd或数据库库服务确实没有启动
  • sshd连接数不够,参考 sshd连接数配置
  • 网络不通或延迟高。网线不好,交换机问题等,丢包严重或延迟高。
  • 对面CPU负荷高没有及时响应。一般是磁盘繁忙,比如iostat -xdc里的await超过100毫秒,且util长期100%繁忙。
  • 防火墙拒绝连接等

该参数在某些版本,默认值是500,单位毫秒,新版本默认是5000。

如果是网络延迟问题,建议根据现场情况,适当调高参数。

V8是/etc/corosync/corosync.conf

V9是【安装目录】/gcware/config/gcware.conf

南大通用GBase 8a集群常见报错ERROR [CLM ] port_scanning error sockfd:81 time:1(ms) cfg_connect_timeout:5000(ms) error》有2条评论

评论已关闭。