GBase 8a节点gcadmin显示offline的原因

GBase 8a现有版本,还是采用操作系统的ssh来检测某个节点是否在线。如果超过了参数设置的timeout值,则会设节点为offline状态。

常见原因

节点物理离线

比如网线被拔掉,断电等。

节点死机

一般现象是ping还能通,但ssh无法连接上去,或者需要很久。

操作系统繁忙

包括CPU, 磁盘等,也包括网络。只要在timeout参数内,没有正常返回,就会被认定offline。 当然网络堵塞,不稳定也算在【繁忙】范畴里。

该参数是gcware层的cfg_connect_timeout。详情请参考

GBase 8a集群常见报错ERROR [CLM ] port_scanning error sockfd:81 time:1(ms) cfg_connect_timeout:5000(ms) error

解决方案

如果是网络不稳定,可以提高容忍度参数。 很老的版本是默认500毫秒。之后的都是5000毫秒。如果一个ssh在5秒内都无法联通,确实网路或环境不可靠。

可以通过

time ssh XX.XX.XX.XX  date

来不断监控连接耗时。同时如前面参考文章,可以在日志里看到超时的报错信息。