GBase 8a因内存条硬件故障导致的异常宕机

极少见的场景,排查的结果,GBase 8a宕机,是被操作系统kill掉了, 而kill的原因是访问了不可用的内存,但又不是segment_fault, 而是内存坏了。

GBase 8a 宕机信息

现场返回,这2天凌晨时,跑批任务会报错。查看集群,发现一个节点的gbased服务会重启。

查看操作系统日志,发现是被kill掉的

而被kill掉的原因,是因为访问内存错误,而且是硬件错误。

dmesg查看错误,发现MC报错

MC3(Memory Contoler) 报错,因属于内存硬件故障。

总结

很少见的服务宕机现象,留作纪念吧。