最近估计是到了维护期了,几台DELL的PE1850都开始报警,特别是遭受机房电力闪断事件后,跟DELL支持工程师沟通,就是让你用他们的诊断工具DSET跑个log出来给他们看,还必须是红帽系统的,因为都是些rpm包,弄了个centos结果跑完啥问题都没查出来,说没抓到log,真是废物工具啊,可惜1850没有LED屏,不知道问题所在,好在DELL服务器一般都支持IPMI,遂安装ipmitool,查询系统日志(从本机查需要内核支持IPMI,通过网络查只要设置好IPMI的IP地址等信息):

# ipmitool sel list

   1 | 11/05/2009 | 18:51:20 | Event Logging Disabled #0x51 | Log area reset/cleared | Asserted
   2 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
   3 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
   4 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
   5 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
   6 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
   7 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
   8 | 11/05/2009 | 19:03:10 | Event Logging Disabled #0x06 | Correctable memory error logging disabled | Asserted

可见问题出在内存,ECC错误被纠正次数太多了,难怪报警了,可是我电脑上有6根内存啊,经过google得知,可以从详细信息中看出端倪:

# ipmitool sel list -v

信息较多,列出其一:

SEL Record ID          : 0002
 Record Type           : 02
 Timestamp             : 11/05/2009 19:03:09
 Generator ID          : 00b1
 EvM Revision          : 04
 Sensor Type           : Memory
 Sensor Number         : 01
 Event Type            : Sensor-specific Discrete
 Event Direction       : Assertion Event
 Event Data            : a0f101
 Description           : Correctable ECC

需要关注的地方就是Event Data,这里看到的是a0f101,google告诉我们玄机在第四位和第六位上,第四位代表DIMM组,第六位代表组中的具体哪根,都是从0开始算,那么例子中的故障内存就是DIMM_2_BANK_B那根了,主板上都标明了的,替换之,OK。

实际上Correctable ECC错误不太多把系统日志清空一下就不会报警了,但是有时候清空后,没多久又满了,那还是早日换掉好了,不然哪天变成Uncorrectable系统可就挂掉了。