最近估计是到了维护期了,几台DELL的PE1850都开始报警,特别是遭受机房电力闪断事件后,跟DELL支持工程师沟通,就是让你用他们的诊断工具DSET跑个log出来给他们看,还必须是红帽系统的,因为都是些rpm包,弄了个centos结果跑完啥问题都没查出来,说没抓到log,真是废物工具啊,可惜1850没有LED屏,不知道问题所在,好在DELL服务器一般都支持IPMI,遂安装ipmitool,查询系统日志(从本机查需要内核支持IPMI,通过网络查只要设置好IPMI的IP地址等信息):
# ipmitool sel list
1 | 11/05/2009 | 18:51:20 | Event Logging Disabled #0x51 | Log area reset/cleared | Asserted
2 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
3 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
4 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
5 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
6 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
7 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted
8 | 11/05/2009 | 19:03:10 | Event Logging Disabled #0x06 | Correctable memory error logging disabled | Asserted
可见问题出在内存,ECC错误被纠正次数太多了,难怪报警了,可是我电脑上有6根内存啊,经过google得知,可以从详细信息中看出端倪:
信息较多,列出其一:# ipmitool sel list -v
需要关注的地方就是Event Data,这里看到的是a0f101,google告诉我们玄机在第四位和第六位上,第四位代表DIMM组,第六位代表组中的具体哪根,都是从0开始算,那么例子中的故障内存就是DIMM_2_BANK_B那根了,主板上都标明了的,替换之,OK。SEL Record ID : 0002
Record Type : 02
Timestamp : 11/05/2009 19:03:09
Generator ID : 00b1
EvM Revision : 04
Sensor Type : Memory
Sensor Number : 01
Event Type : Sensor-specific Discrete
Event Direction : Assertion Event
Event Data : a0f101
Description : Correctable ECC
实际上Correctable ECC错误不太多把系统日志清空一下就不会报警了,但是有时候清空后,没多久又满了,那还是早日换掉好了,不然哪天变成Uncorrectable系统可就挂掉了。
Last comments