HighWayToHell - Tag - sel
花园里, 篱笆下
2023-08-13T10:38:15+08:00
Druggo
urn:md5:79dfcacdbfd6434dfc57423d51240051
Dotclear
用ipmitool远程管理DELL服务器
urn:md5:0b09630098cef20b148f01fce1f361b0
2010-12-12T19:07:00+08:00
2010-12-12T19:07:09+08:00
admin
计算机
dellipmiipmitoollinuxsel
<p>只用过DELL的服务器,都支持ipmi,可以在启动电脑的时候配置,也可以在系统里配置(需安装ipmi相关内核模块),可以查看温度、风扇转速、电源等等,我一般用来远程重启,就不用麻烦IDC了。</p>
<p>在DELL服务器上:</p>
<ol><li>安装ipmitool,载入相关内核模块(ipmi_si、ipmi_devintf)</li>
<li>设置ip地址(最好不要和服务器ip在同一段):ipmitool lan set 1 ipaddr 192.168.2.7</li>
<li>设置root密码(ipmi里的root默认id是2):ipmitool user set password 2 mima</li>
<li>允许访问:ipmitool lan set 1 access on</li>
</ol>在控制电脑上:<br /><ol><li>也安装好ipmitool(无需内核模块支持,因为只要通过LAN访问DELL)</li>
<li>设置ip和DELL的ipmi在同一段即可:ifconfig eth0:0 192.168.2.8</li>
<li>测试一下吧:ipmitool -H 192.168.2.7 -U root -P mima sel list</li>
<li>碰到死机不响应了,重启一下:ipmitool -H 192.168.2.7 -U root -P mima power reset</li>
</ol>sel的记录非常有价值,诸如内存故障等事件都会记录,不用亲临机房也能随时掌握服务器健康状况。<br />当然ipmitool还可以查看很多东西,RTFM……<br />
http://blog.druggo.org/post/2010/12/12/%E7%94%A8ipmitool%E8%BF%9C%E7%A8%8B%E7%AE%A1%E7%90%86DELL%E6%9C%8D%E5%8A%A1%E5%99%A8#comment-form
http://blog.druggo.org/feed/atom/comments/238
利用ipmi定位故障内存
urn:md5:43ae7d872f8f5290f6040e1de778d002
2009-11-10T19:32:00+08:00
2009-11-10T19:32:54+08:00
admin
计算机
delldimmeccipmimemorype1850sel
<p>最近估计是到了维护期了,几台DELL的PE1850都开始报警,特别是遭受机房电力闪断事件后,跟DELL支持工程师沟通,就是让你用他们的诊断工具DSET跑个log出来给他们看,还必须是红帽系统的,因为都是些rpm包,弄了个centos结果跑完啥问题都没查出来,说没抓到log,真是废物工具啊,可惜1850没有LED屏,不知道问题所在,好在DELL服务器一般都支持IPMI,遂安装ipmitool,查询系统日志(从本机查需要内核支持IPMI,通过网络查只要设置好IPMI的IP地址等信息):</p>
<blockquote>
<p># ipmitool sel list</p>
<p> 1 | 11/05/2009 | 18:51:20 | Event Logging Disabled #0x51 | Log area reset/cleared | Asserted<br /> 2 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted<br /> 3 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted<br /> 4 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted<br /> 5 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted<br /> 6 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted<br /> 7 | 11/05/2009 | 19:03:09 | Memory #0x01 | Correctable ECC | Asserted<br /> 8 | 11/05/2009 | 19:03:10 | Event Logging Disabled #0x06 | Correctable memory error logging disabled | Asserted</p>
</blockquote><p>可见问题出在内存,ECC错误被纠正次数太多了,难怪报警了,可是我电脑上有6根内存啊,经过google得知,可以从详细信息中看出端倪:</p>
<p><blockquote><p># ipmitool sel list -v</p>
</blockquote>信息较多,列出其一:</p>
<p><blockquote><p>SEL Record ID : 0002<br /> Record Type : 02<br /> Timestamp : 11/05/2009 19:03:09<br /> Generator ID : 00b1<br /> EvM Revision : 04<br /> Sensor Type : Memory<br /> Sensor Number : 01<br /> Event Type : Sensor-specific Discrete<br /> Event Direction : Assertion Event<br /> Event Data : a0f101<br /> Description : Correctable ECC</p>
</blockquote>需要关注的地方就是Event Data,这里看到的是a0f101,google告诉我们玄机在第四位和第六位上,第四位代表DIMM组,第六位代表组中的具体哪根,都是从0开始算,那么例子中的故障内存就是DIMM_2_BANK_B那根了,主板上都标明了的,替换之,OK。</p>
<p>实际上Correctable ECC错误不太多把系统日志清空一下就不会报警了,但是有时候清空后,没多久又满了,那还是早日换掉好了,不然哪天变成Uncorrectable系统可就挂掉了。</p>
http://blog.druggo.org/post/2009/11/10/%E5%88%A9%E7%94%A8ipmi%E5%AE%9A%E4%BD%8D%E6%95%85%E9%9A%9C%E5%86%85%E5%AD%98#comment-form
http://blog.druggo.org/feed/atom/comments/222