pfSenseが稼働するIBM x3650 M1が勝手にシャットダウン

公開 | 更新 
図11.x3650 本体内部

pfSense を入れてLAN内のネットワークアクセスを担うNACサーバ、 IBM x3650 Type 7979 (通称M1)がひっそり勝手に シャットダウン してしまう障害に対し、BMCのログを解析して原因特定を試みたり、そうしているうちにOSまでクラッシュしてしまったことから、こちらも修復したりした、本記事はほぼその作業記録です。

そのサーバは、ルータの下でLAN内のネットワークアクセスを司るNAC(Network Access Control)で、pfSenseを入れてもう10年近く運用しています。冗長性を持たせるために同じ機種の2台構成にしているうちの、本機はスタンバイ担当です。

症状は、起動後数時間でいつのまにかシャットダウンしている。その状態から前面パネルの電源スイッチを長押ししても二度と起動することは無く、電源ケーブルを抜き差しする必要がある、と言うもので、BIOSやダイアグを開いたまま数時間放置してても、同様にシャットダウンしてしまう為、OSのクラッシュとは考えにくく、ハードウェアが怪しく思われます。

システム管理インターフェイスが無い

VMware ESXi ホストサーバに使っているx3650 M2で、オンボードのシステム管理インターフェイスを利用したことが有ったので、本機でも試してみるべく、適当なPCとLANケーブルで繋いでみますが、そもそもLEDが全く点灯しません。

図01.Systems-management Ethernet connector

図01.Systems-management Ethernet connector

そこでx3650 Type 7979 Installation Guideを参照してみたところ、このポートは、Remote Supervisor Adapter II SlimLine(オプション品)を搭載している場合のみ有効とのことで断念。こうしたシステム管理インターフェイスが標準装備になったのは、x3650 M2のIMMからなのでしょうか。

図02.Installation Guide より抜粋

図02.Installation Guide より抜粋

BMCへのアクセス

システム管理インターフェイスが使えなくとも、BIOSからBMC(Baseboard Management Controller)へアクセスすることで、障害に関する情報を得ることが可能です。x3650の電源投入後、ロゴ画面でF1キー連打でBIOSへ入り、Advanced Setupを選びます。

図03.BIOS Menu Top

図03.BIOS Menu Top

Advanced Setupでは下方にあるBMC Settingsを選択。

図04.BIOS Advanced Setup

図04.BIOS Advanced Setup

BMC Settings内にあるBMC System Event Logで、過去に発生した障害イベントに関するログ情報を、閲覧することが出来ます。

図05.BIOS BMC Settings

図05.BIOS BMC Settings

稼働年数やこれまでの障害の頻度にも依りますが、この機体には400件のログが記録されていたので、ひたすら1つずつ閲覧して気になるエントリをピックアップします。今回の障害に関係していると思われたのは、以下の3件のイベントです。

その1 Add in Card Device Removed

PCI接続のボードの類が取り外されたとのことなので、接触不良もしくはボードがハングアップしていると思われ、これが原因になっている可能性があるものの、シャットダウンしてしまう程の障害なのかは疑問です。

図06.BIOS BMC Event Log 1

図06.BIOS BMC Event Log 1

その2 System Firmware Progress BIOS Hang

これは実は思い当たることがあります。BIOSに用意されているシステムダイアグでフル項目でテストを走らせてしまった時のものでしょう。

図07.BIOS BMC Event Log 2

図07.BIOS BMC Event Log 2

その3 Lower Non-critical – going high

このイベントが多いのですが、Timestampがおかしいので、システムOFFの間に何か正常に復帰したのでしょうか。OEM Reservedとしか分からないので、どの部位の何のことか特定出来ません。IBMからこのイベントログに使われる内容についての技術書が見付からないので、メーカー共通の普遍的な情報から類推するしかないのが苦しいところ。

図08.BIOS BMC Event Log 3

図08.BIOS BMC Event Log 3

開機してハードウェアを点検

とイマイチ障害部位を特定出来ずに時間だけが経過していると、BMC以前にBIOSもPCIエラーを挙げるようになりました。

図09.BIOS POST Startup Error

図09.BIOS POST Startup Error

こうなるともう中を開けてみるしかありません。サーバ本体をラックから引き出して天板を外します。天板には内部のレイアウトなど、サービスに必要な情報が記されています。

図10.x3650 System Service Information

図10.x3650 System Service Information

NACという性格上、多くのネットワークインタフェイスを必要とする為、本機にはQuad Port GbE Adapterがライザーカードに2枚、さらに別のスロットに1枚と計3枚挿しています。これらのいずれかに不調がないか、天板を開けた状態で通電してみますが、エラーLEDは全く点灯しません。仕方ないので取り敢えず、ライザーカードやイーサネットアダプタを全て外して清掃した後、しっかりと組み直しました。

図11.x3650 本体内部

図11.x3650 本体内部

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA