Proxmox VE 8の動くLenovo System x3650 M5 RAID構成ディスク障害検知と交換

公開

VMware ESXiからProxmox VE 8へ入れ替えたLenovo System x3650 M5のハードウェアRAIDを構成するディスクに障害が発生。検知からIMM2による不良ディスクの特定、交換とリビルドの作業記録です。

第一報はSMARTエラーを知らせるメール

VMware ESXiハイパバイザからProxmox VE 8へ乗り換えた、Lenovo System x3650 M5のハードウェアRAIDを構成するディスクに不穏な兆候が。

それは、Proxmox VEノードから、普段見慣れない次のようなメールを受け取ったのが始まり。

図1.SMART Errorメール通知

図1.SMART Errorメール通知

ただ表題にもあるように、これだけでは単なるSMARTエラーなのだろう、とおろそかにしてしまいがち。

 

IMM2の状態

その後も同じメールを連日受信するので、IMM2の状態を確認してようやく、ディスク異常に気づきます。

図2.IMM2 System Status Critical

図2.IMM2 System Status Critical

System Status ページ下方で Critical になっている Local Storage をクリックして詳細を確認。

図3.IMM2 Local Storage Critical

図3.IMM2 Local Storage Critical

RAID1アレイを構成する Disk0Disk1 共に Critical ですがそのメッセージの内容から、障害の発生しているのは Disk1 であることが分かります。

 

実機前面の状態とディスク交換

早速、予備のHDDを携えてサーバルームへ。実機前面の2番めのスロットのHDDがアンバー点灯。ディスプレイにも HDD 2 fault と宣告されていました。

図4.HDD 2 fault

図4.HDD 2 fault

ホットスワップなので、オンラインのままディスクを抜き出して交換。自動的にリビルドが始まったようなので、ここでサーバルームを退散。

図5.交換後リビルド開始

図5.交換後リビルド開始

IMM2の状態

再びIMM2を開いて、リビルドの状況を確認(ディスクサイズは300GB)。

図6.IMM2 Disk1 State Rebuilding

図6.IMM2 Disk1 State Rebuilding

RAID Logsにも、リビルド中とのエントリが残されていました。

図7.IMM2 RAID Log Rebuilding

図7.IMM2 RAID Log Rebuilding

1時間ほど経ってリビルドが完了、全て問題無いことを確認。

図8.IMM2 Local Storage Optimal

図8.IMM2 Local Storage Optimal

SMARTエラーは?

リビルド完了したはずなのですが、その後もメール通知が止まりません。Proxmox VEノードのターミナルでログやsmartdサービスの状態を確認。

smartd サービス再起動して、デバイス構成を読み直すことで解消されました。

サービス再起動後の挙動をログから読み取ると…

RAID構成された論理ディスクはSMART対象外とし、物理ディスクを正しく検出していました。

 

SMARTエラーだけではいまいち決定打に欠けるように感じるので、いずれProxmox VEノードにMegaCliを導入してみるつもりです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA