IBM System x サーバにおけるSAS RAIDディスクのホットスワップ交換手順

投稿者: | 2021年11月29日

IBM ServeRAID MR10i搭載のIBM System x3650 M2 (Type.7947)上で RAID 1運用中のシステムのうち、1基のSAS HDDに障害発生し、降格しているのを見つけたので、システムを落とすことなく ホットスワップ でのディスク 交換 をしてみました。

既に発売から10年以上経過している本機ですが、ドメインコントローラからファイル共有までを担う、スモールオフィスではよくあるオールインワンサーバとして今でも現役で運用しています。

自席から離れたフロアにある為、その存在すら忘れかけていた頃に、ふとリモートデスクトップで久しぶりに入り、MegaRAID Storage Manager (MSM) を開くとログイン前から警告が出ているのを確認。

図01.MSM サーバ一覧

図01.MSM サーバ一覧

ログイン後、ダッシュボードページにも警告が出ているものの、その内容までは判別には至らず。

図02.MSM ダッシュボードに警告表示

図02.MSM ダッシュボードに警告表示

タブをクリックしてPhysical、Logicalの各ビューを開いてようやくディスク障害を確認。

図03.MSM 物理・論理各ビューにて障害確認

図03.MSM 物理・論理各ビューにて障害確認

このサーバでは、計6本のSAS HDDを2本1組のRAID1ペアにして、システム、ファイル共有、バックアップの3つのRAID1冗長化ドライブを構成しています。そして今回障害が発生しているのはシステムを構成するスロット0番のドライブで、もう数カ月OSの入ったドライブを片肺運転していたことになります。

早速実機を見に赴くとMSMの警告通り、スロット0のHDDが異常を示していました。

図04.スロット0HDDが異常の点灯

図04.スロット0HDDが異常の点灯

本機はホットスワップに対応しているため、そのまま障害のあるHDDを取り外して入れ替えることも出来るのですが念の為、MSMで当該ディスクを右クリックしてオフラインを選択。

図05.MSM 障害ディスクをオフラインに

図05.MSM 障害ディスクをオフラインに

すると確認のプロンプトが出るので、チェックボックスにチェックを入れてからYes押下。

図06.MSM ディスクオフライン時の確認1

図06.MSM ディスクオフライン時の確認1

さらにもう一度プロンプトが出るので、同様にYes押下します。

図07.MSM ディスクオフライン時の確認2

図07.MSM ディスクオフライン時の確認2

前回、別機で初期化した同容量のSAS HDDと入れ替えると、自動的にオンラインに復帰されます。

図08.ディスク交換後自動的にオンライン

図08.ディスク交換後自動的にオンライン

MSMのダッシュボードで確認すると、自動的にリビルトが始まっていました。

図09.MSM リビルド中の進捗表示

図09.MSM リビルド中の進捗表示

146GBのディスクで構成されるこのRAID1ドライブは、ディスク交換からおよそ20分程度でリビルトが完走して、Optimalな状態へ復帰しました。

図10.MSM 全ドライブOptimalへ復帰

図10.MSM 全ドライブOptimalへ復帰

 

今後発生する障害はEメールで通知を受けるようにすべく、次回はMegaRAID Storage Managerに備わっているメール通知機能を設定したいと思います。

 

 

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA