APC SmartUPS 3000のバッテリ交換

公開

社内の各フロアに配したサーバラックには、必ず APC 製の UPS が備わっています。数年に一度発生する瞬間的な停電やAC電圧降下で、ネットワーク機器が再起動してしまわないようにするのが、その主な目的です。それらの UPS にNetwork Management Cardを取り付け、日頃ネットワークを介してThe Dudeによる SNMP ベースの監視をしています。

UPSバッテリ障害をWeb管理画面で確認

ある朝、別フロアのスタッフより、ビープ音が鳴っているとの知らせを受け、そのフロアにあるUPSの管理画面をブラウザで開いてみると、このようになっていました。UPSのステータスを確認すると、最下段のバッテリ容量は100%と検出されていて一見正常にも見えますが、内部温度が明らかに高く思えます。

図01.UPS管理画面トップにアラーム

図01.UPS管理画面トップにアラーム

図02.UPSステータスを確認

図02.UPSステータスを確認

また、断続的にバッテリの着脱を繰り返しているようなログの記録は、バッテリ死亡のサイン。終日空調管理された小さなサーバルーム内で稼働しているので、さほど過酷な環境でも有りませんが、UPS設置から2年半経過しているのでさすがに寿命でしょう。

管理画面でUPSのモデルと交換バッテリの型番を確認します。UPSは3000クラスのAPC SmartUPS 3000シリーズのラックマウントタイプです。

図03.UPSとバッテリの仕様情報

図03.UPSとバッテリの仕様情報

現場に赴きバッテリ交換

社内に備蓄している予備のバッテリRBC43を携えて現場に向かい、状況を目視で再確認。赤ランプ点灯しているので、バッテリが死んでいることが確定です。先ほどの管理画面を確認する限りでは、この辺りの死活判定表示が曖昧な表現に感じます。

樹脂のフロントカバーを外し、UPSは通電したままバッテリのプラグを抜いて、+ネジを数本外せば、あとは引き抜くだけ。但し、異常状態のバッテリユニットは往々にして、搭載されている鉛電池が膨張していることがあり、ひどいケースではUPSの開口部以上に膨らんでしまっていることも、過去に何度かありました。そうなると力技で、開口部を無理やりこじって広げ、バッテリを引っ張り出すしかないので、バッテリ交換に赴く際は、その為のマイナスドライバやプライヤ類も持参するのが常です。

図04.プラグを抜いてバッテリ取り外し

図04.プラグを抜いてバッテリ取り外し

幸いなことに、今回のバッテリは外観は全く問題有く、取り外しに支障は有りませんでしたが、やはりかなり発熱していたので、あまり長い時間、バッテリユニットを触っていられない程でした。尚、UPS本体側の筐体も触ってみましたが、こちらは発熱無く正常。

図05.取り外したバッテリRBC43

図05.取り外したバッテリRBC43

因みにオプションのAP9630 Network Management Card 2はUPS本体背面にこのようにセットされています。

図06.UPS背面のAP9630 Network Management Card 2

図06.UPS背面のAP9630 Network Management Card 2

バッテリ交換後のWeb管理画面

再びWeb管理画面を開いてみると、バッテリ交換により異常は解消されました。

図07.UPS管理画面トップのアラーム解消

図07.UPS管理画面トップのアラーム解消

管理画面を「Configuration → UPS General」と辿り、バッテリ交換記録を入力します。更に私は、交換したバッテリユニットの前面にいつも、その日の日付をマーカーで手書きするようにしています。

図08.バッテリ交換年月をセット

図08.バッテリ交換年月をセット

最後にUPSステータスを確認してみると、内部温度は正常値に戻っていました。ただ、一番下のバッテリ交換日がどうやっても未来の日付になってしまうのでした。

図09.バッテリ交換後のUPSステータス

図09.バッテリ交換後のUPSステータス

バッテリ内部温度の履歴

The DudeによるUPSの監視項目の中にバッテリ温度が有ったことを思い出し、早速過去一ヶ月の様子を確認しました。

図10.UPS内部温度の1ヶ月の履歴

図10.UPS内部温度の1ヶ月の履歴

交換日である5月14日を境に10℃近い差があります。但しこれは環境温度に依存する為、例えば同じUPSでも空調の無い別のフロアのデータは次のようになっていました。

図11.別のフロアにあるUPS内部温度の1ヶ月の履歴

図11.別のフロアにあるUPS内部温度の1ヶ月の履歴

この値は、APC PowerNet MIBの次のoidで得ることが出来ます(oidリファレンスはこちら)。

戻り値として得られるのは温度を十倍値した整数値ですので、10で割って使います。The Dudeでは監視項目であるプローブに様々な条件式を付けて正常異常判定を設定することが出来ます。試しに20℃をしきい値にしてみて、オーバーヒート警告を模してみました。

図12.The Dude SNMPにおける内部温度監視しきい値の設定

図12.The Dude SNMPにおける内部温度監視しきい値の設定

但し、設定はプローブ単位となる為、個別の機体に異なるしきい値を設定するのは面倒なので、取り敢えずしきい値を35℃に設定して、これからの暑い日々に備えようと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA