サーバやネットワーク機器の冗長構成が組まれていても、いざ障害が発生した際に正常にフェイルオーバーしなければ意味がありません。本記事では、実務で使われるフェイルオーバーテストの手順と注意点を、チェックリストを交えて解説します。
目次
1. フェイルオーバーテストとは
フェイルオーバーテストとは、冗長化された構成において、意図的に機器・サービスを停止し、バックアップ側(Standby/Secondary)が正しく引き継ぐか確認するテストです。
フェイルオーバーテストの目的
- 冗長化構成が正しく動作しているか確認する
- 実際の障害発生時にダウンタイムを最小化する
- 設定ミスや誤動作を発見する
- 運用手順の妥当性を検証する
2. テスト前の準備
事前に確認すべき項目
- 冗長方式の確認(Active-Standby / Active-Active / VRRP / HSRP / クラスタ構成など)
- テスト対象機器のバックアップ取得
- テストによる影響範囲の明確化
- 関係者への告知・スケジュール調整
- テスト手順書およびロールバック手順の準備
フェイルオーバーが発生する条件を理解する
冗長化構成によってフェイルオーバーの発火条件は異なります。
- リンクダウン検知(ケーブル断)
- 経路喪失(BGP/OSPFのルーティング喪失)
- サービスヘルスチェックNG
- ハードウェア障害
- OSプロセス停止
どの条件で切り替わるかを理解していないと誤判定が起こります。
3. フェイルオーバーテストの実施手順
手順1:現在の状態を確認(Active/Standbyの確認)
- どちらがActiveかを確認
- 同期状態(Sync状態)が正常であるか
- ログにエラーが出ていないか事前チェック
手順2:フェイルオーバーを発生させる
実務で使われる手法の例:
- Active側の電源OFF
- Active側のサービス停止
- Active側のネットワーク切断
- 冗長プロトコルの切り替えコマンド実行(例:
systemctl stop、ルータのシャットダウン)
手順3:Secondary側に切り替わることを確認
- Secondaryが Active 状態になったか
- IPアドレス/仮想IP(VIP)が引き継がれているか
- 実際に外部からアクセスできるか
- ログにエラーがないか
手順4:Primaryの復旧(フェイルバックテスト)
- Primaryの再起動またはサービス再起動
- 同期が正常に戻るか確認
- 必要であればActive状態に戻す(フェイルバック)
手順5:ログ・結果の記録
- 切替にかかった時間
- アクセス断の有無(秒数)
- 想定外の動作がなかったか
- 改善点の洗い出し
4. フェイルオーバーテストの注意点
1. 本番影響のあるテストは必ず時間帯を調整する
VPN切替やVIP切替を伴うテストは、ユーザ影響が発生する可能性があります。
2. ロールバック手順は必ず用意する
問題が発生した際、即時復旧できる手順を事前に準備しておきます。
3. 片系障害の誤検知に注意
特にクラスタ構成では「フェイルオーバーループ」が起きる危険性があります。
4. 切替後の設定同期ミスに注意
Active側でのみ設定変更しており、Standbyに同期されていないケースが多発します。
5. 外部監視システムと整合性を取る
監視ツール(Zabbix/Nagios/Datadog)が誤検知する場合があります。
5. まとめ
冗長構成の健全性を確認するため、フェイルオーバーテストは定期的に実施する必要があります。本記事の手順に従ってテストを行うことで、実際の障害時に迅速に切替が行われ、サービスの可用性を高めることができます。
