システムを構築して、引渡し前の試験。一番重要な作業です。
この時に、障害時に自動的に切り替わる機能の試験を入念にやるのは当然ですが。切り替わる時間など障害を検出したあとの動作の確認に集中してしまいがちです。何秒で切り替わるとか、パケットのロスがないとか。ユーザーが使っているアプリケーションにエラー表示が出ないか等。
しかしもっと重要なのは、どのように障害を検出するのかです。機器の電源故障であっても完全に通電が落ちてくれれば簡単ですが、電圧が下がったり不安定になったり。
もう一つの盲点は復帰時の動作です。ダイナミックルーティングによる切り替えは、障害から復帰した回線を自動的に検出し経路の再計算を行います。この時に若干の揺らぎが発生することは良くあります。インフラの利用者も機器の故障が起きて、それを避けるための切り替え時に多少の揺らぎが起こることは多くの場合は問題にしません。しかし、復帰の時の揺らぎも許してくれるとは限らない。
特に、回線の復帰作業中に一時的にデータの疎通性が回復しその後に断絶のような不安定な状態がそのまま揺らぎに反映されると大抵の場合は大問題になります。
よって。
1:障害対策は、想定している障害の定義とその検出方法を最初に検討しましょう。
2:検出方法に信頼性がなければ自動切換えは導入しない方が良い
3:障害復帰を自動にしない方が良い。障害発生時にやる最初の作業は自動復帰機能を一時的に止める事。
4:24時間運用監視が行える環境では自動切換えを全部廃止するのも有用