情報システム部門の煩わしい業務を効率化
ITサービスの運用を変革します。[お問合せ]
1分間隔の監視では発見できない事例では、1月に30秒止まることが6回程度あるようなトラブル を発見できることを示しましたが、他にも、「1秒間隔のping試験の有効性」を確認しましたので、資料化しました。
1.回線の品質の実力値を知ることが可能です。(回線品目毎に差があります)
2.同一拠点内の機器へのping試験も有効です。
3.なるべく多くの機器へのping試験も有効です。
【補足】
上記の ”2”、”3”は、必ずしも 1秒間隔の試験でなくても良いですが、同じく ping試験の有効性 と言うことで本ページに記載します。
以下、詳細を説明します。
1.回線の品質の実力値を知ることが可能です。(回線品目毎に差があります)
あるお客さまの事例です。
試験の構成を示します。
拠点A~Dのある日(平日)のデータを示します。
青色:普通、緑色:少し遅い、:紫:遅い、赤:timeout を示します。
グラフは、各時間ごとの割合です。(普通、少し遅い、遅い、timeout の100%表示)
拠点A
拠点B
拠点C
拠点D
拠点ごとの timeout(赤色)の割合が違うことが分かります。拠点Cについては、timeoutがありません。
拠点AとDを比べると、timeoutの率が微妙に違うことが分かります。
このお客様は、深夜帯の業務はなく、日中帯に遅延が発生しておりますので、トラフィックの影響で遅延 or timeout が発生していると推測できます。ベストエフォートの回線の場合は、他のお客様のトラフィックにも影響されますので注意が必要です。
拠点Aについて、更に詳しく見ていきます。
時間毎の、遅延、timeout を示した表です。
10時代は、timeoutが、411回発生しています。
1秒毎に試験を行っていますので、1時間の試験回数は、3,600回になるところですが、timeout時の待ち時間のため、実際は、3016回になっています。
10時代の timeout率は 411 ÷ 3,016 = 1.36 % と高くなっています。
10時代のグラフ と 試験結果(生データ)を次に示します。
この日の ping値の Min値(最小値) は、3.4ms ですが、10時代の Min は、43.6ms、平均が 58.0ms とかなりの遅延が発生しております。エンドユーザ様の使い勝手は相当悪かったと推測できます。
timeoutが発生すると ping試験では、再送を行いませんが、通常のアプリでは、TCPによる再送が発生しますので、より、遅い感覚を感じることになります。
ping値の Max値(最大値)は、60~90Ms程度になっています。ping試験自体の 試験の待ち時間は、1,000msとしていますので、1,000ms に近い値がないということは、パケットが廃棄されている可能性が高いと考えられます。
このように、1秒毎のping試験を実施することで、かなりのことが分かります。
なお、拠点Cは、その他の拠点と回線品目が違います。品目によってこれだけの差があることに注意が必要です。
「ベストエフォート回線でtimeoutが頻発」 もご参照下さい。
2.同一拠点内の機器へのping試験も有効です。
通常のping監視では、WAN越えのRouterへの試験が一般的ですが、同一拠点内へのping試験でトラブルが発見できることもあります。
あるお客様で試験を行った例です。
システム構成を次に示します。
拠点Aと拠点B間の通信で、「アプリが遅い」との課題がありました。
通常は、拠点Aに設置したEECより、拠点BのRouterへのping試験を行いますが、加えて、同じロケーションの拠点AのRouterへのping試験を実施しました。
次に示しますのは、各拠点のRouterへのping 試験の結果です。わずかな遅延も発見できるように、遅延の閾値を 1ms(普通)、2ms(遅い)と設定しました。
同じロケーションにも関わらず、遅延が発生していることが分かります。拠点BへのRouterへの試験ではtimeout も発生しております。
この日のトラフィックはそれ程高くなく、同一ロケーションへのpingで遅延が発生していることから、RouterのCPU使用率を測定しました。
その結果、CPU使用率が高くなっていたため、予防保全として、Routerの取り換えを実施しました。
Router変更後の ping 試験結果を次に示します。
閾値がシビアにも関わらず、同一ロケーションへのping試験の遅延は、変更前よりかなり少なくなりました。また、拠点BへのRouterへのping試験では、遅延の割合も減り、timeout もなくなりました。
Router変更前、変更後の測定日のトラフィックは、むしろ変更後の方が高い状況でした。
このように、ping 結果を見るだけでも、原因の究明に役立つことが分かりました。
【補足】
同一ロケーションの ping試験は、1ms もかからないことが多く、「試験を行っても無駄だ」の先入観がありますが、測定が有効であることが分かりました。良い時のデータと悪い時のデータを比較することにより、課題が有るのか、無いのかを明確化できることが分かりました。
3.なるべく多くの機器へのping試験も有効です。
通常のping監視では、WAN越えのRouterへの試験が一般的ですが、Router配下の24時間連続運転の機器へのpingは、潜在故障の発見に有効な場合があります。
次の例は、ping試験の応答に違いがある例です。
システム構成を以下に示します。
ある日の ping 試験結果を示します。サーバーA、サーバーB,HUB
サーバーと比較して、Switch(HUB)で遅延があることが分かります。
サーバーA と Switch(HUB)の ping 結果の表を示します。
サーバーA
Switch(HUB)
かなりの差があることが分かります。通常では考え難いことでも、現実環境では発生します。当然と言う先入観を捨てて、現実環境のデータを正確に把握することは潜在トラブルの発見にも繋がります。
別のお客様になりますが、システム構成は、ほぼ同じで、
お客様から、時々拠点Bのサーバーのアプリを利用していると、切断をしてしまう等の課題が報告されています。
このお客様のアラート状況を以下に示します。
表の右側の赤囲みに注目して下さい。同時刻に短時間ですが、複数のサーバーのtimeoutが発生しています。この状況から、これらのサーバーに共通している機器(ケーブル等を含む)に原因があると推測できます。
このように、できるだけ多くの機器を調査することにり、トラブルの原因を発見できる可能性が高くなります。
5.まとめ
ping試験は、非常に簡単な試験ですが、今回示したように、
・試験間隔を短くする。
・常時試験を行う。
・なるべく多くの機器の試験を行う。
ことにより、問題点の絞り込みが可能となります。
更に、
・トラフィックの調査
・CPU使用率の調査
・必要により、パケットキャプチャーによるパケット内容の解析
を行うことにより、トラブル原因の究明を行っています。
【参考】
snmpによる情報入手 and グラフ化(トラフィック情報)
突発トラヒック見える化(パケットキャプチャー)