1秒間隔のping試験の有効性

[0] 1秒間隔のping試験の有効性

[1] 回線の品質の実力値を知ることが可能です。（回線品目毎に差があります）
[2] 同一拠点内の機器へのping試験も有効です。
[3] なるべく多くの機器へのping試験も有効です。
[4] まとめ

　1分間隔の監視では発見できない事例では、１月に30秒止まることが6回程度あるようなトラブルを発見できることを示しましたが、他にも、「1秒間隔のping試験の有効性」を確認しましたので、資料化しました。

１．回線の品質の実力値を知ることが可能です。（回線品目毎に差があります）
２．同一拠点内の機器へのping試験も有効です。
３．なるべく多くの機器へのping試験も有効です。

【補足】
　上記の ”２”、”３”は、必ずしも 1秒間隔の試験でなくても良いですが、同じく ping試験の有効性と言うことで本ページに記載します。

　以下、詳細を説明します。

１．回線の品質の実力値を知ることが可能です。（回線品目毎に差があります）

　あるお客さまの事例です。
　試験の構成を示します。
1秒間隔のping試験の有効性

拠点Ａ～Ｄのある日（平日）のデータを示します。
青色：普通、緑色：少し遅い、：紫：遅い、赤：timeout を示します。
グラフは、各時間ごとの割合です。（普通、少し遅い、遅い、timeout の100%表示）
拠点Ａ
1秒間隔のping試験の有効性

拠点Ｂ

拠点Ｃ

拠点Ｄ

　拠点ごとの timeout（赤色）の割合が違うことが分かります。拠点Ｃについては、timeoutがありません。
拠点ＡとＤを比べると、timeoutの率が微妙に違うことが分かります。

　このお客様は、深夜帯の業務はなく、日中帯に遅延が発生しておりますので、トラフィックの影響で遅延 or timeout が発生していると推測できます。ベストエフォートの回線の場合は、他のお客様のトラフィックにも影響されますので注意が必要です。

　拠点Ａについて、更に詳しく見ていきます。
　時間毎の、遅延、timeout を示した表です。
1秒間隔のping試験の有効性

　10時代は、timeoutが、411回発生しています。
1秒毎に試験を行っていますので、1時間の試験回数は、3,600回になるところですが、timeout時の待ち時間のため、実際は、3016回になっています。
10時代の timeout率は 411 ÷ 3,016 =　1.36 % と高くなっています。
10時代のグラフと試験結果（生データ）を次に示します。
1秒間隔のping試験の有効性

　この日の ping値の Min値（最小値）は、3.4ms ですが、10時代の Min は、43.6ms、平均が 58.0ms とかなりの遅延が発生しております。エンドユーザ様の使い勝手は相当悪かったと推測できます。
　 timeoutが発生すると ping試験では、再送を行いませんが、通常のアプリでは、TCPによる再送が発生しますので、より、遅い感覚を感じることになります。
　ping値の Max値（最大値）は、60～90Ms程度になっています。ping試験自体の試験の待ち時間は、1,000msとしていますので、1,000ms に近い値がないということは、パケットが廃棄されている可能性が高いと考えられます。
　このように、1秒毎のping試験を実施することで、かなりのことが分かります。

　なお、拠点Ｃは、その他の拠点と回線品目が違います。品目によってこれだけの差があることに注意が必要です。

「ベストエフォート回線でtimeoutが頻発」もご参照下さい。

２．同一拠点内の機器へのping試験も有効です。

　通常のping監視では、WAN越えのRouterへの試験が一般的ですが、同一拠点内へのping試験でトラブルが発見できることもあります。

　あるお客様で試験を行った例です。
　システム構成を次に示します。
1秒間隔のping試験の有効性

　拠点Ａと拠点Ｂ間の通信で、「アプリが遅い」との課題がありました。
　通常は、拠点Ａに設置したEECより、拠点ＢのRouterへのping試験を行いますが、加えて、同じロケーションの拠点ＡのRouterへのping試験を実施しました。

　次に示しますのは、各拠点のRouterへのping 試験の結果です。わずかな遅延も発見できるように、遅延の閾値を 1ms（普通）、2ms（遅い）と設定しました。
1秒間隔のping試験の有効性

　同じロケーションにも関わらず、遅延が発生していることが分かります。拠点ＢへのRouterへの試験ではtimeout も発生しております。
この日のトラフィックはそれ程高くなく、同一ロケーションへのpingで遅延が発生していることから、RouterのCPU使用率を測定しました。
その結果、CPU使用率が高くなっていたため、予防保全として、Routerの取り換えを実施しました。

　Router変更後の ping 試験結果を次に示します。
1秒間隔のping試験の有効性

　閾値がシビアにも関わらず、同一ロケーションへのping試験の遅延は、変更前よりかなり少なくなりました。また、拠点ＢへのRouterへのping試験では、遅延の割合も減り、timeout もなくなりました。
Router変更前、変更後の測定日のトラフィックは、むしろ変更後の方が高い状況でした。

　このように、ping 結果を見るだけでも、原因の究明に役立つことが分かりました。

【補足】
　同一ロケーションの ping試験は、1ms もかからないことが多く、「試験を行っても無駄だ」の先入観がありますが、測定が有効であることが分かりました。良い時のデータと悪い時のデータを比較することにより、課題が有るのか、無いのかを明確化できることが分かりました。

３．なるべく多くの機器へのping試験も有効です。

　通常のping監視では、WAN越えのRouterへの試験が一般的ですが、Router配下の24時間連続運転の機器へのpingは、潜在故障の発見に有効な場合があります。
　次の例は、ping試験の応答に違いがある例です。
　システム構成を以下に示します。
1秒間隔のping試験の有効性

　ある日の ping 試験結果を示します。サーバーＡ、サーバーＢ，ＨＵＢ
1秒間隔のping試験の有効性

　サーバーと比較して、Switch（HUB）で遅延があることが分かります。
サーバーＡと Switch（HUB）の ping 結果の表を示します。
サーバーＡ
1秒間隔のping試験の有効性

Switch（HUB）
1秒間隔のping試験の有効性

かなりの差があることが分かります。通常では考え難いことでも、現実環境では発生します。当然と言う先入観を捨てて、現実環境のデータを正確に把握することは潜在トラブルの発見にも繋がります。

　別のお客様になりますが、システム構成は、ほぼ同じで、
　お客様から、時々拠点Ｂのサーバーのアプリを利用していると、切断をしてしまう等の課題が報告されています。
このお客様のアラート状況を以下に示します。
1秒間隔のping試験の有効性

　表の右側の赤囲みに注目して下さい。同時刻に短時間ですが、複数のサーバーのtimeoutが発生しています。この状況から、これらのサーバーに共通している機器（ケーブル等を含む）に原因があると推測できます。

　このように、できるだけ多くの機器を調査することにり、トラブルの原因を発見できる可能性が高くなります。

５．まとめ

　ping試験は、非常に簡単な試験ですが、今回示したように、
　・試験間隔を短くする。
　・常時試験を行う。
　・なるべく多くの機器の試験を行う。
ことにより、問題点の絞り込みが可能となります。

　更に、
　・トラフィックの調査
　・CPU使用率の調査
　・必要により、パケットキャプチャーによるパケット内容の解析
を行うことにより、トラブル原因の究明を行っています。　

【参考】
　snmpによる情報入手 and グラフ化（トラフィック情報）
　突発トラヒック見える化（パケットキャプチャー）