configの比較

情報システム部門の煩わしい業務を効率化
ITサービスの運用を変革します。[お問合せ]

[0] 1秒間隔のping試験の有効性
[1] 回線の品質の実力値を知ることが可能です。(回線品目毎に差があります)
[2] 同一拠点内の機器へのping試験も有効です。
[3] なるべく多くの機器へのping試験も有効です。
[4] まとめ

1秒間隔のping試験の有効性

 1分間隔の監視では発見できない事例では、1月に30秒止まることが6回程度あるようなトラブル を発見できることを示しましたが、他にも、「1秒間隔のping試験の有効性」を確認しましたので、資料化しました。

1.回線の品質の実力値を知ることが可能です。(回線品目毎に差があります)
2.同一拠点内の機器へのping試験も有効です。
3.なるべく多くの機器へのping試験も有効です。

【補足】
 上記の ”2”、”3”は、必ずしも 1秒間隔の試験でなくても良いですが、同じく ping試験の有効性 と言うことで本ページに記載します。

 以下、詳細を説明します。





1.回線の品質の実力値を知ることが可能です。(回線品目毎に差があります)


 あるお客さまの事例です。
 試験の構成を示します。
1秒間隔のping試験の有効性

拠点A~Dのある日(平日)のデータを示します。
青色:普通、緑色:少し遅い、:紫:遅い、赤:timeout を示します。
グラフは、各時間ごとの割合です。(普通、少し遅い、遅い、timeout の100%表示)
拠点A
1秒間隔のping試験の有効性
拠点B
1秒間隔のping試験の有効性
拠点C
1秒間隔のping試験の有効性
拠点D
1秒間隔のping試験の有効性

 拠点ごとの timeout(赤色)の割合が違うことが分かります。拠点Cについては、timeoutがありません。
拠点AとDを比べると、timeoutの率が微妙に違うことが分かります。

 このお客様は、深夜帯の業務はなく、日中帯に遅延が発生しておりますので、トラフィックの影響で遅延 or timeout が発生していると推測できます。ベストエフォートの回線の場合は、他のお客様のトラフィックにも影響されますので注意が必要です。

 拠点Aについて、更に詳しく見ていきます。
 時間毎の、遅延、timeout を示した表です。
1秒間隔のping試験の有効性
 10時代は、timeoutが、411回発生しています。
1秒毎に試験を行っていますので、1時間の試験回数は、3,600回になるところですが、timeout時の待ち時間のため、実際は、3016回になっています。
10時代の timeout率は 411 ÷ 3,016 = 1.36 % と高くなっています。
10時代のグラフ と 試験結果(生データ)を次に示します。
1秒間隔のping試験の有効性
  1秒間隔のping試験の有効性
  この日の ping値の Min値(最小値) は、3.4ms ですが、10時代の Min は、43.6ms、平均が 58.0ms とかなりの遅延が発生しております。エンドユーザ様の使い勝手は相当悪かったと推測できます。
  timeoutが発生すると ping試験では、再送を行いませんが、通常のアプリでは、TCPによる再送が発生しますので、より、遅い感覚を感じることになります。
 ping値の Max値(最大値)は、60~90Ms程度になっています。ping試験自体の 試験の待ち時間は、1,000msとしていますので、1,000ms に近い値がないということは、パケットが廃棄されている可能性が高いと考えられます。
 このように、1秒毎のping試験を実施することで、かなりのことが分かります。

 なお、拠点Cは、その他の拠点と回線品目が違います。品目によってこれだけの差があることに注意が必要です。

「ベストエフォート回線でtimeoutが頻発」 もご参照下さい。




2.同一拠点内の機器へのping試験も有効です。


 通常のping監視では、WAN越えのRouterへの試験が一般的ですが、同一拠点内へのping試験でトラブルが発見できることもあります。

 あるお客様で試験を行った例です。
 システム構成を次に示します。
1秒間隔のping試験の有効性
 拠点Aと拠点B間の通信で、「アプリが遅い」との課題がありました。
 通常は、拠点Aに設置したEECより、拠点BのRouterへのping試験を行いますが、加えて、同じロケーションの拠点AのRouterへのping試験を実施しました。

 次に示しますのは、各拠点のRouterへのping 試験の結果です。わずかな遅延も発見できるように、遅延の閾値を 1ms(普通)、2ms(遅い)と設定しました。
1秒間隔のping試験の有効性
 同じロケーションにも関わらず、遅延が発生していることが分かります。拠点BへのRouterへの試験ではtimeout も発生しております。
この日のトラフィックはそれ程高くなく、同一ロケーションへのpingで遅延が発生していることから、RouterのCPU使用率を測定しました。
その結果、CPU使用率が高くなっていたため、予防保全として、Routerの取り換えを実施しました。

 Router変更後の ping 試験結果を次に示します。
1秒間隔のping試験の有効性

 閾値がシビアにも関わらず、同一ロケーションへのping試験の遅延は、変更前よりかなり少なくなりました。また、拠点BへのRouterへのping試験では、遅延の割合も減り、timeout もなくなりました。
Router変更前、変更後の測定日のトラフィックは、むしろ変更後の方が高い状況でした。

 このように、ping 結果を見るだけでも、原因の究明に役立つことが分かりました。

【補足】
 同一ロケーションの ping試験は、1ms もかからないことが多く、「試験を行っても無駄だ」の先入観がありますが、測定が有効であることが分かりました。良い時のデータと悪い時のデータを比較することにより、課題が有るのか、無いのかを明確化できることが分かりました。




3.なるべく多くの機器へのping試験も有効です。


 通常のping監視では、WAN越えのRouterへの試験が一般的ですが、Router配下の24時間連続運転の機器へのpingは、潜在故障の発見に有効な場合があります。
 次の例は、ping試験の応答に違いがある例です。
 システム構成を以下に示します。
1秒間隔のping試験の有効性

 ある日の ping 試験結果を示します。サーバーA、サーバーB,HUB
1秒間隔のping試験の有効性
1秒間隔のping試験の有効性
1秒間隔のping試験の有効性
 サーバーと比較して、Switch(HUB)で遅延があることが分かります。
サーバーA と Switch(HUB)の ping 結果の表を示します。
サーバーA
1秒間隔のping試験の有効性
Switch(HUB)
1秒間隔のping試験の有効性

かなりの差があることが分かります。通常では考え難いことでも、現実環境では発生します。当然と言う先入観を捨てて、現実環境のデータを正確に把握することは潜在トラブルの発見にも繋がります。

 別のお客様になりますが、システム構成は、ほぼ同じで、
 お客様から、時々拠点Bのサーバーのアプリを利用していると、切断をしてしまう等の課題が報告されています。
このお客様のアラート状況を以下に示します。
1秒間隔のping試験の有効性

 表の右側の赤囲みに注目して下さい。同時刻に短時間ですが、複数のサーバーのtimeoutが発生しています。この状況から、これらのサーバーに共通している機器(ケーブル等を含む)に原因があると推測できます。

 このように、できるだけ多くの機器を調査することにり、トラブルの原因を発見できる可能性が高くなります。




5.まとめ

 ping試験は、非常に簡単な試験ですが、今回示したように、
 ・試験間隔を短くする。
 ・常時試験を行う。
 ・なるべく多くの機器の試験を行う。
ことにより、問題点の絞り込みが可能となります。

 更に、
 ・トラフィックの調査
 ・CPU使用率の調査
 ・必要により、パケットキャプチャーによるパケット内容の解析
を行うことにより、トラブル原因の究明を行っています。 

【参考】
 snmpによる情報入手 and グラフ化(トラフィック情報)
 突発トラヒック見える化(パケットキャプチャー)

ページのトップへ戻る