情報システム部門の煩わしい業務を効率化
ITサービスの運用を変革します。[お問合せ]
お客様から 『ping試験は、うちでも行っていますよ』と、良くお聞きしますが、通常は単なる 死活監視での利用が多いと思います。
ping試験の結果は、遅延の状況が変わったり、timeout の状況が違ったりと、内容が違います。
得られたデータを如何に分析するか、どのように理解するかで、このページに示しますように、潜在故障の発見や、エンドユーザ様の使い勝手の良し悪しを把握することができます。
本ページでは、5つの例を詳しく説明します。
---たかがping試験 されどping試験--- をご理解して頂けると思います。
1.遅延の閾値の変更
以下のグラフは、あるお客様の〇〇月〇〇日のデータです。
凡例 青:普通、緑:少し遅い、紫:遅い、赤:timeout
表示の見方は、例えば、1時間に100回試験をして、100回とも速ければ、全て青色になります。
仮に、50回が速く、50回が少し遅い場合は、半分が青色、半分が緑色となります。すなわち、普通、遅い、少し遅い、timeout のパーセント表示を行っています。
青、緑、紫 の閾値は自由に変更できます。
実は、左のグラフも右のグラフも、グラフの作成のための元データは同じです。
元データ例
13:08:24 : 87.314
13:09:22 : 90.860
13:10:19 : 86.874
13:11:16 : 102.631
13:12:13 : 120.026
13:13:11 : 85.025
13:14:08 : 88.595
13:15:05 : 85.579
例えば、この日の13時台は、「使用に支障が出た」とエンドユーザ様から申告があれば、閾値を変えて13時台が、他の時間と違いが出るように閾値を変更します。
閾値を変更したグラフが、右のグラフになります。
13時台以外は、それ程問題がなかったとすれば、13時台のようなグラフ(青、緑、紫の割合)になると、エンドユーザ様の使い勝手が悪いことが分かります。
エンドユーザ様の申告が無くても、グラフが13時台のような場合は、エンドユーザ様に影響が出ていることが分かります。
EECでは、アラートメールの閾値も柔軟に変更することができます。
例:通常 800ms以上が 3回続けば、遅延アラートメールを
380ms以上が 3回続けば、遅延アラートメールと変更することが可能です。
13時台のような遅延の場合にアラートメールを送信するようにしておけば、影響を即座に把握することが可能です。
2.試験間隔を短くする
以下のグラフは、あるお客様のある機器の 2023.5.8(月)9時台のデータです。
このグラフの試験間隔は約1分です。
EEC(End to Enc Checker)では、初期値としては、試験間隔を約1分にしておりますが、試験間隔を短くするとより鮮明に状況を把握することが可能です。
以下のグラフは、同じ機器の試験間隔を 3秒にした場合です。
9時台までは、9:57まで、timeout率が20~40%となり、かなりエンドユーザ様に影響があったことが分かります。
これまでの知見で、ある程度の遅延は許容範囲ですが、timeout までに悪化すると、(エンドユーザ様の使い勝手に)かなり影響があることが分かっています。
【補足】
※単純なping 試験でも、利用方法(遅延・timeout の表示仕方)で、状況の把握度が異なります。
ping試験は、どんなツールでも標準ですが、その使い方、結果の見方で、分析レベルが異なってきます。
※試験間隔を短くすると機器に負荷になるとご心配をされるお客様もいらっしゃいますが、
各機器は、1秒間に何万パケットも処理をしておりますので、試験間隔を短くしても(1~3秒)機器の処理に影響を及ぼすことはありません。
3.timeou率から分かること
EECでは、常時試験を行っておりますので、約1分に1回の試験では、1月で4万回以上の試験回数となります。
EECでは、月毎の timeout 率を計算する機能があります。
以下は、あるお客様の 2023年 2月の同種の機器の timeout率です。
機器Aは、他の機器に比べ timeout率が高くなっています。
この様に、他の機器と違いがあった場合、機器Aを特別調査することにより、次に示す例の様に原因を発見することができました。
ケース1: 連続の故障ではないが、一定期間不安定状態が続くケース
ケース2: 30秒程度中断することが月に5~6回発生ていたケース
この2つの例では、1分間に1回程度の 通常行われる 死活試験(ping)試験では、発見することができず、
『ping 試験を行っているから大丈夫』ではなく、
試験結果をどの様に紐解くかが重要となります。
4.timeoutの推移に注視すること
次のグラフと表は、ある機器の2023年 2月の EECの試験結果の状況です。
timeoutは毎日少しはありましたが、2月6日(月)から、timeout の回数が増えてきました。
エンドユーザ様からのクレームはありませんでしたが、お客様にこの機器の周りの確認をして頂きました。
その結果、不良個所部分を発見し、『使用できなくなり、業務に影響が出る』前に問題を解決することができました。
このように、アラートにはならなくても、timeoutの推移に注視することは重要です。
5.帯域不足、パケットロスの推測
次に示すのは、あるお客様のEECの試験結果です。
左側は、遅延がかなり発生していますが、timeoutはそれ程多くありません。
右側は、遅延はそれ程ありませんが、かなりの timeoutの割合になっています。
ping の応答のMaxが、120ms 台で、それ以上での応答はありません。ブチっと切れているイメージです。
これまでの知見で、左側のケースは、ギャランティ回線において、契約帯域のギリギリのトラフィックになっている場合に見られるケースです。
遅延が多くても、timeout までに至らない場合は、それ程、エンドユーザ様の影響はありません。
特に、WEBアクセスは、遅延に強いアプリになりますので、少し遅くても苦情までには繋がりません。
しかし、遅延に弱い、ファイルサーバーへのアクセスのようなアプリでは注意が必要です。
timeout の発生割合に注意が必要です。 timeout が多くなると帯域不足が予想されます。
右のケースは、ベストエフォートサービスで、通信経路のどこかの部分でボルトネックが発生し、パケットがロスする場合に見られるケースです。
このように、単に死活監視でping試験の結果を見るのでなく、試験結果の遅延・timeoutの状況を厳密に見ることにより、帯域不足、パケットロスになっている等を把握することが可能です。
6.まとめ
ping 試験の結果データをうまく活用して、原因の発見・解決した例を5つご紹介しました。
『死活監視(ping試験)』は、既に行っているので大丈夫と思われているお客様も、
試験結果、データを如何に活用するかが、重要なポイントになります。
EEC(End to End Chcker)では、
・試験間隔や試験の内容(ping試験、https試験等)を グループ毎に自由に設定することが可能です。
試験間隔は、最短で、1秒に1回の試験も可能です。
・特別監視として、被疑機器と正常な機器を登録し、アラート発生時には、携帯のメールに通知する等、
原因の発見に有効な機能があります。
ただ、試験を行っていれば大丈夫でなく、試験結果のデータの活用(分析)が重要なポイントになります。