情報システム部門の煩わしい業務を効率化
ITサービスの運用を変革します。[お問合せ]
お客さまから、「office365が遅い」との問い合わせがあり、調査・原因を発見した例を示します。
・時間帯に関係なく遅い。
・1年以上遅い状態が続いている。
・特に工事等を行った記憶はない。
【調査の流れ】
第一段階
EEC(End to End Checker :試験機)による現状把握
EECによる調査結果の分析
第二段階
EECの試験自体のパケットキャプチャーを実施します。
まずは、443ポートのパケットのみ取得
次に、443ポートと53ポートのパケットを取得
第三段階
絞り込みを行った機器についての通信について、全パケットを取得
【お客さまのシステム構成(概略)】
2.EECによる調査結果の分析
EEC(試験装置)より、次の試験を実施
(1)office365サーバに 443ポート試験
(2)各拠点ルータに ping試験
(3)DNSサーバ、その他の機器に ping試験、その他の試験
(1)office365サーバに 443ポート試験
⇒ 日曜日は、2回に1回のtimeout
月曜日の早朝帯は、2回に1回のtimeout ですが、
業務が始まると、timeout がかなり減っていることが分かります。
リソース不足の場合、業務が始まると悪くことが多いですが、今回の例は逆のパターンとなっています。
この試験でこれ程、timeoutがあるのは異常ですので、更なる検討を行いました。
3.EECの試験自体のパケットキャプチャーを実施
timeout の詳細を掴むため、試験自体のパケットキャプチャー(443portでフィルター)を実施しました。
EECの試験 と パケットキャプチャーの データの突合 を次に示します。
timeout の時は、443の試験のパケットデータがないことが分かりました。
【仮説】
443ポート試験は、ipでなく、name での試験を行っていますので、
DNS の name から IP アドレス回答 がない(遅れている)可能性があります。
次に、443port と 53port をフィルターとして、試験自体のパケットキャプチャーを実施しました。
timeoutとならない場合
⇒ DNSからの回答が直ぐに帰ってきています。
timeoutの場合
⇒ DNSからの回答に時間がかかっています。
この後、 443 port 試験のパケットの発出はありません。
⇒ DNSからの応答に問題があることに絞り込みができます。
4.絞り込みを行った機器についての通信について、全パケットを取得 【原因判明】
これまでの調査で、DNSの応答に問題があることが分かりました。
下の図の、赤枠部分の位置で、全データのパケットキャプチャーを行いました。
【応答が遅い場合の例】
お客様の機器が、DNS(サブ)に名前解決の依頼を行った例です。
①:お客様機器が、DNSサブに、office365のipを検索依頼をします。
②:DNSサブは、上位DNS_Aに問合せに行きます。
タイムアウトになり
③:DNSサブは、上位DNS_Bに問合せに行きます。
④:上位DNS_Bより、回答があります。
⑤:DNSサブは、お客様機器に回答を行います。
【応答が速い場合の例】
①:お客様機器が、DNSサブに、office365のipを検索依頼をします。
②:DNSサブは、お客様機器に回答を行います。
0.000022秒 で回答がきています。
この調査の結果、「上位DNS_A」に問題があることが分かりました。
【対応とその結果】
DNS(メイン)、DNS(サブ)の上位DNS_Aを削除することにより、office365の遅延がなくなりました。
参考:office365遅延の原因の究明手順(pdf)