コンサルティングサービス
(1) ITシステム保守・運用業務を事業として実施されているお客様
大規模ITシステムの保守・運用のお客様
Googleが提唱した SRE(Site Reliability Engineering)は、大規模なITシステムや、多くのITシステムの保守・運用を行う上では、とても参考になります。書籍は、オライリー・ジャパンより出版されています。
SRE サイトリライアビリティエンジニアリング
――Googleの信頼性を支えるエンジニアリングチーム
これまでは、どちらかと言うと、保守・運用業務は、アラートがなった場合の対応と お守り の業務と位置付けられてきましたが、
SREでは、ソフトエンジニアの要素が必要であることを強調しています。
ここからは、弊社の追加の考えになりますが、
保守・運用は、定型の作業の自動化、log分析 等 機械処理を行うことで効率化が図られます。
それでは、自動化の項目を決め、それを作り上げていけば良いのでしょうか。
効率化を図るためには、次のポイントがあると考えております。
(1) 実際に保守・運用をしている人が、ノウハウから効率化のためのアルゴリズムを考え、みずからプログラミングを行うこと
(2) ITサービスは、いくつものシステムが関係してきますので、鳥瞰図的に把握している人のノウハウを入れたアルゴリズムとすること
(3) 作成したプログラムは他のグループで利用ができること
特に、(1) は、プログラム作成専担者では、効率化のスピードが遅くなります。
理由は、実運用者の気持ちが、プログラム作成専担者になかなか伝わらないことです。
愚直に、(1)~(3)を実行することが、結果的に 効果の高い 組織(グループ)集団となります。
弊社では、
① log分析、log内容により柔軟なアラート
② アラート、閾値の変更による効率化
③ 複数システムの状況確認
④ デイリーレポート
等 を実践することによって、アドバイスを行っていきます。
(2) 企業の情報システム業務をご担当されているお客様
ナローバンドから、ブロードバンドの高帯域通信に移行し久しくなりますが、各企業では、いくつもの業務アプリケーションが、同じITインフラを利用しているため、常に安定したサービスの提供が重要となってきます。例えると、首都圏の様な、高速道路と同じイメージとなります。
沢山の自動車が網の目化した高速道路を利用しいるため、故障や混雑のため到着時間が遅くならないような運用が必要となります。
夜間にある自動車が横浜から栃木まで、速い時間で到達していても、それだけで、高速道路にまったく問題ないとは言い切れません。
これと同様に、ITサービスは、多くのユーザが共通のITインフラを利用し、トラフィック量が変化してくるため、常時、鳥瞰図的に状況を把握することが必要です。
弊社では、ITSR(ITサービスレコーダー)の考え方に則り、
ITインフラサービスの品質を常に向上させる仕組みを提供します。
単に、ITSRのサービスを提供するのではなく、お客様の生のデータを分析し、
「品質を上げていくためには、何をしなければいけないかの」アクションレポートを提示し、
ITサービスの品質向上を続けるためのコンサルティングを継続します。
詳しくは、ITSR(ITサービスレコーダー)のページをご参照下さい。
問題解決事例集で、記述している
・office365が遅い
・帯域に余裕があるのにRouterが落ちる
・SalesForceアクセスの遅延
・トラヒックの中身、パケット数の多いIPを特定したい
・1分間隔の監視では発見できない事例
・ベストエフォート回線でtimeoutが頻発
・冗長化システムの潜在故障の発見
等の トラブルをあるお客様で発見すると、それと同様なトラブルが別のお客様で発生していないか、ITSRに追加のトラップを追加し、どんどん、不具合が減っていく仕組みを提供します。