square.gif GroundWork Monitor 6.0 へようこそ

homeicon.gif Print Page commentsicon.gif

監視コンセプト

目次 表示

監視プロセス

下図は、基本的な監視プロセスです。

図の中央にある監視エンジンには、4つの機能があります:

監視エンジンへの データ入力は、ホストまたはサービスのステータスをチェックするために、コマンドラインから実行するプラグイン、またはエージェントから入力されます。監視エンジンの制御入力は、設定ファイル (Nagios 動作方法に影響を与える命令)およびコマンドライン(外部アプリケーション) からのデータ入力に基づきます。制御出力は、プロアクティブな問題解決のためにホストまたはサービス・イベントが他のシステム動作をトリガする際に起動するイベントハンドラを使います。次に、サービスチェックおよびホストチェックに基づき、問題解決のための通知がEメール、ポケットベルやユーザが定義する方法でデータ出力として送信されます。通知以外にも Reports(レポート)や Dashboards(ダッシュボード)内に出力が行なわれます。

図: 監視プロセス

Monitoring Process

GroundWork アーキテクチャ

GroundWork の統合オーブンソース・アーキテクチャには3つの機能層があります。 このアーキテクチャはすべて公開されており、開発者は追加データソースの組み込み、プレゼンテーション層アプリケーション、ビュー、レポーno ト作成や拡張をすることができます。

この層は、IT インフラストラクチャを監視・管理するオペレータや管理者が必要とするデータを表示する GroundWork の Web ユーザインタフェースとしての PHP フレームワーク機能部です。データはステータス画面、性能グラフ、イベントコンソール、レポート、ダッシュボードによって表示されます。

この層は、IT 監視、管理データ(監視データ収集コンポーネントから得られる)を正規化してデータベースに保存する GroundWork Foundation が組み込まれています。この層にはプレゼンテーション層のアプリケーションやビューを作成するための、アプリケーション・プログラミング・インタフェース(API)と Webサービスが含まれます。

このコンポーネントは、Nagios、 Syslog-NG、SNMPTT、サードパーティー製の商用監視システムなどのIT 監視、管理ツールからデータを抽出し、GroundWork  Foundation に送信するメッセージを作成します。アプリケーション統合コンポーネントは、任意のサードパーティー製アプリケーションを統合するための抽象化を行います。

図: GroundWork Monitor アーキテクチャ

GroundWork Monitor Architecture

主要定義とコンセプト

ここでは、監視環境において用いられる主な定義とコンセプトについて説明します。

Hosts(ホスト) - 稼動状態を追跡、またはマッピングする対象となる要素(物理サーバ、ワークステーション、ネットワーク機器など)

Services(サービス) - ホストに関連する特定のパラメータまたはステータスを監視するモニタ(監視項目)。 ホスト上で実際に実行するサービス(POP、SMTP、HTTPなど)の場合もあれば、ホストに関連する他のメトリック(pingに対する応答、ログインしているユーザ数など)の場合もあります。

Host Groups(ホストグループ) - 任意のホストをまとめて、名前を付けたグループ。 ホストグループは、アクセス制御、描画のレイヤ化、ステータス表示、通知、保守のスケジューリング、マルチサーバ・コマンド、レポートなどに使用します。 ホストグループの簡単な例として、ホストの物理的な所在地、たとえばロンドン、ニューヨーク、サンフランシスコなどによるグループ分けが考えられます。 このようにホストをグループ化すると、ある1つの拠点を担当するスタッフが、自分の拠点のホストのみを表示できます。 ここで重要な概念は、ホストは1つまたは複数のホストグループに属することができ、さらに最低でもホストグループのうちいずれか1つには属していなければならないということです。

ホストグループの特に重要な用途は、通知とエスカレーションの制御です。 通常、アドミニストレータが担当するホストは単独のホストではなく、ホストのグループです。 特定のアドミニストレータのグループに通知を送信するホストグループを定義する方が、個々のホストやサービスごとに通知先を定義するよりも効率的です。 同じホストグループに対してエスカレーションも設定できます。

Plugins(プラグイン) - 監視中のホストまたはサービスをチェックする必要が生じた場合に、任意の時点で実行される外部プログラム(Nagiosの外部)。

Flapping(プラッピング) - ホストまたはサービスの状態が頻繁に変化し、障害と復旧の通知が多発する状態をフラッピングと呼びます。 フラッピングは設定上の問題(例:しきい値が低すぎるなど)、または実際のネットワークの問題である可能性があります。

Notifications(通知) - モニタ中の要素のステータスに関してコンタクト(連絡先)またはコンタクトのグループに宛てた通知です。通知は、ホストまたはサービスがOK以外の状態にとどまる恒久的(ハード)な状態変化が生じた状況や障害承認のために設定することができます。

Event Handlers(イベントハンドラ) - イベントハンドラはホストまたはサービスの状態が変化した場合に、必要に応じていつでも実行できるコマンドです。 イベントハンドラの代表的な使用法(特にサービスに対する)として、障害にユーザが気付く前に Nagios によって修復を行う機能があります。 その他の用途としては、サービスまたはホストイベントを外部のデータベースに記録する機能が考えられます。

Time Periods(時間帯) - 時間帯の定義は、1日のうちで通知やサービスのチェックを行う有効な時間帯を特定します。

Commands(コマンド) - Nagios が定義して実行できるコマンドには、ホストおよびサービスのチェック、通知、イベントハンドラがあります。 コマンド定義には、汎用コマンドの使用を容易にするマクロを使用できます。

Contacts(コンタクト) - コンタクトは、ネットワークに障害が発生した場合に連絡する担当者を特定するために定義します。コンタクトグループは、警報/復旧の通知を送信する、1人または複数の連絡先をグループ化したものです。 ホストまたはサービスの障害発生時や復旧時には、コンタクトグループ内のすべての連絡先に通知されます。

Profiles(プロファイル) - プロファイルとは、複数のサービスまたはホストの集合です。設定には、定義済みおよびユーザ定義可能な監視パラメータ設定の両方を含む、機器固有のプロファイルを使用します。アドミニストレータはプロファイルを使用することにより、同種の機器のグループを監視する GroundWork Monitor を簡単に設定でき、同時に GroundWork 社の豊富な専門知識を監視設定の推奨手法として活用できます。

Dependencies(依存関係) - 監視対象が監視サーバとは異なるサブネットにある場合、監視は介在するスイッチやルータの影響を受けます。 GroundWork には次のような標準的な依存関係があります:

State and State Changes(状態および状態変化 )- 誤報を避けるために、Nagios では、ホストまたはサービスに実際に障害が発生していると見なす前に、これらに対するチェックを何回再試行するかを定義できます。ホストまたはサービス・チェックによって実際に障害があると見なす前の再試行回数は、ホストおよびサービス定義の<max_check_attempts>オプションによって調整します。ホストまたはサービス・チェックが現在試行中の内容に応じて、状態のタイプが決まります。

状態のタイプは、イベントハンドラを実行したり通知を送信するタイミングを決定するために使います。 サービスおよびホストの現在の状態は次の2つの要素によって決まります。 1) ホストまたはサービスのステータス。ホストステータスには、UP(稼働)、DOWN(停止)、UNREACHABLE(到達不能)、PENDING(保留)があります。サービスステータスには、OK(正常)、WARNING(警告)、CRITICAL(異常)、UNKNOWN(不明)、PENDING(保留)があります。またNagiosには 1)ソフトな状態と、2)ハードな状態の 2 つがあります。

Monitoring GUIs(監視  GUI) -Nagios は、さまざまな CGI とともに配布されます。 デフォルト設定のままこれらの CGI を使用するには、Webサーバに認証され、すべての情報を参照する権限を持つ必要があります。このため Webインタフェースと CGI に対する権限を設定しなければならないでしょう。GroundWork Monitor には、Nagios の Webインタフェースを完全に置き換える Status Viewer と呼ばれるインタフェースがあります。 Status Viewer は監視中のすべてのホストおよびサービスの全ステータスを表示します。 Status Viewer は、トラブルシューティングや障害解決時に Nagios データを参照するときに便利です。

Basic Authentication(基礎認証) - GroundWork Monitor にアクセスするにはユーザ名とパスワードが必要です。 これらはオペレーティング・システムのログイン・アカウントとは別の ID とパスワードであり、監視システム内でユニークです。システムはロールに基づいており、ユーザが表示できるロールはログイン ID によって決まります。認証されたユーザとは、GroundWork の Webベースのフレームワークに対して、ローカルな認証または LDAP に基づいて認証された人です。Webベースのフレームワークは、システムおよびその基盤にある NagiosGUI の両方にアクセス可能な、シングル・サイン・オン機能に対応しています。ユーザ ID は、アドミニストレータが設定します。

通知アラームメッセージのフォーマット- 下記のテキストは通知警報のフォーマットです。 IPアドレスとともにホストとサービスが表示されています。スタータスは明確に CRITICAL(異常)と表示されています。警報の日時、その他の情報と、オペレータが警報の承認を行なうためのリンクも含まれます。 通常、通知コマンドは /usr/local/groundWork /nagios/etc/misccommands.cfg 内にあります。 このファイルは通知コンテンツの変更のために編集することができます。 下記はサービスEメール通知の例です;

Service: myapp_url_port Host: myapp Address: 10.0.0.10 State: CRITICAL

Date/Time: Tue Aug 6 3:54:07 PDT 2006

Additional Info: Socket timeout after 10 seconds

ダウンタイムまたは保守 - Nagiosでは、監視中のホストおよびサービスに対して計画停止時間(planned downtime)設定ができます。この機能はアップグレードなどのためにサーバをシャットダウンすることがあらかじめ分かっているときに有用です。計画停止の期間はダウンタイムを設定されたホストおよびサービスに対する通知が抑制されます。計画停止を使用する理由は次の通りです: