ヘルプ イントロダクション アラーム エンジン

アラーム エンジン

アラーム エンジンは、監視リソースに問題があるかの判断をします。アラーム エンジンは、アラート条件を、監視で得たデータに適用し、その監視が、ダウン・トラブル・アップの状態にあるか、マーク付けをします。この稼働チェックの設定は、しきい値・可用性通知プロファイルでおこないます。

インターネット サービス監視

Webサイト、Webアプリケーション、DNS、FTPなどの監視は、インターネット サービス監視に分類されます。これらについて、アラーム エンジンがパフォーマンスと可用性を、複数の監視ロケーションから確認しています。また、Site24x7では、「誤報プロテクター」によって、誤報アラートの削減を行います。

障害検出時は、Site24x7は実ブラウザーからサイト確認のスクリーンショットを取得します。Site24x7は、同時間帯に、他の監視対象リソースが稼働していないか探し、ネットワーク障害をできる限り除外します。他の監視が稼働していれば、問題の監視のみがダウンであると判断し、アラートをあげます。他のリソースから1つもアップ情報が得られない場合、Site24x7は既知のWebサイトの接続状況をしらべ、ネットワーク ステータスを精査します。さらに、ある監視ロケーションに、ブラウザーからエラーコードが返ってきた場合は、アラーム エンジンは他ロケーション(セカンダリ)から、サイトの生死を確認します。サイト ダウンと判定すると、1分ごとの集中監視に切り替わり、障害を短期間に収めようとします。

パフォーマンスのしきい値

稼働監視の他にも、Site24x7はリソースのパフォーマンスの吟味、応答の確認などを行います。問題が検出されればトラブル、ダウンなどの重要度ステータスを知らせます。アラーム エンジンは、特定キーワードがページにあるか否かによって監視をし、データの正当性をチェックします。たとえば、「Exception」、「Error」、「Page Not Found」などのキーワードがページにあれば、アラートが上がるようにできます。Site24x7は、サイトに動的なキーワードがあるかどうかも判別できます。これには、JSP・ASPスクリプトが作成したものや、バックエンドサーバーの出力も含まれ、ページに不正な変更があるとアラートが発生します。

Site24x7は、URL応答時間、CPU、メモリ使用状況などのメトリックについて、スマートなアラート機能を実装しています。

ステータス「トラブル」は次の条件で発生します。

高度なしきい値設定(戦略):

ポーリング回数はしきい値違反を確認する際に、デフォルトの戦略として利用します。しきい値違反の判別には、しきい値条件(>、<、>=、<=)を複数利用できます。下記の作戦に適用される条件が合致した時、監視のステータスは「トラブル」に変わります。

  • ポーリング回数でのしきい値条件:しきい値に適用する条件が、指定の「ポーリング回数」で合致した場合、監視ステータスは、トラブルに変わります。
  • ポーリング回数での平均値属性値平均が、指定のポーリング回数にわたり、継続してしきい値への適用条件を満たす場合、監視ステータスは、トラブルに変わります。
  • 指定期間での条件確認(分):しきい値への指定条件が、設定期間を通じて、すべてのポーリングについて継続して妥当の場合、監視ステータスは、トラブルに変わります。
  • 指定期間での平均値(分):属性値平均が、設定期間について、しきい値への適用条件を継続して満たす場合、監視ステータスは、トラブルに変わります。
デフォルトでは、複数のポーリングチェックが適用されることはありません。適用される設定がなければ、しきい値違反は、ポーリング1回で判別します。
プラン3「指定期間での条件確認」や4「指定期間での平均値」でしきい値違反を確実に検出するには、チェック間隔を最低2回カバーするように、期間を指定する必要する必要があります。

詳細は、アラーム エンジンのサーバー稼働時間の確認方法を参照ください。

サーバー ダウン時に作成されるRCAレポートのメール サンプル