AWS Batch監視連携

AWS Batchは、AWSクラウド上にバッチコンピューティングワークロードをビルドし実行するバッチ管理処理サービスです。Batch処理は、ジョブと呼ばれる複数のソフトウェアプログラムを処理するための効率的なメソッド処理です。

Site24x7との連携により、送信ジョブ、失敗ジョブ、保留中のジョブ、成功したジョブといったタスク処理を監視し、分析できます。

目次

ユースケース

保留ステータス、実行中ステータスのバッチジョブをもつAWS Batchの監視をしているとします。この場合、Site24x7と連携し、IT自動化を使用することで、一度に複数のジョブの停止と中断を行えます。同様に連携している監視のしきい値違反が発生したい際にアラートを受信します。

Site24x7とAWS Batch連携の利点

この連携による利点は次のとおりです。

  • AWS Batchの特定とトラブルシュートのために、メトリックにしきい値を設定しアラートを受信します。
  • IT自動化をスケジュールして、いつでもジョブを中断、削除できます。
  • ジョブ定義の詳細な概要を取得します。
  • CloudWatchログを表示して、失敗したジョブのエラーコードやパターンを特定します。

設定

  • Site24x7とAWSアカウント間のクロスアカウントIAMロールを作成し、AWSリソースへのアクセスを有効にします。詳細はこちら
  • AWSアカウント連携ページのディスカバリーサービス項目で、AWS Batchが選択されていることを確認します。

権限

AWSリソースのバッチジョブの監視には、次の権限が必要です。

  • "batch:DescribeJobDefinitions"
  • "batch:DescribeJobDefinitions"
  • "batch:DescribeJobQueues"
  • "batch:DescribeJobs"
  • "batch:ListJobs"
  • "batch:TerminateJob"
  • "batch:CancelJob"

ポーリング頻度

Site24x7は設定したポーリング頻度(1分から1日)に基づいてAWSサービスレベルAPIをクエリし、AWS Batchからメトリックを収集します。

サポートしているコンピュート環境メトリック

メトリック名 説明 統計 単位
送信ジョブの合計 コンピュート環境にアタッチされたキューで、送信されたジョブの合計です。 平均
保留中ジョブの合計 コンピュート環境にアタッチされたキューで、保留中のジョブの合計です。 平均
実行可能なジョブの合計 コンピュート環境にアタッチされたキューで、実行可能なジョブの合計です。 平均
起動中のジョブの合計 コンピュート環境にアタッチされたキューで、起動中のジョブの合計です。 平均
実行中ジョブの合計 コンピュート環境にアタッチされたキューで、実行中のジョブの合計です。 平均
成功したジョブの合計 コンピュート環境にアタッチされたキューで、成功したジョブの合計です。 平均
失敗したジョブの合計 コンピュート環境にアタッチされたキューで、失敗したジョブの合計です。 平均
キューの合計 コンピュート環境にアタッチされたキューの合計です。 平均

トップ

サポートしているジョブキューメトリック

コンピュート環境内のリソースのジョブをAWS Batchスケジューラーが実行されるまで、ジョブキューは送信済みジョブを保存します。

メトリック名 説明 統計 単位
送信済みジョブ キュー内の送信済みジョブの合計です。 平均
保留中のジョブ キュー内の保留中のジョブの合計です。 平均
実行可能なジョブ キュー内の実行可能なジョブの合計です。 平均
起動中ジョブ キュー内の起動中のジョブの合計です。 平均
実行中ジョブ キュー内の実行中のジョブの合計です。 平均
成功したジョブ キュー内の成功したジョブの合計です。 平均
失敗したジョブ キュー内の失敗したジョブの合計です。 平均
アタッチ済みコンピュート環境の合計 キュー内のコンピュート環境ジョブの合計です。 平均

ライセンス

AWS Batch監視はベーシック監視に該当します。

IT自動化

自動化を追加して、AWS Batchアクションを実行できます。管理 > IT自動化テンプレート (+) > 自動化テンプレートの追加の順に移動します。自動化を追加したら、それらをスケジュールして実行することができます。

AWS Batchの表示

AWSリソースのバッチジョブを表示するには、Site24x7にログインし、Cloud > AWS > AWS Batchに移動します。

AWS Batch連携には、AWS Batchキュー監視も含まれます。AWS Batchには複数のキューがアタッチされます。AWS Batchキュー監視は、その各キューのジョブ詳細を表示します。

AWS Batchデータ

AWS Batch監視では、次のタブでデータを表示します。

サマリー

サマリータブではAWS Batchメトリックのが概要をチャートで表示します。送信済みジョブの合計、保留中のジョブ合計、実行中のジョブ合計といった情報を表示できます。

バッチジョブ詳細

バッチジョブ詳細タブでは、キューに関連するジョブ情報を表示します。ジョブステータスごとにジョブをフィルターし、表示します。

監視リソース

監視リソースタブでは、Site24x7により監視されているAWS Batchに関連付いているリソースを表示します。リソースステータス、リソースタイプ、リソースID、設定詳細を表示します。

設定

設定タブでは、リージョン、ジョブ名、キューステータス、その他監視リソースの詳細といった設定情報を表示します。

障害

障害タブでは、ダウン、トラブル、クリティカル、メンテナンス中といったリソースステータスの履歴を表示します。障害の開始時間と完了時間、期間、コメントもここで表示できます。

トップ