Amazon Managed Streaming for Apache Kafka (MSK)は、Apache kafkaを使用して、ストリーミングデータを処理するアプリケーションの構築と稼働を行えます。Amazon MSKで、ハードウェアのプロビジョニング、ソフトウェアインストール、クラスター設定、スケーリング、監視といったタスクを自動化でき、データストリーミングアプリケーションの構築と管理を効率的に行えます。
Amazon MSKとSite24x7を連携して、Kafkaインフラの監視と管理を行えます。
これにより、Amazon MSKクラスター、サーバーレス、レプリケーター、コネクト、ブローカー、トピックデータのパフォーマンスと正常性を監視します。
この連携により次の6コンポーネントを監視し、Kafka環境を効率的に監視します。
多くのブローカーとトピックをもつMSKクラスターを管理しているとします。この場合、個々のMSKブローカーとトピックの正常性と監視することが重要となりサービスの中ダウンやダウンのリスクを最小限にする必要があります。
しかし、クラスターで分配された複数ブローカーを監視することは困難です。
Site24x7との連携により監視を行い、重要なメトリックとデータをブローカーとトピックレベルで分析できます。
これにより、各MSKブローカーインスタンスの正常性とパフォーマンスを把握できるほか、MSKトピックのデータ挿入レートとスループットを分析できます。
また、どのMSKブローカーの使用状況を把握でき、アクションを行うことでMSKクラスターの高可用性と信頼性を維持できます。
Amazon MSKとSite24x7を連携することの利点は次のとおりです。
Site24x7はAWSサービスレベルのAPIを用いて、1分から1日の範囲でAmazon MSKからデータを収集します。
各MSK監視でサポートしているメトリックは次のとおりです。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
Kafkaデータログ使用ディスク | データログで使用されているディスク容量です。 | 最大 | パーセンテージ |
アクティブコントローラー数 | 指定した期間でのアクティブなコントローラー数です。 | 最小 | 数 |
オフラインパーティション数 | オフラインパーティション数です。 | 最大 | 数 |
クライアント接続数 | アクティブに接続されているクライアント数です。 | 最大 | 数 |
平均Zookeeperリクエストレイテンシー | Apache ZooKeeperリクエストの平均レイテンシーです。 | 平均 | ミリ秒 |
グローバルパーティション数 | レプリカを除外したクラスターのパーティション数です。 | 最大 | 数 |
グローバルトピック数 | クラスター内のトピック数の合計です。 | 最大 | 数 |
アップ状態のブローカー数 | アップ状態のブローカー数です。 | 合計 | 数 |
トラブル状態のブローカー数 | トラブル状態のブローカー数です。 | 合計 | 数 |
クリティカル状態のブローカー数 | クリティカル状態のブローカー数です。 | 合計 | 数 |
ダウン状態のブローカー数 | ダウン状態のブローカー数です。 | 合計 | 数 |
アップ状態のトピック数 | アップ状態のトピック数です。 | 合計 | 数 |
ダウン状態のトピック数 | ダウン状態のトピック数です。 | 合計 | 数 |
トラブル状態のトピック数 | トラブル状態のトピック数です。 | 合計 | 数 |
クリティカル状態のトピック数 | クリティカル状態のトピック数です。 | 合計 | 数 |
メトリック名 | 説明 | 統計 | 単位 |
アップ状態のトピック数 | アップ状態のトピック数監視数です。 | 合計 | 数 |
ダウン状態のトピック数 | ダウン状態のトピック監視数です。 | 合計 | 数 |
トラブル状態のトピック数 | トラブル状態のトピック監視数です。 | 合計 | 数 |
クリティカル状態のトピック数 | クリティカル状態のトピック監視数です。 | 合計 | 数 |
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
レプリケーションレイテンシー | 複製元と複製先での複製時間です。 | 最大 | ミリ秒 |
メッセージ遅延 | 元のクラスター内のレプリケーターメッセージ数です。 | 最大 | 数 |
レプリケータースループット | 1秒ごとの複製されたバイト数です。 | 平均 | バイト |
レプリケーター失敗 | レプリケーターで発生した失敗数です。 | 合計 | 数 |
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
1秒ごとの入力バイト | コネクターで受信されたバイト数です。 | 平均 | バイト |
1秒ごとの出力バイト | コネクターで送信されたバイト数です。 | 平均 | バイト |
CPU使用率 | システムとユーザーによりコンシューマーされたCPUのパーセンテージです。 | 平均 | パーセンテージ |
エラータスク数 | エラーが発生したタスク数です。 | 合計 | 数 |
メモリ使用率 | ワーカーインスタンスでのメモリ合計のパーセンテージです。 | 最大 | パーセンテージ |
リバランス完了合計 | コネクターで完了したリバランス数です。 | 最大 | 数 |
平均リバランス時間 | コネクターがリバランスで要した平均時間です。 | 平均 | ミリ秒 |
最大リバランス時間 | コネクターがリバランスで要した最大時間です。 | 最大 | ミリ秒 |
直近のリバランス時間 | コネクターが直近のリバランスで要した平均時間です。 | 平均 | ミリ秒 |
実行タスク数 | コネクター内のタスク実行数です。 | 最大 | 数 |
シンクレコード読み取りレート | Apache KafkaまたはAmazon MSKクラスターから読み込まれたレコードの1秒ごとの平均数です。 | 平均 | 数 |
シンクレコード送信レート | トランスフォーメーションから出力されたレコードの1秒ごとの平均数です。 | 平均 | 数 |
送信元レコードポーリングレート | 生成またはポーリングされたレコードの1秒ごとの平均数です。 | 平均 | 数 |
送信元レコード書き込み数 | トランスフォーメーションからApache KafkaまたはAmazon MSKクラスターに書き込まれたレコード出力の1秒ごとの平均数です。 | 平均 | 数 |
タスクスタートアップ試行合計 | コネクターが試行したタスクスタートアップ数です。 | 合計 | 数 |
タスクスタートアップ成功パーセンテージ | コネクターのタスク軌道に成功したパーセンテージです。 | 平均 | パーセンテージ |
ワーカー数 | コネクターで実行しているワーカー数です。 | 最大 | 数 |
Metric name | Description | Statistics | Unit |
---|---|---|---|
CPUクレジットバランス | ブローカーで―使用されているCPUクレジット数です。 | 最大 | 数 |
バーストバランス | クラスター内のEBSボリューム監視で使用できるクレジットバランスです。 | 合計 | 数 |
クライアント接続数 | 認証されたアクティブなクライアント接続数です。 | 最大 | 数 |
接続数 | 認証、未認証、ブローカー内部のアクティブな接続数です。 | 最大 | 数 |
CPUアイドル | CPUアイドル時間のパーセンテージです。 | 平均 | パーセンテージ |
CPU IO待機 | ディスク操作の保留機関のCPUアイドル時間のパーセンテージです。 | 平均 | パーセンテージ |
CPUシステム | カーネル領域のCPUパーセンテージです。 | 平均 | パーセンテージ |
CPUユーザー | ユーザー領域のCPUパーセンテージです。 | 平均 | パーセンテージ |
Kafkaアプリケーションログ使用ディスク | アプリケーションログで使用している最大ディスク容量です。 | 最大 | パーセンテージ |
Kafkaデータログ使用ディスク | データログで使用している最大ディスク容量です。 | 最大 | パーセンテージ |
リーダー数 | レプリカを含まないパーティションのリーダー数です。 | 最大 | 数 |
バッファーメモリ | ブローカーのバッファーメモリ内のバイトサイズです。 | 平均 | バイト |
キャッシュメモリ | ブローカーのキャッシュされたメモリバイトサイズです。 | 平均 | バイト |
空きメモリ | ブローカー内の空きメモリバイトサイズです。 | 平均 | バイト |
GC後のヒープメモリ | ガベージコレクション後に使用されたヒープメモリのパーセンテージです。 | 平均 | パーセンテージ |
使用メモリ | ブローカーで使用されているメモリバイトサイズです。 | 平均 | バイト |
1秒ごとの入力メッセージ | 1秒ごとの受信メッセージ数です。 | 最大 | 数 |
ドロップした受信ネットワーク | ドロップした受信パケット数です。 | 合計 | 数 |
受信ネットワークエラー | ブローカーのネットワーク受信エラー数です。 | 合計 | 数 |
受信ネットワークパケット | 受信ネットワークパケット数です。 | 合計 | 数 |
ドロップした送信ネットワーク | ドロップした送信ネットワーク数です。 | 合計 | 数 |
送信ネットワークエラー | ブローカーのネットワーク送信エラー数です。 | 合計 | 数 |
送信ネットワークパケット | ブローカーが送信したパケット数です。 | 合計 | 数 |
オフラインパーティション数 | クラスター内でオフラインのパーティション数の合計です。 | 最大 | 数 |
パーティション数 | レプリカを含むブローカーごとのパーティション数です。 | 最大 | 数 |
平均生成時間 | 平均生成時間です。 | 平均 | ミリ秒 |
平均リクエストバイト | ブローカーのリクエストバイト数の平均です。 | 平均 | バイト |
リクエスト時間 | ブローカーネットワークおよびI/Oスレッドでリクエスト処理に要した平均時間です。 | 平均 | ミリ秒 |
Root使用ディスク | ブローカーが使用しているrootディスクのパーセンテージです。 | 最大 | パーセンテージ |
空きスワップ | ブローカーで使用できるスワップメモリのバイトサイズです。 | 平均 | バイト |
使用スワップ | ブローカーで使用しているスワップメモリのバイトサイズです。 | 平均 | バイト |
トラフィックシェーピング | ネットワーク割り当て超過によりドロップまたはキューされたパケット数です。 | 最大 | 数 |
Under MinIsr配下パーティション数 | ブローカーのMinIsr配下のパーティション数です。 | 最大 | 数 |
複製配下パーティション | ブローカーの複製配下のパーティション数です。 | 最大 | 数 |
平均ZooKeeperリクエストレイテンシー | ブローカーからのApache ZooKeeperリクエストの平均レイテンシーです。 | 平均 | ミリ秒 |
ZooKeeperセッション状態 | ブローカーのZooKeeperセッションの接続状態です。次のステータスで表示されます。 NOT_CONNECTED: '0.0'、ASSOCIATING: '0.1'、CONNECTING: '0.5'、CONNECTEDREADONLY: '0.8'、CONNECTED: '1.0'、CLOSED: '5.0'、AUTH_FAILED: '10.0' |
最大 | 数 |
AWSで監視レベルを「PER_BROKER」に設定している場合、すべてのDEFAULTレベルメトリックに加えて次のメトリックを取得できます。
PER_BROKERメトリックは[アドバンス]タブで表示できます。
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
超過入力帯域 | ブローカーの入力最大帯域超過によりシェープしたパケット数です。 | 最大 | 数 |
超過出力帯域 | ブローカーの出力最大帯域超過によりシェープしたパケット数です。 | 最大 | 数 |
超過接続追跡 | ブローカーの接続追跡超過によりシェープしたパケット数です。 | 最大 | 数 |
接続クローズレート | リスナーごとのクローズしている接続数です。 | 合計 | 数 |
接続作成レート | リスナーごとの設立された新規接続数です。 | 合計 | 数 |
CPUクレジット使用量 | ブローカーで使用されたCPUクレジット数です。 | 合計 | 数 |
平均コンシューマー取得ローカル時間 | リーダーで処理されたコンシューマーリクエストの平均時間です。 | 平均 | ミリ秒 |
平均コンシューマー取得リクエストキュー時間 | リクエストキュー内のコンシューマーリクエスト待機の平均時間です。 | 平均 | ミリ秒 |
平均コンシューマー取得応答時間キュー時間 | 応答キュー内のコンシューマーリクエスト待機の平均時間です。 | 平均 | ミリ秒 |
平均コンシューマー取得応答送信時間 | コンシューマー応答の送信平均時間です。 | 平均 | ミリ秒 |
平均コンシューマー取得合計時間 | コンシューマーがブローカーからのデータ取得に要した平均時間です。 | 平均 | ミリ秒 |
平均フォロワー取得ローカル時間 | リーダーで承知されたフォロワーリクエストの平均時間です。 | 平均 | ミリ秒 |
平均フォロワー取得リクエストキュー時間 | リクエストキュー内のフォロワーリクエスト待機の平均時間です。 | 平均 | ミリ秒 |
平均フォロワー取得応答キュー時間 | 応答キュー内のフォロワーリクエスト待機の平均時間です。 | 平均 | ミリ秒 |
平均フォロワー取得応答送信時間 | 応答を送信したフォロワーの平均時間です。 | 平均 | ミリ秒 |
平均フォロワー取得合計時間 | フォロワーがブローカーからのデータ取得に要した平均時間です。 | 平均 | ミリ秒 |
1秒ごとのメッセージ取得コンバージョン | ブローカーの1秒ごとのメッセージ取得コンバージョン数です。 | 平均 | 数 |
取得スロットルバイトレート | 1秒ごとのスロットルバイト数です。 | 平均 | バイト |
取得スロットルキューサイズ | スロットルキュー内のメッセージ数です。 | 平均 | 数 |
取得スロットル時間 | 平均取得スロットル時間です。 | 平均 | ミリ秒 |
ネットワークプロセッサー平均アイドルパーセント | ネットワークプロセッサーがアイドルであった時間のパーセンテージです。 | 平均 | パーセンテージ |
超過PPS | ブローカーの最大両方向PPSの超過によりシェープしたパケット数です。 | 最大 | 数 |
平均生成ローカル時間 | リーダー処理されたリクエストの平均時間です。 | 平均 | 数 |
1秒ごとの生成メッセージコンバージョン | ブローカーの1秒ごとの生成メッセージコンバージョン数です。 | 平均 | 数 |
平均生成メッセージコンバージョン時間 | メッセージフォーマットコンバージョンに要した平均時間です。 | 平均 | ミリ秒 |
平均生成リクエストキュー時間 | キュー内のリクエストメッセージに要した平均時間です。 | 平均 | ミリ秒 |
平均生成応答キュー時間 | キュー内の応答メッセージに要した平均時間です。 | 平均 | ミリ秒 |
平均生成応答送信時間 | 応答メッセージ送信に要した平均時間です。 | 平均 | ミリ秒 |
生成スロットルバイトレート | 1秒ごとのスロットルバイト数です。 | 最大 | バイト |
生成スロットルキューサイズ | スロットルキュー内のメッセージ数です。 | 最大 | 数 |
生成スロットル時間 | 平均生成スロットル時間です。 | 平均 | ミリ秒 |
1秒ごとのリモート取得バイト | コンシューマー取得のための応答内の階層化ストレージから送信されたバイト数の合計です。 | 最大 | バイト |
1秒ごとのリモートコピーバイト | ログセグメント、インデックス、その他ファイルからのデータを含む階層化ストレージに送信されたバイト数の合計です。 | 最大 | バイト |
リモートログマネージャータスク平均アイドルパーセント | リモートログマネージャーがアイドルであった平均時間です。 | 平均 | パーセンテージ |
リモートログリーダーアイドルパーセント | リモートログリーダーがアイドルであった平均時間です。 | 平均 | パーセンテージ |
リモートログリーダーキューサイズ | スケジュールで待機している階層化ストレージから読み取られる応答可能なタスク数です。 | 合計 | 数 |
1秒ごとのリモート取得エラー | コンシューマー取得のために、応答内の取得データにブローカーが階層化ストレージに送信する読み取りリクエストのエラーレートの合計です。 | 平均 | 数 |
1秒ごとのリモート取得リクエスト | コンシューマー取得のために、応答内の取得データにブローカーが階層化ストレージに送信する読み取りリクエスト数の合計です。 | 平均 | 数 |
1秒ごとのリモートコピーエラー | データアップストリーム送信のために、ブローカーが階層化ストレージに送信する書き込みリクエストのエラー数の合計です。 | 平均 | 数 |
1秒ごとのレプリケーション入力バイト | ブローカーから受信された1秒ごとのバイト数です。 | 平均 | バイト |
1秒ごとのレプリケーション出力バイト | 他のブローカーに送信された1秒ごとのバイト数です。 | 平均 | バイト |
スロットルの免除リクエスト時間 | スロットルから免除されたリクエストを処理ために、ブローカーネットワークおよびI/Oスレッドで要した平均時間です。 | 平均 | ミリ秒 |
リクエストハンドレアー平均アイドルパーセント | リクエストハンドラースレッドがアイドルであった時間のパーセンテージです。 | 平均 | パーセンテージ |
リクエストスロットルキューサイズ | スロットルキュー内のメッセージ数です。 | 平均 | 数 |
リクエストスロットル時間 | リクエストスロットルの平均時間です。 | 平均 | ミリ秒 |
TCP接続 | 同期(SYN)フラッグセットをもつ入力および出力TCPセグメント数です。 | 合計 | 数 |
リモートコピー遅延バイト | ブローカーに階層化しているがストレージに送信されていないデータのバイト数の合計です。 | 合計 | バイト |
トラフィックバイト | クライアント(プロデューサーおよびコンシューマー)とブローカー間のネットワークトラフィックバイトです。 | 最大 | バイト |
ボリュームキュー長 | 指定した期間での待機が完了した読み取りおよび書き込み操作リクエスト数です。 | 最大 | 数 |
ボリューム読み取りバイト | 指定した期間での読み取りバイト数です。 | 合計 | バイト |
ボリューム読み取り操作 | 指定した期間での読み取り操作数です。 | 合計 | 数 |
ボリューム合計読み取り時間 | 指定した期間での完了した全ての読み取り操作で要した秒数です。 | 合計 | 秒 |
ボリューム合計書き込み時間 | 指定した期間での完了した全ての書き込み操作で要した秒数です。 | 合計 | 秒 |
ボリューム書き込みバイト | 指定した期間での書き込みバイト数です。 | 合計 | バイト |
ボリューム書き込み操作 | 指定した期間での書き込み操作数です。 | 合計 | 数 |
メトリック名 | 説明 | 統計 | 単位 |
---|---|---|---|
1秒ごとの入力バイト | クライアントから受信した1秒ごとのバイト数です。 | 平均 | バイト |
1秒ごとの出力バイト | クライアントに送信した1秒ごとのバイト数です。 | 平均 | バイト |
1秒ごとの取得メッセージコンバージョン | 取得メッセージコンバージョン数です。 | 平均 | 数 |
1秒ごとの入力メッセージ | トピックの1秒ごとの入力メッセージ数です。 | 平均 | 数 |
1秒ごとの生成メッセージコンバージョン | 1秒ごとの生成メッセージコンバージョン数です。 | 平均 | 数 |
1秒ごとのリモート取得バイト | 特定のトピックおよびブローカーに対するコンシューマー取得のために、応答内の階層化ストレージから送信されたバイト数です。 | 平均 | バイト |
1秒ごとのリモートコピーバイト | 特定のトピックおよびブローカーに対して階層化ストレージから送信されたバイト数です。 | 平均 | バイト |
1秒ごとのリモート取得エラー | 特定のトピックのコンシューマー取得のために、ブローカーが応答内の階層化ストレージに送信した読み取りリクエストでのエラーレートです。 | 最大 | 数 |
1秒ごとのリモート取得リクエスト | 特定のトピックのコンシューマー取得のために、ブローカーが階層化ストレージに送信する読み取りリクエスト数です。 | 最大 | 数 |
1秒ごとのリモートコピーエラー | データアップストリームを送信するために、階層化ストレージにブローカーが送信する書き込みリクエストのエラーレートです。 | 最大 | 数 |
最大オフセット遅延の合計 | トピック内の全パーティションのおける最大オフセット遅延です。 | 最大 | 数 |
推定最大時間遅延の合計 |
コンシューマーが最新メッセージを取得するまでの推定時間です。最大の遅延が表示されます。 この値が高い場合、メッセージの読み込みに遅延が発生しており、コンシューマーがメッセージ取得に時間を要していることを意味します。 |
最大 | ミリ秒 |
オフセット遅延の合計 | トピック内の全パーティションにおける集約されたオフセットの遅延です。 | 合計 | 数 |
最大推定ローリング時間遅延 | ローリング時間ウィンドウ全体を平均化した最大推定遅延です。 この値により、メッセージ消費における最も大きい遅延を把握できます。メッセージ処理の遅延発生の有無を把握できます。 |
最大 | ミリ秒 |
Amazon MSKのしきい値設定方法は次のとおりです。
Site24x7にログインし、[Cloud]→[AWS]→[Amazon MSK]に移動します。
Amazon MSK監視データについての概要は次のとおりです。
次のタブでMSKクラスターのデータを表示します。
[サマリー]
イベントタイムラインの概要とグラフ形式でのメトリックを表示します。
[ブローカー]
クラスターに関連付いているブローカー監視とともにブローカーの可用性とともにを表示します。
リストから特定のブローカー監視をクリックすると、監視情報を表示します。
[トピック]
トピックの可用性とクラスターに関連付いているトピックインスタンスを表示します。
リストから特定のトピックをクリックすると監視情報を表示します。
[設定]
クラスターARN、クラスター名、現在の状態、ブローカー数といったMSKクラスター情報を表示します。
[障害]
障害の開始時間、終了時間、期間、コメントの情報を表示します。
[インベントリー]
クラスター名、リージョン、監視ライセンスカテゴリーといった情報を表示します。このタブで、しきい値と可用性と通知プロファイルの設定と表示を行えます。
[ログレポート]
MSKクラスター監視のログステータスのレポートを表示します。CSVファイルでダウンロードできます。
次のタブでMSKサーバーレスのデータを表示します。
[サマリー]
イベントタイムラインの概要とグラフ形式でのメトリックを表示します。
[トピック]
トピックの可用性とクラスターに関連付いているトピックインスタンスを表示します。
リストから特定のトピックをクリックすると監視情報を表示します。
[設定]
クラスターARN、クラスター名、現在の状態、作成日といったMSKサーバーレス情報を表示します。
[障害]
障害の開始時間、終了時間、期間、コメントの情報を表示します。
[インベントリー]
クラスター名、リージョン、監視ライセンスカテゴリーといった情報を表示します。このタブで、しきい値と可用性と通知プロファイルの設定と表示を行えます。
[ログレポート]
MSKクラスター監視のログステータスのレポートを表示します。CSVファイルでダウンロードできます。
次のタブでMSKレプリケーターのデータを表示します。
[サマリー]
イベントタイムラインの概要とグラフ形式でのメトリックを表示します。
[監視リソース]
MSKクラスター監視に関連付いているMSKレプリケーターの監視リソースを表示します。
リストから特定のMSKレプリケーターをクリックすると監視情報を表示します。
[設定]
クラスターARN、クラスター名、現在の状態、ブローカー数といったMSKクラスター情報を表示します。
[障害]
障害の開始時間、終了時間、期間、コメントの情報を表示します。
[インベントリー]
クラスター名、リージョン、監視ライセンスカテゴリーといった情報を表示します。このタブで、しきい値と可用性と通知プロファイルの設定と表示を行えます。
[ログレポート]
MSKクラスター監視のログステータスのレポートを表示します。CSVファイルでダウンロードできます。
次のタブでMSKコネクトのデータを表示します。
[サマリー]
イベントタイムラインの概要とグラフ形式でのメトリックを表示します。
[設定]
クラスターARN、クラスター名、現在の状態、ブローカー数といったMSKクラスター情報を表示します。
[障害]
障害の開始時間、終了時間、期間、コメントの情報を表示します。
[インベントリー]
クラスター名、リージョン、監視ライセンスカテゴリーといった情報を表示します。このタブで、しきい値と可用性と通知プロファイルの設定と表示を行えます。
[ログレポート]
MSKクラスター監視のログステータスのレポートを表示します。CSVファイルでダウンロードできます。
次のタブでMSKブローカーのデータを表示します。
[サマリー]
イベントタイムラインの概要とグラフ形式でのメトリックを表示します。
[アドバンス]
ネットワークトラフィック、CPU使用率、リクエストハンドリング、レプリケーションなどの様々なメトリックを表示します。
MSKブローカーのパフォーマンスの監視と最適化を行えます。
[トピック]
トピックの可用性とクラスターに関連付いているトピックインタンスを表示します。
トピックリストから特定のトピックインスタンスをクリックすると監視情報を表示します。
[障害]
障害の開始時間、終了時間、期間、コメントの情報を表示します。
[インベントリー]
クラスター名、リージョン、監視ライセンスカテゴリーといった情報を表示します。このタブで、しきい値と可用性と通知プロファイルの設定と表示を行えます。
[ログレポート]
MSKクラスター監視のログステータスのレポートを表示します。CSVファイルでダウンロードできます。