Hadoop監視のパフォーマンスメトリクス

障害が発生したボリュームやキャッシュブロック、ディスク使用率、NameNodeのロード平均において、トップNのDataNodeが表示されます。またDataNodeなどのミドルウェアで、稼働中、失効中、ダウン中といったステータスを単一コンソールで表示できます。しきい値設定を行い、メトリクスがそのしきい値を違反した場合に通知を行います。

Once the Linux監視エージェントのインストールに成功すると、全Hadoopクラスターが自動的にディスカバリーされ、サーバー > Hadoop > クラスター名の配下に監視が追加されます。複数のクラスターを監視している場合、Hadoop > Hadoop Clustersでそれらを表示されることができます。

ヘルスダッシュボード

ヘルスダッシュボードは全てのHadoopクラスターの現在のステータスを表示します。その他メトリクスとしては、障害の発生したボリュームやキャッシュブロックに基づいたトップN DataNode、ボリュームの障害、ヒープメモリ統計、ファイル統計などがこのダッシュボードに表示されます。このダッシュボードは1分ごとに更新され、ページタイトル横の更新アイコンをクリックすることで直ちに更新することも可能です。共有によってPDFファイルとしてのレポートを作成したり、パーマリンクを作成することができ、パブリックにこのダッシュボードを共有することができます。

DataNodes、NameNodes、YARNのパフォーマンスメトリクス

監視に追加したDataNode、 NameNode、 YARNの全てでパフォーマンスメトリクスを表示できます。サーバー > Hadoop > Hadoopクラスター > NameNodes/DataNodes/YARN > 監視の順にクリックしていくことで、パフォーマンスメトリクスが表示できます。

Site24x7のLinux監視エージェントが全てのDataNode、NameNode、YARNにインストールすることで、次のパフォーマンスメトリクスが表示されます。エージェントのインストールが済んでいない場合は、サーバー > Hadoop > クラスター > NameNodes/DataNodes/YARN > 監視 > サーバー監視の拡張 > 今すぐ開始 > 監視の選択 > 適用の順にアクセスし、エージェントをインストールします。

NameNodesのメトリクス:

Linux監視エージェントが各Namenodeにインストールされると、全てのNameNode監視で次のメトリクスがサマリータブ(サーバー > Hadoop > Hadoopクラスター > NameNodes)で表示されます。

パラメーター 説明
DFSキャパシティー使用率 DFSクラスターの消費スペースと空きスペースです。
ファイル統計 NameNodeで追跡されているファイルの総数です。
ヒープメモリ統計 使用またはコミットされている現在のヒープメモリがGB単位で表示されます。
非ヒープメモリ統計 使用またはコミットされていない現在のヒープメモリがGB単位で表示されます。
総ロード数 DataNodeを介した同時ファイルアクセス数です。
DFS複製 複製中、複製保留中、複製予定中のブロック数です。
ログ統計 重大、エラー、警告ログの数です。
スレッド統計 新規、稼働中、ブロック、待機、削除されたスレッドの数です。
ブロック統計 割り当てブロック、欠落しているブロック、破損したレプリカのあるブロックの総数です。
ノード - クラスターに割り当てられている全てのノードが表示されます。
CPU (%) NameNodeのCPU使用率です。
メモリ (%) NameNodeのメモリ使用率です。
使用ディスク (%) Namenodeのディスク使用率です。
ステータス NameNodeの可用性がアップかダウンで表示されます。
インストールエージェント 拡張機能のないノードにLinux監視エージェントの拡張機能をインストールします。

DataNodesのメトリクス:

各DataNodeにLinux監視エージェントがインストールされると、全てのDataNode監視のサマリータブ(サーバー > Hadoop > Hadoopクラスター > DataNodes)で次のメトリクスが表示されます。

パラメーター 説明
使用DFS DataNodeで使用されているDFSスペースです。
使用キャッシュ キャッシュされているブロックの数です。
ヒープメモリ 使用またはコミットされている現在のヒープメモリがGB単位で表示されます。
Non Heap Memory Statistics 使用またはコミットされていない現在のヒープメモリがGB単位で表示されます。
失敗したキャッシュブロック キャッシュに失敗したブロックの数です。
失敗したアンキャッシュブロック キャッシュからの削除に失敗したブロックの数です。
ログ統計 重大、エラー、警告ログの数です。
スレッド統計 新規、稼働中、ブロック、待機、削除されたスレッドの数です。
ボリューム障害 障害のあったボリュームの数です。ボリュームに障害が発生しても、Hadoopクラスターのパフォーマンスは低下しませんが、なぜ障害が発生したかを把握するのに重要なメトリクスです。

YARNのメトリクス:

各YARNにLinux監視エージェントがインストールされると、全てのYARN監視のサマリータブ(サーバー > Hadoop > Hadoopクラスター > YARN)で次のメトリクスが表示されます。

パラメーター 説明
提出/完了したアプリケーション 完了したアプリケーションの数です。
稼働/保留しているアプリケーション 稼働中および保留中のアプリケーションの数です。
失敗/終了したアプリケーション 失敗および終了したアプリケーションの数です。
ノード詳細 異常、失効、アクティブ、廃止、再起動されたノードマネージャーの数です。
メモリ統計 保存された、割り当てられた、利用可能なメモリの総量です。
仮想コア 保存されたおよび割り当てられた仮想コアの数です。
コンテナー統計 保存されたおよび割り当てられたコンテナーの数です。
HadoopクラスターでZooKeeperが稼働している場合、ZookeeperアプリケーションにLinuxエージェントをインストールすることで、よりよく監視を行うことができます。詳細はこちら.

しきい値と可用性プロファイルの追加

NameNodes、DataNodes、YARN監視をSite24x7アカウントに追加したら、上記の各メトリクスでしきい値を定義することができ、障害があった際に通知を行います。しきい値プロファイルの追加と編集方法は次の手順を参照してください。

  1. Site24x7にログインし、サーバー > Hadoopの順にアクセスします。
  2. Hadoopクラスター > NameNodes/DataNodes/YARN > 監視の順にクリックします。
  3. 表示名の側にあるハンバーガーアイコン内にある編集をクリックします。
  4. Hadoop監視の編集ページで、設定プロファイル欄の鉛筆アイコンをクリックし、デフォルトのしきい値プロファイルを編集するか、しきい値と可用性欄の右側にある(+)アイコンから新しくプロファイルを追加します。
  5. 設定が必要なメトリクスのしきい値を定め、保存をクリックします。

関連ドキュメント