インフラ監視を専任エンジニア不在で実現する方法 – Web開発会社によくある運用課題

昨今、政府によるクラウドバイデフォルトが提唱される中、WebアプリケーションやITインフラとしてクラウドサービスの利活用は既に常識化しつつあります。その一方で、オンプレからクラウドにITインフラが変化してもITインフラに要求される「動いてて当たり前」という要求は変わっておらず、複雑化するクラウドを使いこなして、従来のオンプレでは得られない付加価値を提供する事が求められています。クラウドを利活用する企業や団体はそれぞれ大なり小なりITインフラとしてのクラウド利活用に関わる課題や悩みをお持ちだと思います。

本記事ではそのような企業・団体が抱える課題について、1つずつ具体例を交えつつ、Site24x7でどのように課題解決ができるかをご紹介していきます。

インフラ監視専任不在のWeb開発A社

今回はWebアプリケーション・Webサイトの企画・制作・運用を中心に自社サービス開発も行っているA社が抱える課題について見ていきます。A社では、クライアントのWebアプリケーションやWebサイトの運用保守はクライアントの予算に応じて専門会社に委託する事がほとんどでしたが、自社Webアプリケーションの運用保守は自社エンジニアにて休日・夜間の持ち回りで対応していました。

そんな中、既に運用している自社Webアプリケーションとは別にサブスクリプション型の新規サービス企画が持ち上がり、プロトタイプ開発にも着手し始めていました。プロトタイプ開発が順調に進み、社内のリリース判定の会議体にて、非機能面でより高品質な要求を満たせなければ、すぐにユーザ離れが発生するのではないかとの課題が浮上しました。

A社では自社で専任となるインフラエンジニアがいないため、Webアプリケーションエンジニアがインフラエンジニアの業務を兼任することが度々課題となっていました。

インフラ監視にまつわるよくある課題とリスク

専任となるインフラエンジニアがいないというようなケースは、開発会社ではよくあるケースです。フルスタックエンジニアの必要性は理解しつつも、実際はなかなかそのような人材を確保することはできません。

今回のこのようなA社の状況を顕在化された課題と潜在的なリスクの2軸で整理しつつ、Site24x7を使うメリットをご紹介していきます。

それでは、A社の代表的な課題を見ていきましょう。

顕在化された課題

A. ITインフラ観点での品質維持・向上

常に動いて当たり前というITインフラに求められる要件はサブスクリプションモデルにおける解約リスクを大きく上昇させる要因として無視できない課題の1つです。

例え、専任インフラエンジニアがいなくても、ITインフラ観点での品質維持・向上はしていかなくてはいけません。

B. より優れたカスタマー体験の提供と開発の効率化

UXとカスタマー体験を向上させるため、絶え間ない機能拡張によるアプリケーションの品質維持・向上させる必要があります。

サブスクリプションモデルはITインフラと同様にアプリケーションレイヤでも優れたカスタマー体験を提供し続けなければ、解約リスクが発生します。貴重なユーザからのフィードバックをサービス改善に繋げていくサイクルをどれだけ早く回せるかが重要になってきます。

また、企業によっては契約時に定量的にサービスに対するSLAが要求されるようなケースもあり、サービス提供側としてSLAを計測・開示する必要が出てくるケースもあります。

C. 既存ツールとの連携による運用効率化

新たなツール導入により既存ツールとの併用が発生するため、運用時の工数削減が必要となります。

A社に限らず、開発会社ではSlackをはじめとした複数のSaaS型のクラウドサービスを利用しているケースが多いのが現状です。さらなるツール導入によって発生するオーバーヘッドは極力最小化することが望まれ、可能な限り既存ツールとの連携・効率化が求められます。

D. コスト削減・管理

利用するクラウドサービスは従量課金が基本となるため、ミニマムでサービスをローンチし、サービス規模に応じたコスト管理をしていく必要があります。

クラウド利用料の可視化はサービス単位で行われる事が望まれますが、例えば1つのクラウドサービスアカウントのみで契約しているようなケースではサービス毎のコスト管理がより複雑化し、管理のためのコストが発生するなどオーバーヘッドが大きくなりがちです。コストは見えやすい数値であるため、よりシビアに改善が要求されます。

潜在的なリスク

E. マルチクラウドの統合管理

A社では現在、自社サービスは特定のクラウドサービス(AWS)を中心に利用していますが、受託開発ではクライアントからの要求で異なるクラウドサービス(Azure、GCP等)を利用するケースも発生しています。

幸い、上記ケースにおいてはITインフラの運用・保守は専門会社に委託しているため、AWS・Azure・GCPのマルチクラウドの管理は現時点では発生していないが、ゆくゆくは他クラウドサービスの運用・保守を担っていくケースも考えられます。

また、自社サービスのさらなるカスタマー体験を追求していくと、特定クラウドサービスに依存させないなどのリスク管理も必要となり、マルチクラウドを活用したサービス開発を検討していくことになります。

解決方法とその効果

それでは、A社の整理した顕在化された課題と潜在的なリスクについて日本語に対応したSaaS型オールインワン監視ツール「Site24x7」でどのように解決できるかを見ていきましょう。

顕在化された課題への解決方法

専任インフラエンジニア不足による品質低下について、3つのSite24x7での解決方法をご紹介します。

A-1. 主要クラウドのメトリクス自動連携(AWS、Azure、GCP)

Site24x7では主要クラウドサービスであるAWS、Azure、GCPに対して自動連携する機能が備わっています。AWSの場合、必要となる権限がセットされたIAM Roleを登録する事で、EC2、RDS、ELB、ElastiCacheなどの40以上のサービスのメトリクスを自動連携させる事が可能です。

自動でディスカバリーしたリソースはタグをもとに自動で整理させることもできます。

各メトリクス自動連携の詳細:
AWS)https://www.site24x7.jp/help/aws.html
Azure)https://www.site24x7.jp/help/azure/
GCP)https://www.site24x7.jp/help/gcp/

A-2. エージェントによるさらなるメトリクス取得と自動化

クラウドサービスが提供するデフォルトのメトリクスの連携だけではなく、サーバ内にエージェントをインストールする事でより高度なメトリクス取得が可能になります。

サーバ内へのエージェントインストールもWindows/Linux系ともに多数の方法がSite24x7から提供されているため、各環境に合わせてコマンドをコピーするだけでインストールを完了させる事ができます。
例えば、Linux系OSに提供されているインストール方法は以下のものがあります。

  • Chef
  • SaltStack
  • Puppet
  • Ansible
  • シェルスクリプト(SSH)

※Azureの場合は、VM拡張での監視追加が可能であるため、エージェントインストール作業が不要となります。

エージェントインストールの詳細:
https://www.site24x7.jp/help/getting-started/server-monitoring-agent.html

A-3. AWSサービスアクションおよびIT自動化ツールによる障害の自動修正

インストールしたエージェントを経由して対象サーバでコマンド実行させる機能が備わっています。またクラウドサービスへのAPIコールも可能なため、障害アラートをトリガーに様々な自動復旧シナリオを設定する事ができます。

例えば、プロセス監視のアラート検知時に対象プロセスの起動を実行させたり、該当サーバへの疎通ができなくなった際に対象となるサーバをクラウドサービスのAPIを経由して再起動するなどができるようになります。

IT自動化の詳細:
https://www.site24x7.jp/help/getting-started/it-automation.html

より優れたカスタマー体験の提供と開発の効率化について、Site24x7を活用した4つの解決方法をご紹介します。

B-1. アプリケーションパフォーマンス監視の導入

Site24x7では、いわゆるアプリケーションパフォーマンスモニター(APM)の機能が提供されており、先にご紹介したメトリクス監視と統合した高度な性能監視が可能になります。

アプリケーションパフォーマンスモニターは、WebアプリケーションやWebアプリでよく利用されている言語(Java、.NET、PHP、Ruby on Rails等)だけではなく、iOSやAndroidのネイティブアプリにも対応しています。

APMを活用する事でより高度なアプリ開発の実現や迅速なボトルネックの特定等、アプリケーションの性能面に対する課題解決が劇的に効率化できます。

アプリケーションパフォーマンスモニターの詳細:
https://www.site24x7.jp/help/apm.html

B-2. ユーザー視点の監視

高度情報化社会では、ユーザの利用端末もiOSやAndroid、Webブラウザであったり、経由するネットワーク接続も多岐にわたり、単純な単一ポイントからの監視だけではユーザ側で発生している障害を捉えきれないケースがあります。

Site24x7ではリアルユーザ監視機能を利用する事で、実ユーザのブラウザ、プラットフォーム、地理条件やISPなどを条件に実ユーザにより近い監視を実現させる事ができます。

自社で同様の仕組みを構築すると複雑化するユーザの利用端末に追随するのは困難ですが、Site24x7では初期投資なく利用する事が可能です。これによりユーザの障害をいち早く検知し、相応の対応や告知を出す事ができるようになり、障害発生時の温度感が高いユーザへの適切な対応へと繋げることができます。

リアルユーザ監視の詳細:
https://www.site24x7.jp/help/getting-started/real-user-monitoring.html

B-3. SLAレポート

Webアプリケーションのさらなる拡大をしていくためにはエンタープライズのユーザへのサービス提供が必然的となります。その際、サービスに対するSLAレポートの提供有無が、サービス採用のノックアウト条件になるケースもあります。

Site24x7のSLAレポート機能を利用する事で、可用性や応答時間などのシンプルな条件から可用性と応答時間を組み合わせる複数条件など、SLAレポートを容易に作成することができます。新たにサービス側で実装する事なくSLAレポートを用意できるため、適切なサービスレベルマネジメントを通じたサービスのさらなる品質改善やユーザの要望の改善等が可能となります。

SLAレポートの詳細:
https://www.site24x7.jp/help/reports/sla-reports.html

B-4. サービス稼働状況ページの作成・公開

Webアプリケーションのユーザが増えれば増えるほど障害等の情報はリアルタイムでユーザに届ける必要があります。Site24x7では、ステータスページ公開機能が用意されており、Webアプリケーションの監視内容をもとにサービス稼働状況や応答時間といった情報をステータスページとして公開させることができます。

ステータスページの詳細:
https://www.site24x7.jp/status-pages.html

既存ツールとの連携による運用効率化について、Site24x7での解決方法についてご紹介します。

C. サードパーティ連携

Site24x7はデフォルトでも多岐にわたるサービスとの連携が可能です。例えば、Slack、PagerDuty、Microsoft Teams、HipChat、ServiceNowなどはいつでも連携させることができます。また、必要に応じてWebhook連携も用意されているので、独自でカスタマイズさせることもできます。Site24x7はAPIも提供されているため、ChatOpsを実現させることも可能です。

サードパーティ連携の詳細:
https://www.site24x7.jp/help/admin/third-party-integration.html

コスト削減・管理について、Site24x7での解決方法についてご紹介します。

D. クラウドコスト管理

Site24x7のCloudSpend機能を活用することでより高度なクラウドサービス利用料の可視化・管理を実現することができます。

各クラウドサービスで提供されている機能はもちろん、独自タグによるプロジェクト毎の管理や複数のクラウドサービスアカウントのコスト管理等も可能となります。

CloudSpendの詳細:
https://www.site24x7.jp/cloudspend/

潜在的なリスクへの解決方法

マルチクラウドの統合管理について、Site24x7での解決方法についてご紹介します。

E-1. 主要クラウドのメトリクス自動連携(AWS、Azure、GCP)

A-1で述べたように、Site24x7は主要クラウドサービスであるAWS、Azure、GCPとは自動連携させる事ができます。マルチクラウドの監視を1つの画面に統合しつつ、自動化させることでマルチクラウドにおける管理コストの圧縮が可能となります。

各メトリクス自動連携の詳細:
AWS)https://www.site24x7.jp/help/aws.html
Azure)https://www.site24x7.jp/help/azure/
GCP)https://www.site24x7.jp/help/gcp/

E-2. その他クラウド及びオンプレの統合

AWS、Azure、GCPに限らずサーバにエージェントをインストールすることができれば、Site24x7で統合監視させる事ができます。

更にオンプレミスポーラーの仮想アプライアンスを導入することでオンプレミス環境のインターネットからの接続が制限されたネットワークでも監視を統合させる事ができます。例えば、VMware等の仮想基盤やネットワーク機器などの監視も標準テンプレートが提供されています。

オンプレミスポーラーの詳細:
https://www.site24x7.jp/help/getting-started/on-premise-poller.html

まとめ

ここまで実際の開発会社が抱える課題を切り口にSite24x7の機能をご紹介してきました。ここまでお付き合い頂き、ありがとうございました。Site24x7の機能は非常に多く、今回ご紹介した機能以外にもまだまだあります。Site24x7のドキュメントは日本語化が進んでおり、またサインアップしていただければクレジットカード登録する必要もなく、30日間も無償トライアルが可能です!

無償トライアル版にサインアップ:
https://www.site24x7.jp/signup.html?pack=1&l=ja

さらに、Site24x7はAPIも公開しているため、クラウドサービスと組み合わせて利用いただければ運用・保守業務のさらなる自動化が可能です。少しでも皆さんが抱える課題をSite24x7が解決できれば幸いです。

Site24x7 APIの詳細(英語):
https://www.site24x7.com/help/api/#introduction

 

免責事項:ここに記載されているすべての著作権、商標、商号は、元の所有者の所有物です。このWebページに含まれる情報は、一般的な情報提供のみを目的としており、そのような情報は、正確性、信頼性、または完全性について調査、監視、または確認されていません。 当社は、ここに含まれる情報への依存に起因する誤り、または損失に対する責任を明示的に否認します。