AWS監視の基本 - 監視すべき項目やAWS監視サービスを解説 -
2024.06.06
|
|---|
<執筆者> 原田 拓朗 Harada Takuro
クラウド技術本部 クラウド技術部
2015年に新卒でアシストへ入社後、Oracle Database のエンジニアとなる。
現在は「Oracle Cloud」と「AWS」を担当するマルチなクラウドエンジニアとして活動中。
仕事だけでなくプライベートでも「インドア系(アニメ・ゲーム・漫画など)」と
「アウトドア系(ロードバイク・サッカー・スノーボードなど)」というマルチな趣味を満喫中。
はじめに
こんにちは。アシストでクラウドを担当している原田拓朗です。
皆様の会社でクラウドの活用は進んでいますか?
昨今、システムのクラウド化に関するニーズが非常に高まっており「システムをクラウド化したい」、「システム移行時において、移行先のファーストチョイスはクラウドになる」という話を耳にすることが増えました。
その際、多くのお客様から「クラウドにおける監視」について相談があります。
例えば、
・アマゾン ウェブ サービス(以下、AWS)では、どのような監視を行えば良いか?
・オンプレミスの監視内容を、そのままAWSでも採用できるのか?
・そもそもシステムの監視は、どのように検討を進めればよいのか?
などです。
そこで、本コラムでは、AWSにおける「監視すべき項目」や「監視サービス」、「検討の進め方」についてご紹介します。
監視とは
そもそも「監視」とは何か、認識合わせをしておきましょう。
監視とは、
システムの状態を定期的にチェックし、問題発生時に検知・通知して適切な対応を行うこと
です。
監視を検討するにあたり、多くのケースにおいて「
監視する方法
」に着目されがちですが、それだけではなく「
問題発生時の検知および通知方法
」までをワンセットで考えることが重要です。
そこまで実施して初めて「システムの安定稼働」を実現することが可能になります。
AWS監視の4分類
では、本コラムの本題である「AWSの監視」について見ていきましょう。
AWSの監視は「システム監視」「サービス監視」「セキュリティ監視」「コスト監視」の4つに分類できます。
オンプレミス環境とは異なり
「AWSサービス」に関するメンテナンスや障害監視が必要
となりますので、注意が必要です。
AWS監視の種類
| 監視の種類 | 監視の目的 | 監視する項目(一部抜粋) |
|---|---|---|
| システム監視 | システムの健全性や利用状況を確認し、システムの稼働を担保する | ・死活監視 ・リソース監視 ・ログ監視 ・データベース監視 |
| サービス監視 | AWSサービスの正常性を担保する | ・AWSサービスのメンテナンス監視 ・AWSサービスの障害監視 |
| セキュリティ監視 | システムのデータやAWSアカウントのセキュリティを守る | ・不正アクセス検知 |
| コスト監視 | AWSサービスの利用料金を確認する | ・AWS利用料金の監視 |
この中から、AWSを運用する上で必要不可欠な「システム監視」と「サービス監視」にフォーカスを当ててご紹介します。
システム監視
システム監視は、システム全体の健全性や利用状況を確認します。
システムの安定稼働を確保するために不可欠な監視です。
システム監視をすることで、問題が発生した際に迅速な対応が可能となり、システムのダウンタイムを最小限に抑えることができます。
具体的には以下の項目を監視します。
死活監視
システムやサービスが正常に稼働しているかを確認します。
サーバーやアプリケーションがダウンしていないかを常にチェックし、異常があれば即座に通知します。
リソース監視
CPU、メモリ、ディスクなどのリソース使用状況を監視します。
リソースの使用率が高くなりすぎるとパフォーマンスが低下するため、適切なリソース配分ができるようにします。
ログ監視
システムやアプリケーションのログを監視し、異常やエラーを検知します。
ログ解析により、潜在的な問題を早期に発見することができます。
データベース監視
データベースのパフォーマンスや接続状況を監視します。
クエリの応答時間や接続数などをチェックし、データベースの健全性を保ちます。
サービス監視
サービス監視は、AWSサービスのメンテナンスや障害を確認します。
AWS上で稼働する各種サービスの正常性を確保するために必要な監視です。
サービス監視をすることで、サービスの停止や性能低下といった問題を早期に発見し、迅速に解決することが可能となります。
具体的には以下の項目を監視します。
AWSサービスのメンテナンス監視
定期的なメンテナンスが正常に実施されているかを監視します。
メンテナンスによる影響を最小限に抑え、サービスの連続性を保ちます。
AWSサービスの障害監視
各種AWSサービスの稼働状況を監視し、障害が発生した際には即座に通知します。
例えば、Amazon EC2 のインスタンスの停止や、Amazon RDS の接続障害などを検知します。
これらの監視内容をみると、AWSの正常稼働を担保するには「システム監視」と「サービス監視」が重要なことがお分かりいただけたかと思います。
AWS監視サービスでできること
では「システム監視」と「サービス監視」を実施するためには、どのような方法があるでしょうか?
ここでは、AWS監視サービスを利用した方法についてご紹介します。
「Amazon CloudWatch」を利用したシステム監視
システム監視では主に「
Amazon CloudWatch
」を利用します。
Amazon CloudWatch は、AWSのリソースとアプリケーションを監視するサービスです。
システムのパフォーマンスをリアルタイムで追跡し、運用状況を可視化できます。
また、アラーム設定やダッシュボードでの確認も可能です。
Amazon CloudWatch の機能
| できること | 詳細 |
|---|---|
| メトリクス収集の実施 | AWSで提供されている様々なリソース(Amazon EC2、Amazon RDS など)からメトリクス※1 を収集 ⇒ リソース利用状況やパフォーマンス監視が可能 |
| アラーム設定・通知 | 特定のメトリクスが設定したしきい値を超えた場合に、メールやSMSで通知※2 ⇒ 障害の検知が可能 |
| ログ情報の収集 | アプリケーションやAWSリソースに関するログを収集 ⇒ アラーム設定機能などを使えば、ログ情報をもとにした通知が可能 |
| ダッシュボード表示 | 複数のメトリクスをダッシュボードで表示 ⇒ システム全体の健康状態を一画面で確認することが可能 |
※1 メトリクス:CPU使用率、メモリ使用率、ディスク使用容量 など
※2 SMS通知:Amazon SNS を利用
「AWS Healtch Dashboard」を利用したサービス監視
サービス監視では主に「
AWS Healtch Dashboard
」を利用します。
AWS Health Dashboard は、AWSサービスの稼働状況やイベント情報を提供するダッシュボードです。
AWSサービス全体の健全性をリアルタイムで把握し、システム運用における潜在的な影響を最小限に抑えることができます。
AWS Healtch Dashboard でできること
| できること | 詳細 |
|---|---|
| サービスステータスの確認 | AWSサービスの以下情報などを提供 ・現在のステータス ・過去のイベント情報 ・今後実施が予定されているメンテナンス情報 ⇒ サービスの稼働状況を常に把握することで、問題発生時に迅速な対応が可能 |
| 通知 | サービスに影響を及ぼす可能性があるイベントが発生した場合に、メールやSMSで通知※1 ⇒ 異常発生時に迅速な対応が可能 |
| 詳細レポートの提供 | サービスのパフォーマンスや稼働状況に関する詳細なレポートを提供 ⇒ 運用の改善点の洗い出しや予防措置が可能能 |
※1 SMS通知:Amazon SNS を利用
上記2つのサービスを活用すれば、システムとサービスの健全性を維持し、AWS環境全体の安定性と信頼性を高めることができます。
AWS監視の検討例
AWSに必要な監視項目や監視サービスが分かったところで、AWS監視について検討してみましょう。
通常は「AWS監視の4分類」をそれぞれ検討すべきですが、ここでは「システム監視」だけピックアップして見ていきます。
まずは、監視要件や現在の課題を書き出します。
システム監視要件
・24時間365日アクセスされる可能性があるシステムのため、システム障害が発生したタイミングでの通知/復旧が必要
・監視対象のAWSのリソースは「Amazon EC2」と「Amazon RDS」
・チェック頻度は平日は「毎日」
現在の課題
・平日昼間は作業対応者がいるが、平日夜間や休日は作業対応者が不在
・障害からの復旧手順がない(オンプレミス版しかない)
監視要件や課題が分かったところで、監視内容を整理・検討していきます。
この時、
・「定期的なチェック」だけなく「問題発生時の対応」についても検討する
・「いつ」「誰が」「何を」「どのように」実施するかを書き出す
と良いでしょう。
AWS監視の検討例
| 検討事項 | いつ 監視タイミング |
誰が 運用体制 |
何を 実施対象 |
どのように 実施方法 |
|---|---|---|---|---|
| 定期的な チェック |
平日AM9:00 /メール受信タイミング |
システム管理チーム | <Amazon EC2> CPU使用率、メモリ使用率、ディスク容量、 プロセス <Amazon RDS> CPU使用率、メモリ使用率、ディスク容量 |
Amazon CloudWatch のダッシュボード /メール |
| 問題発生時の検知・通知・対応 | リアルタイム /メール受信タイミング |
<平日昼間> システム管理チーム <平日夜間/休日> ※現在不在 |
障害が発生したリソース | ※オンプレミス版しか手順がないため、今後検討の必要あり |
このように整理していくと、追加で検討すべき箇所が明らかになり、システム移行時のリスクを軽減することができます。
この例にある運用体制に関しては、「シフト制の導入」「オンコール体制の確立」「運用のアウトソーシング」などを検討すると良いかもしれません。
また、リソース監視では「メンテナンスの実施」が必要なこともあります。
月1回はシステム停止時間を設けて、そのタイミングでメンテナンスを実施するなどの検討をすると良いでしょう。
さいごに
AWSの監視は「AWSサービス」に関する監視も必要となるため、オンプレミスの監視を踏襲するだけでは対応できない領域が発生します。
「オンプレミスで問題なく監視できていたから大丈夫」と思わず、ぜひ一度AWSの監視について検討していただければと思います。
また、本コラムではAWS監視サービスを使った監視についてお伝えしましたが、AWS監視サービスだけでは対応できない要件もあります。
「オンプレミスとAWSと同じ仕組みで監視したい」「AWSサービスの稼働状況をグラフやマップで表示したい」などの要件があれば、アシストでは、
・オープンソースの統合監視ツール「
Zabbix
」
・国内トップシェアを誇る統合システム運用管理ソフトウェア「
JP1
」
を活用した監視をご提案しています。
もしAWSの監視にお困りであれば、ぜひお気軽にご相談ください。
本コラムが皆様のクラウド監視に関する課題解決の一助となれば幸いです。
参考
|
|
[ 資料 ] AWSに統合監視基盤を構築するメリットとFAQ
|
|
|
[ セミナー ] 初心者必見!~ AWS監視の基本とZabbix活用術 ~
|
本ページの内容やアシスト西日本について何かございましたら、お気軽にお問い合わせください。










