私たちの監視対象インフラは グローバルPoP(Point of Presence)およびApp Gatewayです。詳しくはこちらの記事をご覧ください: https://support.safous.com/ja/kb/general-architecture
メソッドの概要
- Web test: シナリオベースのモニタリングで、エージェントが事前に定義された一連の HTTP リクエストを実行します。また、Webアプリケーションの機能テストにも利用いただけます。 収集されたデータは、監視ホストに返送され、監視アラートの設定に使用することができます。
- Active agent: パッシブエージェントとは対照的に、監視ホストは、ホストが更新間隔に達するたびにエージェントから監視データを要求します。 アクティブエージェントは、エージェントが更新間隔に達するたびにモニタリングデータをモニタリングホストに積極的に送信することで、逆に動作します。そのため、前処理を必要とせず、監視データをそのまま使って、ある閾値に基づく警告を設定することができます。
- Internal check: 簡単に言えば、これはセルフチェックです。モニタリングホストはエージェントに自分自身のモニタリングデータを収集するように要求し、それをモニタリングホストに送り返します。アクティブチェックと同様の方法で、モニタリングデータもすぐに利用できます。
- HTTP agent: エージェントは、監視データを含むHTMLウェブページをコンテンツとして、認可された監視ホストからのリクエストに応答する唯一の責任を負うように設定されています。 モニタリングデータをホストで使用する前に、返送されたページの前処理が必要です。
- External check: モニタリングホストは、カスタムパラメータをサポートするスクリプトを実行するようにエージェントに要求します。 エージェントはスクリプトの結果をモニタリングホストに返送します。アクティブチェックと同じように、モニタリングデータもすぐに利用することができます。
サービス側からは、エージェントベースシステムを用いてグローバルPoPを監視します。監視項目は以下の通りです:
Item | Description | Interval | Threshold | Method |
Affinity check | Monitor PoP availability | 1m | Response code is not 200 |
Web test |
システムリソース
Item | Description | Interval | Threshold | Method |
Load average | Monitor current edge load avg (1m, 5m, 15m) | 1m | > 1.5 CPU load avg | Active agent |
Memory usage | Monitor currently available edge memory in percentage |
1m | > 90% | Active agent |
Disk usage | Monitor currently used edge disk space in percentage |
1m | > 90% | Active agent |
Inodes usage | Monitor currently available edge disk inodes |
1m | < 10 inodes | Active agent |
エッジプロパティ
Item | Description | Interval | Threshold | Method |
Agent availability | Monitor agent availability | 1m | Response timeout = 0 | Internal |
Edge NATS | Monitor availability of edge nats function |
1m | Status code > 0 | Active agent |
Edge router | Monitor availability of edge router function |
1m | Status code > 0 | Active agent |
Edge watchtower | Monitor availability of edge watchtower function |
1m | Status code > 0 | Active agent |
一方、お客様側では、エージェントレス HTTP リクエストにより、App Gateway の監視を行います。監視項目は以下の通りです:
システムリソース
Item | Description | Interval | Threshold | Method |
CPU number | Total CPU on host | 1m | - | HTTP agent |
Free disk | Free space left on disk | 1m | 75% | HTTP agent |
Free memory | Free memory on host | 1m | - | HTTP agent |
Host health check | Monitor host availability | 1m | No health check data |
HTTP agent |
プロパティ
Item | Description | Interval | Threshold | Method |
SSL Cert. Validity | Check SSL certificate expiration |
1d | <1d | External check |
App Gateway Num. Check |
Number of active App Gateway |
1m | > #ordered | HTTP agent |
SSL Cert. Expiration (7d) |
Check SSL certificate expiration in 7 days |
1d | < 7d | External check |
App Gateway Health Check |
Monitor App Gateway availability |
1m | Response code is not 200 |
Web test |
Login Health Check |
Monitor login page availability |
1m | Response code is not 200 |
Web test |
User Num. Check |
Number of active users | 6h | > #ordered | HTTP agent |
License Expiration |
Check license status in 90 days |
12h | < 90d | HTTP agent |
世界各地から多くのデータが集まるため、各地域に監視プロキシを設置しています。 これにより、レイテンシーを最小化し、収集した負荷をより柔軟に前処理することができます。
Safous Internal TeamはPoPsとApp Gatewayのアラートを受信し、お客様PICは登録されたPICテナントメールを通じて自身のApp Gatewayに関するアラートのみを受信します。