Prometheus: 介紹

Prometheus 的運作方式

👋 歡迎來到 Stackhero 文件!

Stackhero 提供一個即用型的 Prometheus cloud 解決方案,帶來多項好處,包括:

  • 包含 Alert Manager,可發送警報至 SlackMattermostPagerDuty 等。
  • 專用電郵伺服器發送無限電郵警報
  • Blackbox 用於探測 HTTPICMPTCP 等。
  • 使用線上配置文件編輯器進行簡單配置
  • 只需點擊即可輕鬆更新
  • 專用私有 VM提供的最佳性能和強大安全性

節省時間簡化您的生活:只需5 分鐘即可嘗試 Stackhero 的 Prometheus cloud hosting 解決方案!

Prometheus 是一個高度適應性和可靠的監控系統,旨在提升各種基礎設施的性能和可靠性。它能夠輕鬆整合到不同的環境中,包括實體伺服器、虛擬機器和網絡硬件。Prometheus 從預定義的目標收集和處理指標,根據特定條件生成警報,讓您隨時了解系統狀態。

在您的 Stackhero Prometheus 實例中包含的 Alert Manager,可以輕鬆設置通知警報。這些警報可以配置為與常用的通信工具一起使用,如電子郵件、Slack、PagerDuty、OpsGenie 等。當與 Grafana 集成時,Prometheus 變成一個全面的監控套件,提供互動式儀表板以有效地可視化和分析指標。

Stackhero for Prometheus 的概覽Stackhero for Prometheus 的概覽

Prometheus 通過基本和補充組件提供監控功能。以下是關鍵元素:

  • Prometheus Server

    • 通過 HTTP 定期從指定的 targets(exporters)收集指標。
    • 將這些指標存儲在其內置的時間序列數據庫中。
    • 評估警報規則以根據閾值生成通知。
  • Alert Manager

    • 管理由 Prometheus 生成的警報。
    • 聚合、去重並將這些警報轉發到您首選的通信渠道。
  • Blackbox Exporter

    • 使用 HTTP(S)、DNS、TCP 和 ICMP 等協議測試端點的可用性和性能。
  • Node Exporter

    • 為 Linux 伺服器提供硬件和操作系統級別的指標給 Prometheus。
  • Grafana

    • 一個補充 Prometheus 的可視化平台,允許創建動態、可定制的儀表板以進行詳細的數據分析。

您可以使用 YAML 配置文件管理 Prometheus、Alert Manager 和 Blackbox 的配置。這些文件可以直接從您的 Stackhero 儀表板訪問和編輯。更改後會自動應用,確保配置過程順暢,無需重啟服務。

如果配置文件中存在錯誤,則不會應用更改。要進行故障排除,您可以查看 Stackhero 儀表板上 Prometheus 服務的 "logs" 部分中的錯誤日誌。

每次修改配置文件時,系統會自動創建備份並存儲在指定的備份目錄中。系統保留最近的五個備份或過去 14 天內創建的備份,並自動刪除較舊的條目。

您可以在以下 URL 訪問這些備份:https://<yourServiceDomain>/configurations/files/backups/

如果您需要刪除 Prometheus 中記錄的特定時間序列數據,可以使用管理 API。例如,要刪除與名為 oldJob 的工作相關的數據,您可以使用以下命令:

curl -u admin -X POST -g 'https://<yourServiceDomain>/api/v1/admin/tsdb/delete_series?match[]={job="oldJob"}'

警告 一旦數據被刪除,就無法恢復。確保您有完整的備份,並在執行此類操作時謹慎行事。

如需更多信息,請參閱 Prometheus 官方文檔