Prometheus: 介绍

Prometheus 的工作原理

👋 欢迎来到 Stackhero 文档!

Stackhero 提供即用型 Prometheus 云 解决方案,具有多种优势,包括:

  • 包含 Alert Manager,可发送警报到 SlackMattermostPagerDuty 等。
  • 专用电子邮件服务器发送无限制电子邮件警报
  • Blackbox 用于探测 HTTPICMPTCP 等。
  • 使用在线配置文件编辑器进行简单配置
  • 只需点击即可轻松更新
  • 专用私有 VM提供的最佳性能和强大安全性

节省时间简化生活:只需5 分钟即可试用 Stackhero 的 Prometheus 云托管 解决方案!

Prometheus 是一个高度适应性和可靠的监控系统,旨在增强各种基础设施的性能和可靠性。它可以轻松集成到不同的环境中,包括物理服务器、虚拟机和网络硬件。Prometheus 从预定义的目标收集和处理指标,能够根据特定条件生成警报,以便您了解系统状态。

在您的 Stackhero Prometheus 实例中包含的 Alert Manager 便于设置通知警报。这些警报可以配置为与广泛使用的通信工具一起工作,如电子邮件、Slack、PagerDuty、OpsGenie 等。当与 Grafana 集成时,Prometheus 演变为一个全面的监控套件,提供交互式仪表板以有效地可视化和分析指标。

Stackhero for Prometheus 概览Stackhero for Prometheus 概览

Prometheus 通过基本和补充组件提供监控功能。以下是关键元素:

  • Prometheus Server

    • 通过 HTTP 定期从指定的 targets(导出器)收集指标。
    • 将这些指标存储在其内置的时间序列数据库中。
    • 评估警报规则以根据阈值生成通知。
  • Alert Manager

    • 管理由 Prometheus 生成的警报。
    • 聚合、去重并将这些警报转发到您首选的通信渠道。
  • Blackbox Exporter

    • 使用 HTTP(S)、DNS、TCP 和 ICMP 等协议测试端点的可用性和性能。
  • Node Exporter

    • 为 Linux 服务器提供硬件和操作系统级别的指标给 Prometheus。
  • Grafana

    • 一个补充 Prometheus 的可视化平台,能够创建动态、可定制的仪表板以进行详细的数据分析。

您可以使用 YAML 配置文件管理 Prometheus、Alert Manager 和 Blackbox 的配置。这些文件可以直接从您的 Stackhero 仪表板访问和编辑。更改后,它们会自动应用,确保配置过程顺畅,无需重启服务。

如果配置文件中存在错误,则更改将不会应用。要进行故障排除,您可以查看 Stackhero 仪表板上 Prometheus 服务的“日志”部分中的错误日志。

每次您修改配置文件时,都会自动创建备份并存储在指定的备份目录中。系统保留最近的五个备份或过去 14 天内创建的备份,并自动删除较旧的条目。

您可以通过以下 URL 访问这些备份:https://<yourServiceDomain>/configurations/files/backups/

如果您需要删除 Prometheus 中记录的特定时间序列数据,可以使用管理 API。例如,要删除与名为 oldJob 的作业相关的数据,您可以使用以下命令:

curl -u admin -X POST -g 'https://<yourServiceDomain>/api/v1/admin/tsdb/delete_series?match[]={job="oldJob"}'

警告 一旦数据被删除,将无法恢复。确保您有完整的备份,并在执行此类操作时谨慎行事。

有关更多信息,请参阅 Prometheus 官方文档