Prometheus: 介绍

Prometheus 的工作原理

👋 欢迎来到 Stackhero 文档！

Stackhero 提供即用型 Prometheus 云解决方案，具有多种优势，包括：

包含 Alert Manager，可发送警报到 Slack、Mattermost、PagerDuty 等。

专用电子邮件服务器发送无限制电子邮件警报。

Blackbox 用于探测 HTTP、ICMP、TCP 等。

使用在线配置文件编辑器进行简单配置。

只需点击即可轻松更新。

由专用私有 VM提供的最佳性能和强大安全性。

节省时间并简化生活：只需5 分钟即可试用 Stackhero 的 Prometheus 云托管解决方案！

什么是 Prometheus

Prometheus 是一个高度适应性和可靠的监控系统，旨在增强各种基础设施的性能和可靠性。它可以轻松集成到不同的环境中，包括物理服务器、虚拟机和网络硬件。Prometheus 从预定义的目标收集和处理指标，能够根据特定条件生成警报，以便您了解系统状态。

在您的 Stackhero Prometheus 实例中包含的 Alert Manager 便于设置通知警报。这些警报可以配置为与广泛使用的通信工具一起工作，如电子邮件、Slack、PagerDuty、OpsGenie 等。当与 Grafana 集成时，Prometheus 演变为一个全面的监控套件，提供交互式仪表板以有效地可视化和分析指标。

Stackhero for Prometheus 概览

Prometheus 服务概览

Prometheus 通过基本和补充组件提供监控功能。以下是关键元素：

Prometheus Server：
- 通过 HTTP 定期从指定的 targets（导出器）收集指标。
- 将这些指标存储在其内置的时间序列数据库中。
- 评估警报规则以根据阈值生成通知。
Alert Manager：
- 管理由 Prometheus 生成的警报。
- 聚合、去重并将这些警报转发到您首选的通信渠道。
Blackbox Exporter：
- 使用 HTTP(S)、DNS、TCP 和 ICMP 等协议测试端点的可用性和性能。
Node Exporter：
- 为 Linux 服务器提供硬件和操作系统级别的指标给 Prometheus。
Grafana：
- 一个补充 Prometheus 的可视化平台，能够创建动态、可定制的仪表板以进行详细的数据分析。

配置 Prometheus、Alert Manager 和 Blackbox

您可以使用 YAML 配置文件管理 Prometheus、Alert Manager 和 Blackbox 的配置。这些文件可以直接从您的 Stackhero 仪表板访问和编辑。更改后，它们会自动应用，确保配置过程顺畅，无需重启服务。

如果配置文件中存在错误，则更改将不会应用。要进行故障排除，您可以查看 Stackhero 仪表板上 Prometheus 服务的“日志”部分中的错误日志。

Prometheus 配置的备份

每次您修改配置文件时，都会自动创建备份并存储在指定的备份目录中。系统保留最近的五个备份或过去 14 天内创建的备份，并自动删除较旧的条目。

您可以通过以下 URL 访问这些备份：https://<yourServiceDomain>/configurations/files/backups/。

删除 Prometheus 中的数据

如果您需要删除 Prometheus 中记录的特定时间序列数据，可以使用管理 API。例如，要删除与名为 oldJob 的作业相关的数据，您可以使用以下命令：

curl -u admin -X POST -g 'https://<yourServiceDomain>/api/v1/admin/tsdb/delete_series?match[]={job="oldJob"}'

警告一旦数据被删除，将无法恢复。确保您有完整的备份，并在执行此类操作时谨慎行事。

有关更多信息，请参阅 Prometheus 官方文档。