Prometheus: 介绍
Prometheus 的工作原理
👋 欢迎来到 Stackhero 文档!
Stackhero 提供即用型 Prometheus 云 解决方案,具有多种优势,包括:
- 包含
Alert Manager,可发送警报到Slack、Mattermost、PagerDuty等。- 专用邮件服务器发送无限制邮件警报。
Blackbox用于探测HTTP、ICMP、TCP等。- 使用在线配置文件编辑器进行轻松配置。
- 只需点击即可轻松更新。
- 由专用私有 VM提供的最佳性能和强大安全性。
节省时间,简化生活:只需 5 分钟即可试用 Stackhero 的 Prometheus 云托管 解决方案!
什么是 Prometheus
Prometheus 是一个高度适应性和可靠的监控系统,旨在提升各种基础设施的性能和可靠性。它可以轻松集成到不同的环境中,包括物理服务器、虚拟机和网络硬件。Prometheus 从预定义的目标收集和处理指标,能够根据特定条件生成警报,以便您了解系统状态。
在您的 Stackhero Prometheus 实例中包含的 Alert Manager,可以方便地设置通知警报。这些警报可以配置为与广泛使用的通信工具一起工作,如电子邮件、Slack、PagerDuty、OpsGenie 等。当与 Grafana 集成时,Prometheus 变成一个全面的监控套件,提供交互式仪表板以有效地进行指标可视化和分析。
Stackhero for Prometheus 概览
Prometheus 服务概览
Prometheus 通过基本和补充组件提供监控功能。以下是关键元素:
-
Prometheus Server:
- 通过 HTTP 定期从指定的
targets(导出器)收集指标。 - 将这些指标存储在其内置的时间序列数据库中。
- 评估警报规则以根据阈值生成通知。
- 通过 HTTP 定期从指定的
-
Alert Manager:
- 管理由 Prometheus 生成的警报。
- 聚合、去重并将这些警报转发到您首选的通信渠道。
-
Blackbox Exporter:
- 使用 HTTP(S)、DNS、TCP 和 ICMP 等协议测试端点的可用性和性能。
-
Node Exporter:
- 为 Linux 服务器提供硬件和操作系统级别的指标给 Prometheus。
-
Grafana:
- 一个补充 Prometheus 的可视化平台,能够创建动态、可定制的仪表板以进行详细的数据分析。
配置 Prometheus、Alert Manager 和 Blackbox
您可以使用 YAML 配置文件管理 Prometheus、Alert Manager 和 Blackbox 的配置。这些文件可以直接从您的 Stackhero 仪表板访问和编辑。更改后会自动应用,确保配置过程顺畅,无需重启服务。
如果配置文件中存在错误,更改将不会被应用。要进行故障排除,您可以查看 Stackhero 仪表板上 Prometheus 服务的“日志”部分中的错误日志。
Prometheus 配置的备份
每次修改配置文件时,都会自动创建备份并存储在指定的备份目录中。系统保留最近的五个备份或过去 14 天内创建的备份,自动删除较旧的条目。
您可以通过以下 URL 访问这些备份:https://<yourServiceDomain>/configurations/files/backups/。
删除 Prometheus 中的数据
如果需要删除 Prometheus 中记录的特定时间序列数据,可以使用管理 API。例如,要删除与名为 oldJob 的作业相关的数据,可以使用以下命令:
curl -u admin -X POST -g 'https://<yourServiceDomain>/api/v1/admin/tsdb/delete_series?match[]={job="oldJob"}'
警告 一旦数据被删除,将无法恢复。确保您有完整的备份,并在执行此类操作时谨慎行事。
有关更多信息,请参阅 Prometheus 官方文档。