使用Python监控VPS云服务器集群：Prometheus+Grafana可视化搭建

管理VPS 云服务器集群时，实时监控是保障业务稳定的关键。Python作为灵活的脚本语言，搭配Prometheus（开源监控告警工具）与Grafana（数据可视化平台），能快速搭建一套覆盖CPU、内存、磁盘等核心指标的监控系统。本文将从需求分析到最终可视化，手把手教你完成搭建。

使用Python监控VPS云服务器集群：Prometheus+Grafana可视化搭建

为什么需要VPS云服务器集群监控？

数字化业务中，VPS云服务器集群常承载网站、API服务、数据处理等核心应用。若集群出现CPU满载、内存泄漏或磁盘IO阻塞，轻则导致用户访问延迟，重则引发服务宕机。传统人工巡检效率低、响应慢，而自动化监控能实时抓取关键指标（如CPU使用率超80%、内存剩余不足1GB），通过阈值告警提前发现隐患，为运维争取处理时间。

搭建前的必要准备

要完成本次搭建，需确保以下环境就绪：

已部署至少2台VPS云服务器组成的集群（本文以Ubuntu 20.04系统为例）

每台服务器安装Python 3.6+环境（可通过`python3 --version`检查）

安装Prometheus（用于数据收集与存储）和Grafana（用于数据可视化）

安装命令参考（Ubuntu系统）：


sudo apt update && sudo apt install -y prometheus grafana

用Python采集服务器指标

Python的`psutil`库能轻松获取系统级指标，搭配`prometheus-client`库可将数据暴露给Prometheus。以下是核心脚本示例：


import psutil
from prometheus_client import start_http_server, Gauge

定义Prometheus指标：CPU使用率（百分比）、内存使用率（百分比）

cpu_gauge = Gauge('vps_cpu_usage', 'CPU usage percentage of VPS')
mem_gauge = Gauge('vps_mem_usage', 'Memory usage percentage of VPS')

def collect_metrics():
    # 采集CPU使用率（间隔1秒避免瞬时值波动）
    cpu_usage = psutil.cpu_percent(interval=1)
    cpu_gauge.set(cpu_usage)

    # 采集内存使用率（总内存中已用比例）
    mem_usage = psutil.virtual_memory().percent
    mem_gauge.set(mem_usage)

if __name__ == '__main__':
    # 启动HTTP服务，供Prometheus拉取数据（端口8000）
    start_http_server(8000)
    while True:
        collect_metrics()

保存脚本为`vps_monitor.py`，运行命令：


python3 vps_monitor.py

此时访问`http://服务器IP:8000`，应能看到类似`vps_cpu_usage 23.5`的指标数据。

配置Prometheus抓取数据

Prometheus通过`prometheus.yml`配置数据抓取任务。编辑该文件（默认路径`/etc/prometheus/prometheus.yml`），在`scrape_configs`部分添加：


scrape_configs:
  - job_name: 'vps_cluster_monitor'  # 任务名称
    static_configs:
      - targets: ['192.168.1.10:8000', '192.168.1.11:8000']  # 替换为集群中各服务器的IP:8000

保存后重启Prometheus服务：


sudo systemctl restart prometheus

访问`http://服务器IP:9090`进入Prometheus控制台，输入`vps_cpu_usage`应能查看到实时数据。

Grafana可视化与告警设置

1. 登录Grafana（默认地址`http://服务器IP:3000`，初始账号密码`admin/admin`）；
2. 配置数据源：进入`Configuration > Data Sources > Add data source`，选择Prometheus，URL填写`http://localhost:9090`，点击`Save & Test`确认连接；
3. 创建仪表盘：点击`+ > Dashboard > Add new panel`，在`Metrics`标签页选择`vps_cpu_usage`和`vps_mem_usage`，调整图表类型（如折线图）、时间范围（如最近24小时）；
4. 设置告警（可选）：在面板编辑页点击`Alert > Create alert`，设置触发条件（如CPU使用率>90%持续5分钟），选择邮件/钉钉等通知渠道。

运维经验：避免监控失效的3个细节

实际部署中，我们曾遇到监控数据中断的问题，总结3个关键细节：
- 端口开放：确保服务器防火墙开放8000（Python脚本）、9090（Prometheus）、3000（Grafana）端口；
- 脚本守护：使用`systemd`或`supervisor`管理`vps_monitor.py`，避免进程意外退出；
- 指标校准：定期检查`psutil`采集值与服务器实际负载（如`top`命令）是否一致，防止因系统权限问题导致数据偏差。

通过这套方案，你可以低成本实现VPS云服务器集群的可视化监控，无论是电商大促期间的流量洪峰，还是凌晨的后台任务高峰，都能通过直观的图表快速定位问题节点，为业务稳定运行保驾护航。

使用Python监控VPS云服务器集群：Prometheus+Grafana可视化搭建

为什么需要VPS云服务器集群监控？

搭建前的必要准备

用Python采集服务器指标

定义Prometheus指标：CPU使用率（百分比）、内存使用率（百分比）

配置Prometheus抓取数据

Grafana可视化与告警设置

运维经验：避免监控失效的3个细节

相关文章

相关标签

最热文章

最新文章