家里电脑跑着下载任务,或者公司服务器在处理数据,没人盯着万一出问题可就麻烦了。这时候,监控告警就成了“电子哨兵”,一旦系统异常,立马通知你。那监控告警到底该怎么设置?其实没那么复杂,一步步来就行。
明确你要监控什么
不是所有东西都需要告警。比如你关心的是CPU占用太高、内存快爆了,还是某个服务突然停了?常见的监控项包括:
- CPU使用率超过90%
- 内存剩余低于10%
- 硬盘空间不足5GB
- 特定进程(如nginx)停止运行
先想清楚自己最怕哪种情况,优先设这个。
用Windows自带工具也能搞定
如果你只是想监控个人电脑,不用装第三方软件。Windows的“性能监视器”就能设置基本告警。
打开方式:按 Win + R,输入 perfmon 回车,进入“性能监视器” → “数据收集器集” → “用户定义” → 右键新建。
选择“数据收集器集” → 勾选“创建数据日志”,下一步选“性能计数器”。点“添加”,找到\Processor(_Total)\% Processor Time,代表CPU总使用率。
设置采集间隔为15秒,然后在“警报”选项里勾选“当阈值超过”并填90,再指定触发时运行一个任务,比如弹窗或发邮件。
Linux下用Zabbix或Prometheus更灵活
如果是服务器环境,推荐用Zabbix或Prometheus这类专业工具。以Zabbix为例,先在服务端安装Agent,客户端配置连接地址。
登录Web界面,在“配置” → “主机”里添加你的机器IP。然后“创建监控项”,比如监控内存:
名称:可用内存
键值:vm.memory.size[available]
更新间隔:30s
接着去“触发器”里新建规则:
名称:内存不足警告
表达式:{HOST.IP}vm.memory.size[available]} < 1073741824
意思是当可用内存小于1GB时触发。再配置“动作”,选择发送通知到邮箱或企业微信。
告警别乱来,避免半夜被吵醒
设好了不等于完事。见过有人把CPU超过80%就发短信,结果每次视频渲染都收十几条,最后干脆关了告警。合理设置很重要。
可以加时间条件,比如“仅在工作时间触发”,或者设置持续几分钟才报警,避免瞬时波动误报。
测试一下,别等到真出事才发现没通
配置完别偷懒,主动制造一次异常。比如手动占满内存,看能不能收到通知。我之前设了个邮件告警,结果忘了开SMTP权限,等硬盘真满了也没动静,差点误事。
监控告警不是设完就高枕无忧,定期检查规则有没有失效,通知渠道是否还通,才是长久之计。