智能阈值
场景概述
时序指标告警阈值智能推荐
VeAIOps 智能阈值系统通过机器学习和时序数据分析技术,自动为监控指标推荐最优的告警阈值。该系统能够自适应不同业务场景,解决传统静态阈值配置困难、误报漏报率高等问题,并已适配火山引擎、阿里云、Zabbix等监控平台,显著提升运维效率和告警准确性。
设计模式
智能算法引擎
多维度时序分析
- 周期性检测:自动识别数据的周期模式,基于相关性分析检测数据的周期性特征
- 异常检测:使用自适应聚类算法识别数据中的异常点和离群值
- 稳定性检测:通过计算数据的稳定性指标,从而更好的推荐阈值
自适应阈值计算
- 可配置窗口:根据用户设置的检测窗口推荐不同的阈值
- 多时间段支持:支持将一天划分为多个时间段,分别计算差异化阈值
- 上下界分离:独立计算上界和下界阈值,支持单向或双向告警
指标模板管理
标准化指标定义
- 预定义指标类型:提供资源使用率、错误率、成功率、延迟等常用指标模板
- 阈值边界控制:设置合理的默认上下界,避免算法推荐过于敏感的阈值
- 业务特征适配:根据不同业务场景的特征,自动调整阈值计算策略
模板化配置管理
- 模板复用:支持创建和管理指标模板,实现相同类型指标的快速配置
- 版本控制:支持模板版本管理,记录配置变更历史
- 批量应用:支持批量应用模板到多个监控实例,提高配置效率
智能任务管理
任务生命周期管理
- 任务状态跟踪:实时监控任务执行状态,包括等待中、运行中、成功、失败等状态
- 版本控制:支持任务版本管理,记录每次执行的结果和参数变更
- 结果可视化:提供直观的阈值计算结果展示,包括时序图和阈值对比
告警规则集成
- 一键创建告警:支持基于智能阈值结果快速创建告警规则
- 多平台同步:支持将告警规则同步到火山引擎、阿里云、Zabbix等监控平台
场景示例
场景描述:监控云服务器实例的CPU、内存、磁盘等基础资源使用率,及时发现资源瓶颈和异常
场景特点:
- 自动识别业务高峰时段
- 为不同实例规格推荐个性化阈值
- 识别资源使用的周期性模式,避免固定阈值导致的误报
- 新业务上线时自动适应资源使用特征
典型指标:
- CPU利用率
- 内存利用率
- 磁盘利用率
::
::tab{label="GPU加速计算监控"}
::card
**场景描述**:监控GPU云服务器的GPU利用率、显存使用率等关键指标,保障AI训练和推理任务稳定运行
**场景特点**:
- 为训练任务和推理任务推荐不同阈值
- 自动识别计算密集型和非密集型任务模式
- 多卡并行训练时考虑负载均衡因素
- 显存使用异常时及时告警
**典型指标**:
- GPU利用率
- GPU显存使用率
- GPU温度
::
::
::tab{label="负载均衡监控"}
::card
**场景描述**:监控负载均衡实例的QPS、响应时间、后端服务器健康状态等关键性能指标
**场景特点**:
- 自动识别业务高峰期的流量模式
- 为不同业务类型推荐个性化QPS阈值
- 识别响应时间的周期性变化
- 后端服务器异常时快速告警
**典型指标**:
- QPS
- 响应时间
- 后端异常服务器数
::
::
::tab{label="Redis缓存监控"}
::card
**场景描述**:监控云数据库Redis实例的缓存命中率、内存使用率、连接数等关键指标,保障缓存服务的高可用性和性能
**场景特点**:
- 缓存命中率是关键指标,需要敏感的阈值设置
- 内存使用量直接影响缓存效果
- 存在访问热点和冷数据的明显差异
- 连接数异常可能导致服务不可用
**典型监控指标**:
- 缓存命中率
- 内存使用率
- 平均响应时间
::
::
::