智能阈值

场景概述

时序指标告警阈值智能推荐

VeAIOps 智能阈值系统通过机器学习和时序数据分析技术,自动为监控指标推荐最优的告警阈值。该系统能够自适应不同业务场景,解决传统静态阈值配置困难、误报漏报率高等问题,并已适配火山引擎、阿里云、Zabbix等监控平台,显著提升运维效率和告警准确性。

设计模式

智能算法引擎

多维度时序分析

  • 周期性检测:自动识别数据的周期模式,基于相关性分析检测数据的周期性特征
  • 异常检测:使用自适应聚类算法识别数据中的异常点和离群值
  • 稳定性检测:通过计算数据的稳定性指标,从而更好的推荐阈值

自适应阈值计算

  • 可配置窗口:根据用户设置的检测窗口推荐不同的阈值
  • 多时间段支持:支持将一天划分为多个时间段,分别计算差异化阈值
  • 上下界分离:独立计算上界和下界阈值,支持单向或双向告警

指标模板管理

标准化指标定义

  • 预定义指标类型:提供资源使用率、错误率、成功率、延迟等常用指标模板
  • 阈值边界控制:设置合理的默认上下界,避免算法推荐过于敏感的阈值
  • 业务特征适配:根据不同业务场景的特征,自动调整阈值计算策略

模板化配置管理

  • 模板复用:支持创建和管理指标模板,实现相同类型指标的快速配置
  • 版本控制:支持模板版本管理,记录配置变更历史
  • 批量应用:支持批量应用模板到多个监控实例,提高配置效率

智能任务管理

任务生命周期管理

  • 任务状态跟踪:实时监控任务执行状态,包括等待中、运行中、成功、失败等状态
  • 版本控制:支持任务版本管理,记录每次执行的结果和参数变更
  • 结果可视化:提供直观的阈值计算结果展示,包括时序图和阈值对比

告警规则集成

  • 一键创建告警:支持基于智能阈值结果快速创建告警规则
  • 多平台同步:支持将告警规则同步到火山引擎、阿里云、Zabbix等监控平台

场景示例

场景描述:监控云服务器实例的CPU、内存、磁盘等基础资源使用率,及时发现资源瓶颈和异常

场景特点

  • 自动识别业务高峰时段
  • 为不同实例规格推荐个性化阈值
  • 识别资源使用的周期性模式,避免固定阈值导致的误报
  • 新业务上线时自动适应资源使用特征

典型指标

  • CPU利用率
  • 内存利用率
  • 磁盘利用率