智能阈值

场景概述

时序指标告警阈值智能推荐

VeAIOps 智能阈值系统通过机器学习和时序数据分析技术，自动为监控指标推荐最优的告警阈值。该系统能够自适应不同业务场景，解决传统静态阈值配置困难、误报漏报率高等问题，并已适配火山引擎、阿里云、Zabbix等监控平台，显著提升运维效率和告警准确性。

设计模式

智能算法引擎

多维度时序分析

周期性检测：自动识别数据的周期模式，基于相关性分析检测数据的周期性特征
异常检测：使用自适应聚类算法识别数据中的异常点和离群值
稳定性检测：通过计算数据的稳定性指标，从而更好的推荐阈值

自适应阈值计算

可配置窗口：根据用户设置的检测窗口推荐不同的阈值
多时间段支持：支持将一天划分为多个时间段，分别计算差异化阈值
上下界分离：独立计算上界和下界阈值，支持单向或双向告警

指标模板管理

标准化指标定义

预定义指标类型：提供资源使用率、错误率、成功率、延迟等常用指标模板
阈值边界控制：设置合理的默认上下界，避免算法推荐过于敏感的阈值
业务特征适配：根据不同业务场景的特征，自动调整阈值计算策略

模板化配置管理

模板复用：支持创建和管理指标模板，实现相同类型指标的快速配置
版本控制：支持模板版本管理，记录配置变更历史
批量应用：支持批量应用模板到多个监控实例，提高配置效率

智能任务管理

任务生命周期管理

任务状态跟踪：实时监控任务执行状态，包括等待中、运行中、成功、失败等状态
版本控制：支持任务版本管理，记录每次执行的结果和参数变更
结果可视化：提供直观的阈值计算结果展示，包括时序图和阈值对比

告警规则集成

一键创建告警：支持基于智能阈值结果快速创建告警规则
多平台同步：支持将告警规则同步到火山引擎、阿里云、Zabbix等监控平台

场景示例

场景描述：监控云服务器实例的CPU、内存、磁盘等基础资源使用率，及时发现资源瓶颈和异常

场景特点：

自动识别业务高峰时段
为不同实例规格推荐个性化阈值
识别资源使用的周期性模式，避免固定阈值导致的误报
新业务上线时自动适应资源使用特征

典型指标：

CPU利用率
内存利用率
磁盘利用率

::

::tab{label="GPU加速计算监控"}
::card
**场景描述**：监控GPU云服务器的GPU利用率、显存使用率等关键指标，保障AI训练和推理任务稳定运行

**场景特点**：
- 为训练任务和推理任务推荐不同阈值
- 自动识别计算密集型和非密集型任务模式
- 多卡并行训练时考虑负载均衡因素
- 显存使用异常时及时告警

**典型指标**：
- GPU利用率
- GPU显存使用率
- GPU温度
::
::

::tab{label="负载均衡监控"}
::card
**场景描述**：监控负载均衡实例的QPS、响应时间、后端服务器健康状态等关键性能指标

**场景特点**：
- 自动识别业务高峰期的流量模式
- 为不同业务类型推荐个性化QPS阈值
- 识别响应时间的周期性变化
- 后端服务器异常时快速告警

**典型指标**：
- QPS
- 响应时间
- 后端异常服务器数
::
::

::tab{label="Redis缓存监控"}
::card
**场景描述**：监控云数据库Redis实例的缓存命中率、内存使用率、连接数等关键指标，保障缓存服务的高可用性和性能

**场景特点**：
- 缓存命中率是关键指标，需要敏感的阈值设置
- 内存使用量直接影响缓存效果
- 存在访问热点和冷数据的明显差异
- 连接数异常可能导致服务不可用

**典型监控指标**：
- 缓存命中率
- 内存使用率
- 平均响应时间
::
::

Edit this pageorReport an issue

规则管理

介绍如何创建和管理 Oncall 内容识别规则

监控数据源管理

介绍如何配置和管理数据源，将第三方监控系统的数据统一接入平台。