智能阈值

智能阈值配置

详细介绍如何通过 VeAIOps 前端界面使用智能阈值功能

本指南将详细介绍如何通过 VeAIOps 前端界面使用智能阈值功能,包括监控接入 、指标模板管理、任务配置、结果查看和创建告警规则等完整操作流程。

功能入口

智能阈值功能位于 VeAIOps 主界面的 "智能阈值" 模块中,包含以下四个主要页面:

  • 指标模板管理:管理阈值计算的指标模板,包括查看/编辑已有指标模板,创建新的模板等。
  • 智能阈值任务配置:创建、管理和监控智能阈值计算任务,支持任务版本管理、状态跟踪和结果查看
  • 事件订阅:新建和管理智能阈值的订阅策略
  • 推送历史: 查看智能阈值Agent的告警推送历史和详情

监控接入

智能阈值功能的监控数据源配置与平台的通用数据源管理保持一致。详细的连接管理和数据源配置说明,请参考 监控数据源管理 文档。

在智能阈值模块中,主要使用以下数据源类型:

  • 火山引擎云监控:支持ECS、GPU、ELB、RDS等云产品的监控数据
  • 阿里云云监控:支持阿里云ECS、SLB、RDS、Redis等服务的监控数据
  • Zabbix监控系统:支持传统IT基础设施的监控数据

配置完成后,即可在智能阈值任务中直接选择对应的数据源进行阈值计算。

指标模板管理

指标模板的作用

指标模板是智能阈值计算的基础,用于定义待进行智能阈值任务的时序数据特征,帮助智能阈值算法更好地进行阈值推荐。通过预设指标的数值范围和默认阈值边界,可以有效避免算法推荐过于敏感的阈值而导致的误报问题。

核心作用

  • 数据特征定义:指定时序指标的最小值、最大值等基本特征
  • 阈值边界控制:设置默认上下界,防止推荐阈值过于敏感,避免因数据波动导致的频繁告警

阈值边界控制典型场景示例: 假设某服务CPU利用率长期稳定在5%左右,若没有阈值边界控制,智能算法可能推荐10%作为阈值上界。但这会导致任何新workload都触发告警。通过设置默认阈值上界为70%,系统会忽略所有70%以下的推荐值,使用70%作为实际阈值,从而减少误报。

模板管理操作

进入模板管理

  1. 导航到 智能阈值 > 指标模板管理
  2. 查看现有模板列表,包括模板名称、类型、参数等信息

模板操作

  • 查看详情:在指标模板管理页面查看完整配置信息
  • 创建新模板:点击"新建模板"按钮创建新的指标模板
  • 编辑模板:修改模板的参数配置和阈值边界
  • 删除模板:删除不再使用的模板(需确认无关联任务)

模板配置项

当前版本阈值方向需要在智能阈值任务配置页面进行配置,暂未集成至指标模板管理页面。
配置项必填说明示例值
模板名称模板的唯一标识名称生产环境CPU使用率模板
指标类型选择预定义的指标类型资源使用率百分比
阈值方向推荐阈值方向(上界、下界或双向)上界
指标最小值指标的理论最小值0
指标最大值指标的理论最大值100
默认阈值上界推荐阈值上界的最小值70
默认阈值下界推荐阈值下界的最大值NULL

只有当阈值方向为上界双向时,才需要配置默认阈值上界; 只有当阈值方向为下界双向时,才需要配置默认阈值下界。
默认阈值方向和边界设置建议
  • CPU使用率:阈值方向为上界,默认阈值上界建议设置为70-80%,无需设置默认阈值下界
  • 内存使用率:阈值方向为上界,默认阈值上界建议设置为80-85%,无需设置默认阈值下界
  • 错误率:阈值方向为上界,默认阈值上界设置为0.1-0.5%,无需设置默认阈值下界
  • 成功率:阈值方向为下界,默认阈值下界设置为95-98%,无需设置默认阈值上界
  • 访问QPS:阈值方向为双向,默认阈值下界和上界都根据业务属性判断

预定义指标类型

系统提供了常用的指标类型模板,可直接选择使用

指标类型适用场景典型数值范围推荐阈值方向推荐默认边界设置
资源使用率百分比CPU、内存、磁盘使用率0% - 100%上界上界70%
错误率百分比接口错误率、失败率0% - 100%上界上界5%
成功率百分比服务可用性、成功率0% - 100%下界下界95%
延迟毫秒响应时间、处理延迟0ms - 无上限双向根据业务SLA设定
吞吐率QPS、TPS等0 - 无上限双向根据业务容量设定
错误计数异常次数、失败次数0 - 无上限上界根据业务容忍度设定

智能阈值任务配置

智能阈值任务配置包含两个主要功能:创建新的智能阈值任务管理已有的智能阈值任务。通过这两个模块,用户可以完成从任务创建到结果应用的完整流程。

创建新的智能阈值任务

创建任务需要配置基本信息、选择数据源和指标模板,以及设置算法参数。

任务配置参数

配置项必填说明示例值
任务名称任务的唯一标识名称字节云生产环境GPU使用率
指标模板选择已创建的指标模板资源使用率百分比模板
监控数据源类型选择数据源类型Zabbix阿里云火山引擎
监控数据源选择具体的数据源配置火山云监控演示
项目-用户自定义项目名称AI训练平台
自动更新阈值-是否启用每日自动更新开启后每天自动重新计算阈值

算法参数配置

滑动窗口(n)会影响阈值计算结果和告警规则的配置,其含义为告警规则中连续n个点超阈值才告警
  • 设置小窗口时,推荐的阈值会更宽松,但是能更及时的发现问题,因为小窗口能更快的响应变化。
  • 设置大窗口时,推荐的阈值会更严格,但是能更准确的判断问题是否持续存在,因为大窗口能更平滑的处理异常值。
参数名称默认值说明调整建议
滑动窗口3连续数据点的最小窗口告警规则中连续n个点超阈值才告警
阈值方向双向推荐阈值的方向用于控制阈值推荐和创建规则的方向

指标详情配置: 用户可以根据业务需求修改指标模板中的默认边界值:

配置项说明作用
默认上界推荐阈值上界的最小值当算法推荐值过小时,使用此值保证阈值合理性
默认下界推荐阈值下界的最大值当算法推荐值过大时,使用此值保证阈值合理性

管理已有的智能阈值任务

任务创建完成后,可以在任务管理页面进行全生命周期管理。

主要功能包括:

  • 查看配置信息:查看任务的指标模板详情、算法参数设置和项目配置信息
  • 查看任务状态:跟踪任务执行状态(等待中、运行中、成功、失败),查看执行历史记录和版本对比分析
  • 重新执行:支持重新执行任务(数据更新、参数调整、失败重试等场景),系统会创建新版本并跟踪执行进度
  • 查看结果:支持独立查看每个实例的智能阈值任务结果,包括分时段阈值特征、时序图查看等
  • 创建告警规则:将阈值转化为告警规则,并同步到火山引擎、阿里云CMS、Zabbix等监控平台。

事件订阅

您可以在智能阈值的事件订阅模块,配置告警规则的订阅方式和接收对象。 您可以点击新建订阅按钮以创建新的事件订阅规则,也可以在已有的订阅规则列表中进行编辑或删除操作。

配置项说明作用
订阅名称事件订阅的唯一标识名称用于识别和管理不同的事件订阅规则
智能体订阅消息的智能体在智能阈值功能场景下,默认为智能阈值Agent
生效时间订阅规则生效的时间范围可以设置指定时间范围
关注项目订阅规则关注的项目不选择表示关注全部项目
订阅的事件级别订阅规则关注的事件级别不选择表示关注全部事件级别
消息卡片通知策略订阅规则的消息卡片通知策略当需要通过机器人卡片通知事件时,需要配置消息卡片通知策略。请参考通知策略 来配置消息卡片通知策略。如果不需要通过机器人卡片通知事件,则可以不配置此项。
WEBHOOK 投递事件订阅规则的WEBHOOK 投递事件当需要通过WEBHOOK 通知事件时,需要配置WEBHOOK 投递事件。您可以打开开启 WEBHOOK 投递开关,并配置WEBHOOK地址作为投递目标。
WEBHOOK 配置提示
  • 开启 WEBHOOK 投递后,系统会将告警事件以 POST 请求的方式发送到配置的 WEBHOOK 地址。
  • 您可以在 WEBHOOK 投递事件中配置扩展请求头,用于自定义请求头信息,例如认证信息、内容类型等。
  • 您需要确保 WEBHOOK 地址能够在 VeAIOps 部署所在集群的网络环境中可正常访问,否则系统将无法发送告警事件到该地址。

历史事件

您可以在历史事件页面查看智能阈值任务产生的历史告警事件记录。

您可以通过事件级别显示状态筛选历史事件记录,并通过查看历史事件的 显示状态状态来跟踪和判断告警事件的发送情况。详细的状态说明请参考:历史事件中的说明。