本指南将详细介绍如何通过 VeAIOps 前端界面使用智能阈值功能,包括监控接入 、指标模板管理、任务配置、结果查看和创建告警规则等完整操作流程。
智能阈值功能位于 VeAIOps 主界面的 "智能阈值" 模块中,包含以下四个主要页面:

智能阈值功能的监控数据源配置与平台的通用数据源管理保持一致。详细的连接管理和数据源配置说明,请参考 监控数据源管理 文档。
在智能阈值模块中,主要使用以下数据源类型:
配置完成后,即可在智能阈值任务中直接选择对应的数据源进行阈值计算。
指标模板是智能阈值计算的基础,用于定义待进行智能阈值任务的时序数据特征,帮助智能阈值算法更好地进行阈值推荐。通过预设指标的数值范围和默认阈值边界,可以有效避免算法推荐过于敏感的阈值而导致的误报问题。
核心作用:
阈值边界控制典型场景示例: 假设某服务CPU利用率长期稳定在5%左右,若没有阈值边界控制,智能算法可能推荐10%作为阈值上界。但这会导致任何新workload都触发告警。通过设置默认阈值上界为70%,系统会忽略所有70%以下的推荐值,使用70%作为实际阈值,从而减少误报。
进入模板管理:
模板操作:
模板配置项:
| 配置项 | 必填 | 说明 | 示例值 |
|---|---|---|---|
| 模板名称 | ✓ | 模板的唯一标识名称 | 生产环境CPU使用率模板 |
| 指标类型 | ✓ | 选择预定义的指标类型 | 资源使用率百分比 |
| 阈值方向 | ✓ | 推荐阈值方向(上界、下界或双向) | 上界 |
| 指标最小值 | ✓ | 指标的理论最小值 | 0 |
| 指标最大值 | ✓ | 指标的理论最大值 | 100 |
| 默认阈值上界 | ✓ | 推荐阈值上界的最小值 | 70 |
| 默认阈值下界 | ✓ | 推荐阈值下界的最大值 | NULL |

上界或双向时,才需要配置默认阈值上界;
只有当阈值方向为下界或双向时,才需要配置默认阈值下界。系统提供了常用的指标类型模板,可直接选择使用
| 指标类型 | 适用场景 | 典型数值范围 | 推荐阈值方向 | 推荐默认边界设置 |
|---|---|---|---|---|
| 资源使用率百分比 | CPU、内存、磁盘使用率 | 0% - 100% | 上界 | 上界70% |
| 错误率百分比 | 接口错误率、失败率 | 0% - 100% | 上界 | 上界5% |
| 成功率百分比 | 服务可用性、成功率 | 0% - 100% | 下界 | 下界95% |
| 延迟毫秒 | 响应时间、处理延迟 | 0ms - 无上限 | 双向 | 根据业务SLA设定 |
| 吞吐率 | QPS、TPS等 | 0 - 无上限 | 双向 | 根据业务容量设定 |
| 错误计数 | 异常次数、失败次数 | 0 - 无上限 | 上界 | 根据业务容忍度设定 |
智能阈值任务配置包含两个主要功能:创建新的智能阈值任务和管理已有的智能阈值任务。通过这两个模块,用户可以完成从任务创建到结果应用的完整流程。
创建任务需要配置基本信息、选择数据源和指标模板,以及设置算法参数。

任务配置参数:
| 配置项 | 必填 | 说明 | 示例值 |
|---|---|---|---|
| 任务名称 | ✓ | 任务的唯一标识名称 | 字节云生产环境GPU使用率 |
| 指标模板 | ✓ | 选择已创建的指标模板 | 资源使用率百分比模板 |
| 监控数据源类型 | ✓ | 选择数据源类型 | Zabbix、阿里云、火山引擎 |
| 监控数据源 | ✓ | 选择具体的数据源配置 | 火山云监控演示 |
| 项目 | - | 用户自定义项目名称 | AI训练平台 |
| 自动更新阈值 | - | 是否启用每日自动更新 | 开启后每天自动重新计算阈值 |
算法参数配置:
告警规则中连续n个点超阈值才告警。| 参数名称 | 默认值 | 说明 | 调整建议 |
|---|---|---|---|
| 滑动窗口 | 3 | 连续数据点的最小窗口 | 告警规则中连续n个点超阈值才告警 |
| 阈值方向 | 双向 | 推荐阈值的方向 | 用于控制阈值推荐和创建规则的方向 |
指标详情配置: 用户可以根据业务需求修改指标模板中的默认边界值:
| 配置项 | 说明 | 作用 |
|---|---|---|
| 默认上界 | 推荐阈值上界的最小值 | 当算法推荐值过小时,使用此值保证阈值合理性 |
| 默认下界 | 推荐阈值下界的最大值 | 当算法推荐值过大时,使用此值保证阈值合理性 |
任务创建完成后,可以在任务管理页面进行全生命周期管理。

主要功能包括:
您可以在智能阈值的事件订阅模块,配置告警规则的订阅方式和接收对象。
您可以点击新建订阅按钮以创建新的事件订阅规则,也可以在已有的订阅规则列表中进行编辑或删除操作。

| 配置项 | 说明 | 作用 |
|---|---|---|
| 订阅名称 | 事件订阅的唯一标识名称 | 用于识别和管理不同的事件订阅规则 |
| 智能体 | 订阅消息的智能体 | 在智能阈值功能场景下,默认为智能阈值Agent |
| 生效时间 | 订阅规则生效的时间范围 | 可以设置指定时间范围 |
| 关注项目 | 订阅规则关注的项目 | 不选择表示关注全部项目 |
| 订阅的事件级别 | 订阅规则关注的事件级别 | 不选择表示关注全部事件级别 |
| 消息卡片通知策略 | 订阅规则的消息卡片通知策略 | 当需要通过机器人卡片通知事件时,需要配置消息卡片通知策略。请参考通知策略 来配置消息卡片通知策略。如果不需要通过机器人卡片通知事件,则可以不配置此项。 |
| WEBHOOK 投递事件 | 订阅规则的WEBHOOK 投递事件 | 当需要通过WEBHOOK 通知事件时,需要配置WEBHOOK 投递事件。您可以打开开启 WEBHOOK 投递开关,并配置WEBHOOK地址作为投递目标。 |
您可以在历史事件页面查看智能阈值任务产生的历史告警事件记录。

您可以通过事件级别、显示状态筛选历史事件记录,并通过查看历史事件的 显示状态和状态来跟踪和判断告警事件的发送情况。详细的状态说明请参考:历史事件中的说明。