跳转至

企业级 Agent 设计:从 0 到 1

企业级Agent设计需要和企业级应用的场景和业务目标相结合,考虑到企业级应用的复杂性和多样性,Agent 设计需要考虑以下几个方面:

  1. 良好的可扩展性:确保能够方便地添加新的功能和模块,以满足企业级应用的不断变化的业务需求
  2. 现有企业应用的集成:确保能够与其他系统进行数据交换和协作
  3. 系统架构和性能:确保能够处理预计规模的并发请求和数据处理,并能够进行性能扩展
  4. 权限控制和数据安全:确保企业的核心信息和敏感数据不会被泄露
  5. 可观测性和评估:确保能够及时发现和定位问题,同时能够对系统的性能和效果进行评估和优化

设计路径

  • 能力储备(能力源与数据源的转化)

    • 定义与作用:将企业内现有的API/非API能力与数据源抽象为可被Agent调用的工具与知识,预先构建评测集以支撑后续设计与验证。
    • 输入:
      • 能力源:企业现有的能力接口,包括API方式,也包括非API方式的。
      • 数据源:企业现有存储系统管理的各类数据,可以是结构化的,也可以是非结构化的。
    • 输出:
      • 可调用工具与知识:沙箱化的API接口封装、MCP市场、本地Tool、外部Tool、向量检索知识库、模板化Prompt规则集。
      • 评测集:围绕bad case收集的真实场景数据,包含异常情况、错误操作、边界条件等。
    • 依赖:工具封装与接口规范、数据脱敏与权限控制、评测口径与样本治理。
  • 系统设计(业务场景分层与Agent架构)

    • 定义与作用:按场景分层梳理痛点,设计对应的Agent体系与交互流程,形成可实现的架构图与职责划分。
    • 输入:从企业实际应用场景出发,收集不同场景的痛点清单。
    • 输出:多Agent体系与Workflow编排方案,例如内容识别、被动/主动回复、质量评审等subAgent。
    • 依赖:记忆模块、Tool与知识库的统一调用、并行/串行Workflow编排机制。
  • 系统搭建(SDK/模型/Prompt与业务目标)

    • 定义与作用:完成SDK选型、模型选择与Prompt的组合方案,并落地到业务目标与量化指标。
    • 输入:SDK能力项诉求(Tool管理、上下文管理、知识库管理、MCP生态融合/兼容性、可观测、评测能力)、模型能力画像、Prompt设计方法与模板。
    • 输出:
      • Agent能力栈:MCP市场、本地Tool、外部Tool、上下文存储(短/长期记忆与过期策略)、向量检索与文档解析、可观测模块、评测数据集与报告工具。
      • 业务目标与指标:信息获取效率、旁路/主动回复采纳率等。
    • 依赖:SDK与生态兼容、内部系统对接。
  • 系统评测(数据回流、方法与模板)

    • 定义与作用:在真实交付中建立评测闭环,确保优化迭代有客观依据。
    • 输入:用户顶/踩与人工标注等回流数据、评测集属性与规模、评测平台与方法(如向量相似度、LLM-as-a-judge)。
    • 输出:稳定的评测集与报告,驱动功能与Prompt/模型的持续优化。
    • 依赖:观测数据采集与评测平台选型、数据治理与安全合规。
  • 优化迭代(安全与自学习)

    • 定义与作用:在上线后强化安全能力并探索自学习(RL)机制。
    • 输入/输出:基于评测与观测的Bad Case收集与修复;上线后安全策略更新与回归验证。
    • 依赖:发布与回滚机制、权限与合规治理、评测与观测联动。
  • 关键共性能力

    • 工具/技能编排:支持多Tool、支持多Agent并发与串联Workflow编排,支持MCP与Tool混合。
    • 状态与记忆:短期记忆管理对话状态,长期记忆用于知识沉淀与回溯。
    • 知识接入与治理:多知识库并行检索与合并、PDF/Markdown解析与版本管理。
    • 可观测与治理:指标、日志、调用链采集与暴露(Prometheus/OpenTelemetry),支撑评测闭环。
    • 质量与安全:变更方案风险识别、信息安全与权限控制。

主要设计思路

形成从需求到实现的通用路径,并以要点佐证其可复用性。

  • 路径总览

    • 企业源转化:识别并封装能力源与数据源,完成工具化与知识库化;同步构建初始评测集。
    • 系统设计:分层梳理业务功能点,设计多智能体架构与任务编排。
    • 系统搭建:完成SDK/模型/Prompt的组合选型,定义业务目标与量化指标。
    • 系统评测:建立数据回流与评测模板,支撑持续迭代。
    • 优化迭代:以安全与自学习为抓手,闭环优化上线能力。
  • 设计原则(可复用)

    • 目标拆解与场景分层:先枚举功能点,再按场景拆分子任务与职责。
    • 能力映射与工具化:将非API能力拆解为可调用的subAgent/Tool,API能力统一封装为MCP或本地Tool。
    • 任务编排(并行/串行):采用并行与多智能体系统提升效率与可靠性。
    • 人机协同与记忆:对话态处理依赖短期记忆,知识沉淀通过审阅智能体更新专属知识库。
    • 口径与安全:严格限定数据来源与权限控制,确保信息安全与合规。
    • 度量与优化:以采纳率、触发率等量化指标驱动评测与优化。

VeADK 对应能力

  • 智能体范式与编排

    • 能力:LLMAgent / CustomAgent / ParallelAgent / ReactiveMultiAgents。
    • 适用场景:内容识别、分类/总结、并行检测、会话态被动应答、多subAgent业务流调度。
    • 关键接口/集成点:自定义 _run_async_impl;并发subAgent管理;Tool调用(MCP/本地)。
  • 记忆与上下文管理

    • 能力:短期记忆(ShortTermMemory),长期记忆(专属知识库沉淀)。
    • 适用场景:会话态管理、上下文获取与关联。
    • 关键接口/集成点:上下文存储引擎、TTL过期与检索API。
  • 知识库与检索

    • 能力:向量检索引擎,PDF/Markdown解析,版本控制;VeAIOpsKBManager(多知识库并行检索与合并)。
    • 适用场景:RAG 检索与多知识源融合。
    • 关键接口/集成点:VIKING DB接入。
  • 工具管理与生态兼容

    • 能力:内置工具 + MCP/本地Tool扩展;兼容 GoogleADK。
    • 适用场景:日志规范检测、根因定位、变更风险识别、监控策略配置与告警投递。
    • 关键接口/集成点:MCP Tool扩展、ChatTools读取聊天历史、Web化配置监控规则。
  • 可观测与评测

    • 能力:Prometheus指标暴露、OpenTelemetry追踪集成;评测数据集管理与自动报告工具。
    • 适用场景:Agent调用度量、日志与调用链采集、评测闭环。
    • 关键接口/集成点:Fornax观测上报、RDS会话数据同步到数仓形成评测集。
  • 权限与安全(数据与访问治理)

    • 能力:权限回调接口 + 过滤器(email/index_name/query);信息安全与脱敏展示。
    • 适用场景:知识检索权限控制与结果脱敏。
  • 模型与 Prompt 协同

    • 能力:模型选型画像(如Doubao擅长语义与摘要;Deepseek擅长工具调用与流程规划;CRISPE Prompt框架与模板化规则)。
    • 适用场景:FAQ归纳、标签构建、内容审核、工作流编排与执行、检索协作任务。
    • 关键接口/集成点:Prompt规范与变量渲染;模板维护与版本管理。