返回文章列表
生产级 AI Agent·CSDN 同步·

生产 Agent 别只跑 demo:先补 6 类评测样本

由 CSDN 高质量工程稿同步为站内可索引文章,已按中文站定位整理。

这两周国内关于 Codex、Claude Code、MCP、AI 编程 Agent 的讨论明显升温。很多团队已经不再纠结“能不能做一个 Agent demo”,而是在问“为什么同一个 demo,一接真实业务就开始慢、贵、错、不可控”。

这里最常见的问题,不是模型完全不会做,而是评测样本还是停留在演示样本

很多系统在内部验收时,跑的都是这些内容:

  • 几条已经调顺的 happy path;
  • 少量静态文档问答;
  • 一两个成功的工具调用案例;
  • 能在会议里稳定展示的脚本化任务。

这些样本能证明“它跑过”,但证明不了“它进生产后还能稳”。

对生产级 AI Agent 系统来说,评测不是做一组漂亮分数,而是提前回答两个问题:

  1. 哪些任务它现在真的能稳定做;
  2. 哪些失败模式已经被样本覆盖,不会一上线才第一次遇到。

下面这 6 类评测样本,是 Agent 要进真实流程前至少该补齐的。

1. 标准成功样本:先把基础能力测稳

第一类当然还是标准成功样本,但它的作用不是做宣传,而是建立基线。

这类样本至少应该覆盖:

  • 常见用户请求;
  • 典型知识检索;
  • 标准工具调用;
  • 正常返回后的输出结构;
  • 单轮和多轮两种常见交互。

如果这层都不稳,后面谈边界、审计和自动化比例都没有意义。

但问题在于,很多团队把这类样本跑通以后,就误以为“评测已经够了”。

2. 歧义样本:需求不清时系统会不会乱猜

真实业务里,用户输入经常并不完整。

比如:

  • “帮我查一下这个客户现在什么情况”;
  • “把这个问题处理一下”;
  • “按之前那个方案继续推进”;
  • “给我看看最近设备有没有异常”。

这些请求对人来说都需要追问或补上下文,对 Agent 也一样。

评测里如果没有歧义样本,团队很容易只看到“模型会做题”,看不到“它在信息不足时会不会强行给结论”。

这类样本要测的重点不是回答得多快,而是:

  • 会不会先澄清;
  • 会不会暴露自己缺少上下文;
  • 会不会误选工具;
  • 会不会把模糊请求直接推进成真实动作。

3. 证据冲突样本:检索到了,但依据互相打架

很多生产事故不是因为完全查不到,而是因为查到了两份互相冲突的依据。

常见场景包括:

  • 新旧制度文档不一致;
  • CRM 状态和工单状态不一致;
  • 设备实时状态和缓存快照不一致;
  • 两个数据源对同一客户给出不同标签。

如果评测只测“命中一条正确答案”,系统上线后就很容易在证据冲突时继续硬答。

这类样本应该强制检查:

  • 是否能暴露冲突来源;
  • 是否会暂停执行;
  • 是否能要求人工确认;
  • citations 能不能回指到具体证据片段。

4. 权限与边界样本:不该看到、不该做的会不会被拦下

很多 Agent demo 看起来很顺,是因为测试账号权限太大,或者样本根本没碰真正的边界。

但生产里最值得测的,往往恰恰是这些“不该发生”的场景:

  • 当前角色是否看到了不该看的字段;
  • 当前任务是否调用了超出范围的工具;
  • 当前环境是否把只读动作误走成写动作;
  • 高风险对象是否绕过了审批或转人工规则。

如果没有这类负向样本,所谓“权限控制”就很容易只停留在配置表里,没经过真实回归。

5. 失败与超时样本:下游不稳定时系统怎么停

真实业务里,下游系统不稳定不是偶发,而是常态。

例如:

  • 检索接口超时;
  • 外部工具返回 500;
  • 数据源暂时不可用;
  • 第三方 API 配额打满;
  • 某一步成功,后续动作失败。

很多 demo 之所以“看起来稳定”,只是因为评测环境从来不主动制造失败。

生产评测更该检查的是:

  • 失败是否有明确分类;
  • audit logs 能不能留下完整链路;
  • 是否会触发重试、降级或停机;
  • 写操作半成功时有没有补偿或回滚记录。

6. 成本与时延样本:结果对了,但代价能不能接受

有些 Agent 在 demo 环境里效果不错,但一放大到真实流量就会暴露另一种失败:

  • 每次都走高成本模型;
  • 工具调用链太长;
  • 上下文堆太厚;
  • 同一问题重复查多次;
  • 平均时延能接受,尾延迟却过高。

这类问题如果不进评测样本,团队上线前几乎不会认真讨论。

所以评测不该只产出“正确率”,还应该记录:

  • 不同任务等级对应的模型路由;
  • 每条链路的工具调用次数;
  • 平均与 P95/P99 时延;
  • 单任务估算成本;
  • 失败重试后的代价变化。

这才是能真正指导生产决策的数据。

为什么“样本覆盖”比“再调一轮 prompt”更优先

因为很多上线问题并不是 prompt 不够细,而是样本没有覆盖真实失败模式。

如果评测集里只有成功案例,团队最后学到的只会是:

  • demo 能跑;
  • 分数不难看;
  • 会议里可以展示;
  • 真正危险的情况没有被提前暴露。

更稳妥的做法,是把评测当成生产前的风险样本集,而不是模型能力宣传册。

一个够用的补齐顺序

如果团队最近正准备把 Agent 接进真实业务,我更建议按这个顺序补评测:

  1. 先补标准成功样本,建立最低可用基线;
  2. 再补歧义样本,检查会不会乱猜;
  3. 再补证据冲突样本,检查 citations 和停机规则;
  4. 再补权限边界样本,验证 tool-calling 与字段暴露;
  5. 再补失败超时样本,验证 audit logs、重试和回滚;
  6. 最后补成本时延样本,决定模型路由和自动化比例。

这样团队讨论的就不再只是“这个 Agent 看起来聪不聪明”,而是“它在真实任务分布下,哪些风险已经被测过,哪些还没资格放进生产”。

如果最近在做 AI 业务系统生产就绪审查,这类评测覆盖通常也会被优先检查:任务分级有没有落到样本、tool-calling 失败有没有回归、citations 和 audit logs 能不能支撑复盘、模型路由是否有成本和时延依据。重点不是把系统讲得更大,而是让它在真实业务里更稳、更可追溯。

ai-agent评测生产就绪tool-callingaudit-logs