Google 2025 AI智能体白皮书阅读笔记——Agent Quality

Posted by Midk9t's Blog on Sunday, March 15, 2026

前言

在基于大模型智慧能力的应用越来越普遍的今天,如何设计、开发与维护好应用里面与AI对接的核心模块——智能体,成为了AI程序开发者需要深入研究的课题。如何在llm模型non-deterministic的本质上构建起deterministic的应用,需要在深刻理解大模型的能力与局限的同时,引入软件工程和系统运维的最佳实践。

google在2025年11月发布了5本Agent白皮书,旨在分享他们在构建生产级AI智能体的经验,感兴趣的读者可以在这篇公众号文章找到链接:https://mp.weixin.qq.com/s/lKyX_1cFATjZazpLyQg6uA

image.png

今天,我们来读一下其中的Agent Quailty一书,记录下谷歌是如何观测、衡量、最终保证智能体的质量的,原文链接:

Agent Quality

智能体质量核心原则

Agent quality is an architectural pillar, not a final testing phase

智能体质量应该是设计层面上就具有可评估性的(evaluatable-by-design),我们应该从架构设计时就考虑如何测量智能体的品质,而不是到了测试阶段再去下功夫。

Chapter 1 | 为什么智能体需要新的QA方法

传统软件出错是明显的,determinstic的,同时很容易定位到逻辑上错误的地方,而智能体出错,由于非确定性的本质,很难直接查出,而且受外界输入的影响很大,随着围绕LLM的系统越来越成熟,失败的原因也越来越复杂:

  • 传统机器学习:质量衡量十分清晰:准确率,召回率等等
  • LLM:开始变得难衡量,需要人工的评测集,与其他模型比较
  • LLM+RAG:错误的地方变多了:可能是LLM本身的幻觉,质量差,也可能是检索错了,分片质量差
  • AI Agent:新引入的技术都有出错的可能
    • 计划与推理与行动循环:计划阶段每次细微的不同可能导致几步之后截然不同的行为
    • 工具和函数调用:引入了外部的不确定性,工具返回错误导致智能体最终错误
    • 记忆:过去的信息与经验可能导致智能体产生不一样的行为
  • 多Agent系统:终极复杂性
    • 涌现式系统错误:多智能体交互时的错误很难归咎于其中某一个

由于错误的可能出处非常多,评估AI应用需要一个既能衡量整体效果,也能考察每个模块质量的方案。google提出智能体质量的四个关键属性:

image.png

有效性:AI系统是否成功准确地满足用户的需求

高效性:消耗太多token,耗时太久,工具调用太多,步骤过多,都会使得智能体变得低效

健壮性:AI系统面对现实世界的错误,如api调用失败,数据不存在,用户问题模糊时,是否优雅地处理各种情况

安全:智能体是否在定好的边界内行动

Chapter 2 | 智能体评估的艺术:判断过程

Google提出一种整体的评估战略框架:”Outside-In”架构——优先看最终的服务目的指标,再打开黑箱看各方面的技术运行情况。

服务目的指标是什么?比如说:

  • 任务成功率:编程智能体的PR接受率,客服智能体的会话完成率等
  • 用户满意度:针对对客智能体
  • 整体质量:可量化的答案指标

明确了最终服务目的指标后,我们就可以看系统中的技术细节,来确定是哪一部分影响到了这个分数,技术细节有:那一部分

  • LLM推理:大模型本身思考是否正确?
  • 工具调用:是否调用正确的工具,传递正确的参数
  • 工具响应:是否正确抽取结果的值,是否正确理解
  • RAG:rag相关问题
  • 健壮性与效率:异常情况是否处理好,是否足够高效
  • 多智能体交互:是否存在冲突

智能体评估方法

  • 自动化指标提供快速衡量的方法,适合cicd和回归测试,如
    • 字符串相似度(如ROGUE, BLEU),计算输出与参考文本的相似性
    • 嵌入文本相似度(如BERTScore, 余弦相似度),衡量语义距离
    • 任务相关指标,如TruthfulQA
  • LLM-as-a-Juage借助大模型来快速对比不同版本智能体的输出质量,这种方式通常如下:给定原始的问题/提示词,给定细致的评判规则指示,给出不同版本智能体的回答,要求LLM来判断哪个更好
    • 例子:“Rate the helpfulness, correctness, and safety of this response on a scale of 1-5, explaining your reasoning."
  • Agent-as-a-Juage使用配备动态上下文和工具的智能体来评估智能体运行的整条链路:
    • 计划质量:智能体输出的计划是否合理的?
    • 工具调用:工具调用和响应的处理是否正确?
    • 上下文处理:智能体是否有效感知当前上下文?
  • Human-in-the-loop引入专家领域知识和对输出细微差别的捕捉

负责任AI与安全

除了衡量智能体的输出是否正确外,我们还需要严肃衡量AI是否安全:

  • 系统性的红队测试:积极主动去设计各种攻击性场景,来试图让AI输出仇恨、有毒的回答,甚至是泄露数据或者作出有害行为
  • 自动化过滤器和人工回顾:使用技术手段来捕捉上述异常情况

Chapter3 | 智能体的可观测性

在上一章描述了有哪些技术细节需要去评估之后,第三章介绍了怎么去评估这些技术步骤的有效性,有三大维度:

  • 日志——全面,结构化地记录llm的输入、工具调用和输出
  • 链路——把前面的日志片段串联成trace,让开发者可以观测整个任务的流转
  • 指标——应分为系统直接指标质量指标
    • 系统直接指标如延迟、token消耗,工具调用数等
    • 质量指标围绕第一章提到的四个关键属性:有效性、高效性、健壮性和安全

Chapter4 | 智能体质量飞轮

最后,google提出“Agent Quality Flywheel”,描述如何结合前面几章提到的方面,建立一个企业级的智能体运行优化循环,不断发现问题、定位原因、改进系统并验证收益:

image.png

总结

在这份白皮书中,google系统性地介绍了如何对智能体的质量进行定义、评估、观测和改进,把这一持续改进的循环做好是区分简单智能体demo与企业级生产可用AI应用的关键:虽然说底层技术上,LLM是颠覆性的,但想要真正在生产上可靠地运行,并产出价值,我们仍然可以沿用IT领域成熟的工程化思想和方法论。


comments powered by Disqus