Google 2025 AI智能体白皮书阅读笔记——Agent Quality

前言

在基于大模型智慧能力的应用越来越普遍的今天，如何设计、开发与维护好应用里面与AI对接的核心模块——智能体，成为了AI程序开发者需要深入研究的课题。如何在llm模型non-deterministic的本质上构建起deterministic的应用，需要在深刻理解大模型的能力与局限的同时，引入软件工程和系统运维的最佳实践。

google在2025年11月发布了5本Agent白皮书，旨在分享他们在构建生产级AI智能体的经验，感兴趣的读者可以在这篇公众号文章找到链接：https://mp.weixin.qq.com/s/lKyX_1cFATjZazpLyQg6uA

今天，我们来读一下其中的Agent Quailty一书，记录下谷歌是如何观测、衡量、最终保证智能体的质量的，原文链接：

Agent Quality

智能体质量核心原则

Agent quality is an architectural pillar, not a final testing phase

智能体质量应该是设计层面上就具有可评估性的（evaluatable-by-design），我们应该从架构设计时就考虑如何测量智能体的品质，而不是到了测试阶段再去下功夫。

Chapter 1 | 为什么智能体需要新的QA方法

传统软件出错是明显的，determinstic的，同时很容易定位到逻辑上错误的地方，而智能体出错，由于非确定性的本质，很难直接查出，而且受外界输入的影响很大，随着围绕LLM的系统越来越成熟，失败的原因也越来越复杂：

传统机器学习：质量衡量十分清晰：准确率，召回率等等
LLM：开始变得难衡量，需要人工的评测集，与其他模型比较
LLM+RAG：错误的地方变多了：可能是LLM本身的幻觉，质量差，也可能是检索错了，分片质量差
AI Agent：新引入的技术都有出错的可能
- 计划与推理与行动循环：计划阶段每次细微的不同可能导致几步之后截然不同的行为
- 工具和函数调用：引入了外部的不确定性，工具返回错误导致智能体最终错误
- 记忆：过去的信息与经验可能导致智能体产生不一样的行为
多Agent系统：终极复杂性
- 涌现式系统错误：多智能体交互时的错误很难归咎于其中某一个

由于错误的可能出处非常多，评估AI应用需要一个既能衡量整体效果，也能考察每个模块质量的方案。google提出智能体质量的四个关键属性：

有效性：AI系统是否成功准确地满足用户的需求

高效性：消耗太多token，耗时太久，工具调用太多，步骤过多，都会使得智能体变得低效

健壮性：AI系统面对现实世界的错误，如api调用失败，数据不存在，用户问题模糊时，是否优雅地处理各种情况

安全：智能体是否在定好的边界内行动

Chapter 2 | 智能体评估的艺术：判断过程

Google提出一种整体的评估战略框架：”Outside-In”架构——优先看最终的服务目的指标，再打开黑箱看各方面的技术运行情况。

服务目的指标是什么？比如说：

任务成功率：编程智能体的PR接受率，客服智能体的会话完成率等
用户满意度：针对对客智能体
整体质量：可量化的答案指标

明确了最终服务目的指标后，我们就可以看系统中的技术细节，来确定是哪一部分影响到了这个分数，比如说：

LLM推理：大模型本身思考是否正确？
工具调用：是否调用正确的工具，传递正确的参数
工具响应：是否正确抽取结果的值，是否正确理解
RAG：rag相关问题
健壮性与效率：异常情况是否处理好，是否足够高效
多智能体交互：是否存在冲突

智能体评估方法

自动化指标提供快速衡量的方法，适合cicd和回归测试，如
- 字符串相似度（如ROGUE, BLEU），计算输出与参考文本的相似性
- 嵌入文本相似度（如BERTScore, 余弦相似度），衡量语义距离
- 任务相关指标，如TruthfulQA
LLM-as-a-Juage借助大模型来快速对比不同版本智能体的输出质量，这种方式通常如下：给定原始的问题/提示词，给定细致的评判规则指示，给出不同版本智能体的回答，要求LLM来判断哪个更好
- 例子：“Rate the helpfulness, correctness, and safety of this response on a scale of 1-5, explaining your reasoning."
Agent-as-a-Juage使用配备动态上下文和工具的智能体来评估智能体运行的整条链路：
- 计划质量：智能体输出的计划是否合理的？
- 工具调用：工具调用和响应的处理是否正确？
- 上下文处理：智能体是否有效感知当前上下文？
Human-in-the-loop引入专家领域知识和对输出细微差别的捕捉

负责任AI与安全

除了衡量智能体的输出是否正确外，我们还需要严肃衡量AI是否安全：

系统性的红队测试：积极主动去设计各种攻击性场景，来试图让AI输出仇恨、有毒的回答，甚至是泄露数据或者作出有害行为
自动化过滤器和人工回顾：使用技术手段来捕捉上述异常情况

Chapter3 | 智能体的可观测性

在上一章描述了有哪些技术细节需要去评估之后，第三章介绍了怎么去评估这些技术步骤的有效性，有三大维度：

日志——全面，结构化地记录llm的输入、工具调用和输出
链路——把前面的日志片段串联成trace，让开发者可以观测整个任务的流转
指标——应分为系统直接指标和质量指标
- 系统直接指标如延迟、token消耗，工具调用数等
- 质量指标围绕第一章提到的四个关键属性：有效性、高效性、健壮性和安全

Chapter4 | 智能体质量飞轮

最后，google提出“Agent Quality Flywheel”，描述如何结合前面几章提到的方面，建立一个企业级的智能体运行优化循环，不断发现问题、定位原因、改进系统并验证收益：

总结

在这份白皮书中，google系统性地介绍了如何对智能体的质量进行定义、评估、观测和改进，把这一持续改进的循环做好是区分简单智能体demo与企业级生产可用AI应用的关键：虽然说底层技术上，LLM是颠覆性的，但想要真正在生产上可靠地运行，并产出价值，我们仍然可以沿用IT领域成熟的工程化思想和方法论。