前言
在基于大模型智慧能力的应用越来越普遍的今天,如何设计、开发与维护好应用里面与AI对接的核心模块——智能体,成为了AI程序开发者需要深入研究的课题。如何在llm模型non-deterministic的本质上构建起deterministic的应用,需要在深刻理解大模型的能力与局限的同时,引入软件工程和系统运维的最佳实践。
google在2025年11月发布了5本Agent白皮书,旨在分享他们在构建生产级AI智能体的经验,感兴趣的读者可以在这篇公众号文章找到链接:https://mp.weixin.qq.com/s/lKyX_1cFATjZazpLyQg6uA
今天,我们来读一下其中的Agent Quailty一书,记录下谷歌是如何观测、衡量、最终保证智能体的质量的,原文链接:
智能体质量核心原则
Agent quality is an architectural pillar, not a final testing phase
智能体质量应该是设计层面上就具有可评估性的(evaluatable-by-design),我们应该从架构设计时就考虑如何测量智能体的品质,而不是到了测试阶段再去下功夫。
Chapter 1 | 为什么智能体需要新的QA方法
传统软件出错是明显的,determinstic的,同时很容易定位到逻辑上错误的地方,而智能体出错,由于非确定性的本质,很难直接查出,而且受外界输入的影响很大,随着围绕LLM的系统越来越成熟,失败的原因也越来越复杂:
- 传统机器学习:质量衡量十分清晰:准确率,召回率等等
- LLM:开始变得难衡量,需要人工的评测集,与其他模型比较
- LLM+RAG:错误的地方变多了:可能是LLM本身的幻觉,质量差,也可能是检索错了,分片质量差
- AI Agent:新引入的技术都有出错的可能
- 计划与推理与行动循环:计划阶段每次细微的不同可能导致几步之后截然不同的行为
- 工具和函数调用:引入了外部的不确定性,工具返回错误导致智能体最终错误
- 记忆:过去的信息与经验可能导致智能体产生不一样的行为
- 多Agent系统:终极复杂性
- 涌现式系统错误:多智能体交互时的错误很难归咎于其中某一个
由于错误的可能出处非常多,评估AI应用需要一个既能衡量整体效果,也能考察每个模块质量的方案。google提出智能体质量的四个关键属性:
有效性:AI系统是否成功准确地满足用户的需求
高效性:消耗太多token,耗时太久,工具调用太多,步骤过多,都会使得智能体变得低效
健壮性:AI系统面对现实世界的错误,如api调用失败,数据不存在,用户问题模糊时,是否优雅地处理各种情况
安全:智能体是否在定好的边界内行动
Chapter 2 | 智能体评估的艺术:判断过程
Google提出一种整体的评估战略框架:”Outside-In”架构——优先看最终的服务目的指标,再打开黑箱看各方面的技术运行情况。
服务目的指标是什么?比如说:
- 任务成功率:编程智能体的PR接受率,客服智能体的会话完成率等
- 用户满意度:针对对客智能体
- 整体质量:可量化的答案指标
明确了最终服务目的指标后,我们就可以看系统中的技术细节,来确定是哪一部分影响到了这个分数,技术细节有:那一部分
- LLM推理:大模型本身思考是否正确?
- 工具调用:是否调用正确的工具,传递正确的参数
- 工具响应:是否正确抽取结果的值,是否正确理解
- RAG:rag相关问题
- 健壮性与效率:异常情况是否处理好,是否足够高效
- 多智能体交互:是否存在冲突
智能体评估方法
- 自动化指标提供快速衡量的方法,适合cicd和回归测试,如
- 字符串相似度(如ROGUE, BLEU),计算输出与参考文本的相似性
- 嵌入文本相似度(如BERTScore, 余弦相似度),衡量语义距离
- 任务相关指标,如TruthfulQA
- LLM-as-a-Juage借助大模型来快速对比不同版本智能体的输出质量,这种方式通常如下:给定原始的问题/提示词,给定细致的评判规则指示,给出不同版本智能体的回答,要求LLM来判断哪个更好
- 例子:“Rate the helpfulness, correctness, and safety of this response on a scale of 1-5, explaining your reasoning."
- Agent-as-a-Juage使用配备动态上下文和工具的智能体来评估智能体运行的整条链路:
- 计划质量:智能体输出的计划是否合理的?
- 工具调用:工具调用和响应的处理是否正确?
- 上下文处理:智能体是否有效感知当前上下文?
- Human-in-the-loop引入专家领域知识和对输出细微差别的捕捉
负责任AI与安全
除了衡量智能体的输出是否正确外,我们还需要严肃衡量AI是否安全:
- 系统性的红队测试:积极主动去设计各种攻击性场景,来试图让AI输出仇恨、有毒的回答,甚至是泄露数据或者作出有害行为
- 自动化过滤器和人工回顾:使用技术手段来捕捉上述异常情况
Chapter3 | 智能体的可观测性
在上一章描述了有哪些技术细节需要去评估之后,第三章介绍了怎么去评估这些技术步骤的有效性,有三大维度:
- 日志——全面,结构化地记录llm的输入、工具调用和输出
- 链路——把前面的日志片段串联成trace,让开发者可以观测整个任务的流转
- 指标——应分为系统直接指标和质量指标
- 系统直接指标如延迟、token消耗,工具调用数等
- 质量指标围绕第一章提到的四个关键属性:有效性、高效性、健壮性和安全
Chapter4 | 智能体质量飞轮
最后,google提出“Agent Quality Flywheel”,描述如何结合前面几章提到的方面,建立一个企业级的智能体运行优化循环,不断发现问题、定位原因、改进系统并验证收益:
总结
在这份白皮书中,google系统性地介绍了如何对智能体的质量进行定义、评估、观测和改进,把这一持续改进的循环做好是区分简单智能体demo与企业级生产可用AI应用的关键:虽然说底层技术上,LLM是颠覆性的,但想要真正在生产上可靠地运行,并产出价值,我们仍然可以沿用IT领域成熟的工程化思想和方法论。
comments powered by Disqus