Google 11月最新白皮书「Introduction to Agents」—— 作为「Google x Kaggle 5天 AI 智能体强化课程」的开篇,提供从概念验证到生产级智能体系统的指导框架。
Google 这份最新白皮书,聚焦于 AI 智能体的核心架构、分类、构建实践、生产部署、安全治理以及演化学习,客观分析了生成式 AI 从被动预测向自主问题解决的转变,强调智能体是语言模型在软件中的自然延伸,能够通过循环推理、行动和观察来实现目标。
白皮书的核心观点是:构建智能体并非简单集成语言模型,而是设计一个完整的应用系统,需要平衡灵活性和可靠性。
1. 从预测 AI 到自治智能体
AI 正从被动任务(如翻译或生成图像)转向自主智能体,这些系统能独立规划和执行多步任务,而非依赖人类每步指导。智能体结合语言模型的推理能力与实际行动工具,使其成为“语言模型的自然演化,在软件中变得实用”。白皮书强调,从原型到生产级的挑战在于确保安全性、质量和可靠性。
2. 智能体介绍
智能体定义为模型、工具、编排层和运行服务的组合,通过语言模型循环来实现目标。核心组件包括:
· 模型(大脑):核心推理引擎,如通用模型、微调模型或多模态模型,负责处理信息、评估选项和决策。
· 工具(双手):连接外部世界的机制,包括 API、代码函数和数据存储,用于获取实时信息或执行行动。
· 编排层(神经系统):管理操作循环,处理规划、记忆和推理策略(如链式思考或 ReAct)。
· 部署(身体和腿):从本地原型到安全、可扩展服务器的托管,确保通过 UI 或 API 访问。
开发智能体类似于导演角色:设置指导提示、选择工具并提供上下文。白皮书指出,语言模型的灵活性是双刃剑,需要“上下文工程”来引导可靠输出。智能体本质上是上下文窗口的策展者,能适应新情境解决问题。
3. 智能体问题解决过程
智能体通过连续循环实现目标,分为五个步骤:
1. 获取任务:从用户或触发器接收高水平目标。
2. 扫描场景:感知环境,收集上下文(如用户请求、记忆、工具)。
3. 思考:模型分析任务并制定计划。
4. 行动:执行计划的第一步,如调用工具。
5. 观察与迭代:评估结果,更新上下文并循环。
示例:客户支持智能体处理“我的订单#12345在哪里?”时,先规划多步(查找订单、查询跟踪、合成响应),然后逐一执行。这种“思考-行动-观察”循环使智能体处理复杂任务。
4. 智能体系统分类
白皮书将智能体分为五个级别,每级基于前一级扩展:
· 0级:核心推理系统:孤立语言模型,仅依赖预训练知识,无法实时交互。
· 1级:连接问题解决者:添加工具,能访问外部数据(如搜索 API)。
· 2级:战略问题解决者:支持复杂规划和上下文工程,能主动管理信息。
· 3级:协作多智能体系统:如人类团队,智能体将其他智能体视为工具,实现分工。
· 4级:自演化系统:识别能力差距,动态创建新工具或智能体。
5. 核心智能体架构:模型、工具和编排
· 模型选择:优先考虑特定任务的推理和工具使用能力,而非通用基准。建议多模型路由(如大模型规划、小模型执行)以优化成本和速度。多模态模型处理图像/音频,或使用专用工具转换数据。
· 工具:分为信息检索(如 RAG、NL2SQL)和行动执行(如 API 调用、代码沙箱)。函数调用通过 OpenAPI 或 MCP 连接,确保可靠交互。包括人类交互工具(如 HITL 确认)。
· 编排层:管理循环,决定何时思考或行动。核心选择包括自治程度(确定性 vs. 动态)、实现方法(无代码 vs. 代码优先,如 ADK)和框架(开放、可观测)。
6. 核心设计选择、多智能体系统和设计模式
· 指令与上下文:使用系统提示注入领域知识和角色(如“友好支持智能体”)。增强上下文包括短期记忆(当前会话)和长期记忆(RAG 查询历史)。
· 多智能体:采用“专家团队”模式,避免单一超级智能体。常见模式:协调器(路由子任务)、顺序(流水线)、迭代精炼(生成-批评循环)和HITL(人类审批)。
· 部署和服务:从本地到云托管(如 Vertex AI Agent Engine 或 Cloud Run)。需处理会话历史、安全日志和合规。
7. Agent Ops:结构化处理不确定性
Agent Ops 是 DevOps 和 MLOps 的演化,针对智能体的随机性。关键实践:
· 度量重要指标:如目标完成率、用户满意度、延迟和业务影响。
· 质量评估:使用“语言模型作为评判者”对输出打分,基于黄金数据集。
· 指标驱动开发:自动化测试变化,A/B 部署验证。
· 调试:OpenTelemetry 追踪记录执行路径。
· 人类反馈:将报告转化为新测试用例,关闭循环。
8. 智能体互操作性
· 智能体与人类:通过聊天 UI、计算机使用工具(控制界面)、动态 UI 生成或实时多模态(如 Gemini Live API)交互。
· 智能体与智能体:A2A 协议标准化发现和通信(异步任务)。
· 智能体与金钱:AP2 和 x402 协议处理交易,确保授权和微支付。
9. 安全与扩展
· 单个智能体安全:平衡效用与风险,使用混合防护(确定性护栏 + AI 守卫)。智能体身份作为新主体,使用 SPIFFE 验证。ADK 示例:回调、插件和 Model Armor 检测注入。
· 扩展到企业舰队:处理“智能体蔓延”,通过控制平面(网关 + 注册表)强制政策。关注安全(提示注入、数据泄露)和基础设施(可靠性和成本,如预置吞吐量)。
10. 智能体如何演化和学习
智能体需适应变化,避免“老化”。学习来源:运行经验(日志、HITL 反馈)和外部信号(政策更新)。优化包括上下文工程和工具创建。示例:多智能体工作流学习合规指南。Agent Gym 是前沿:离线模拟平台,使用合成数据和专家咨询优化。
11. 高级智能体示例
· Google Co-Scientist:虚拟研究伙伴,生成并评估假设。通过监督智能体管理专家团队,运行循环改进想法。
· AlphaEvolve:发现算法,结合 Gemini 生成代码和进化评估。人类指导定义问题,确保透明和实用。
12. 结论
智能体将 AI 从工具转变为伙伴,通过模型、工具和编排的集成实现自主性。开发者需从“砖瓦工”转向“导演”,强调评价和治理。这一框架指导构建可靠系统,推动智能体成为团队成员。
Google x Kaggle 5天 AI 智能体强化课程:
https://t.co/0REUoVY2EN
Google 11月最新白皮书「Introduction to Agents」:
https://t.co/Gj7i3a8HGv
点击图片查看原图