Building Effective Agents
Anthropic 官方博客文章
Anthropic Applied AI 团队核心成员,Agent 领域最具影响力的实践者与布道者
| 类型 | 标题 | 平台 | 时间 |
|---|---|---|---|
| 📝 博客 | Building Effective AI Agents | Anthropic 官方 | 2024.12.19 |
| 🎤 演讲 | How We Build Effective Agents | AI Engineer Summit 2025 | 2025.02 |
| 🎤 演讲 | Don't Build Agents, Build Skills Instead | AI Engineer Code Summit | 2025.11 |
| 🎥 视频 | Tips for building AI agents | Anthropic 官方 | 2025.02 |
| 📰 采访 | More AI Agents Isn't the Answer | Business Insider | 2025.12.08 |
Barry Zhang 与 Erik Schluntz 共同提出了业界最清晰的 Agent 定义框架,解决了"Agent"一词被滥用的问题。
这是构建所有 agentic systems 的基础构建块:
生成搜索查询,获取外部知识。实现方式:RAG、向量数据库。
选择并调用合适的工具。实现方式:Function Calling。
决定保留哪些信息。实现方式:上下文管理、长期记忆。
不要为所有事情构建 Agent —— 这是 Barry Zhang 最核心的观点。他强调在构建 LLM 应用时,应该找到最简单的解决方案,只有在必要时才增加复杂度。
| 维度 | 适合 Agent ✅ | 适合 Workflow ⚡ |
|---|---|---|
| 任务复杂度 | 问题空间模糊,难以预测所需步骤数 | 可以轻松画出完整决策树 |
| 任务价值 | 高价值产出,不限 token 预算 | 低预算(如每任务 $0.10) |
| 关键能力 | 核心能力已验证,无明显瓶颈 | 存在基础能力短板 |
| 错误成本 | 低风险、错误易发现和恢复 | 高风险、错误难以检测 |
| 可验证性 | 结果可通过测试或反馈验证 | 结果难以客观评估 |
保持简单 —— 这是 Barry Zhang 反复强调的原则。Agent 的本质定义惊人地简单。
| 组件 | 作用 | 设计要点 |
|---|---|---|
| Environment | Agent 运行的系统和上下文 | 定义清晰的边界和能力范围 |
| Tools | 采取行动和获取反馈的接口 | 文档清晰、返回值明确 |
| System Prompt | 定义目标、约束和理想行为 | 简洁但完整,包含示例 |
像你的 Agent 一样思考 —— 这是 Barry Zhang 最具洞察力的建议。
将自己置于 Agent 的上下文窗口中。Agent 在每一步推理时,所知道的关于世界的一切都只有 10-20K tokens。
想象你在使用电脑,但:
这就是 Agent 看到的世界!
| 方法 | 具体操作 |
|---|---|
| 让 Claude 检查 Prompt | 问:"这个 prompt 有歧义吗?如果是你会怎么理解?" |
| 评估工具描述 | 问:"这个工具描述清楚吗?你知道什么时候该用吗?" |
| 分析 Agent 轨迹 | 把决策历史喂给 Claude,问:"你为什么在第3步选择了这个工具?" |
| 直接询问模型 | 问:"根据当前上下文,你觉得下一步应该做什么?为什么?" |
Barry Zhang 总结了五种在生产环境中常见的 agentic 模式:
核心思想:将任务分解为顺序步骤,每个 LLM 处理前一个的输出。
优势:用延迟换取更高准确率,每步更简单。
示例:生成营销文案 → 翻译成中文;写文档大纲 → 检查大纲 → 基于大纲写全文。
核心思想:分类输入并路由到专门处理流程。
优势:关注点分离,每条路径可深度优化。
示例:客服问题分流(常见问题 → 退款 → 技术支持);简单问题用 Haiku,复杂问题用 Sonnet。
拆分为独立子任务并行执行。示例:多页面 OCR、guardrails 与主响应分离。
同一任务多次执行取共识。示例:代码漏洞多角度审查。
核心思想:中央 LLM 动态分解任务,委派给工作 LLM,综合结果。
区别于并行化:子任务不是预定义的,由协调器根据输入决定。
示例:代码 Agent 修改多个文件;多源搜索并综合信息。
核心思想:一个 LLM 生成,另一个 LLM 评估并提供反馈,循环优化。
适用条件:1. 有明确评估标准 2. 人类反馈能提升质量。
示例:文学翻译捕捉细微差别;复杂搜索任务多轮深入。
Barry Zhang 详细解释了为什么编码是 Agent 应用的"甜点":
| 维度 | 分析 |
|---|---|
| 复杂性 ✅ | 从设计文档到 PR,过程高度模糊和复杂,难以预定义所有步骤 |
| 价值 ✅ | 优质代码价值极高,值得消耗大量 tokens |
| 能力验证 ✅ | Claude 等模型已证明编码能力出色(SWE-bench 表现) |
| 可验证性 ✅ | 通过单元测试、CI/CD 自动验证结果正确性 |
| 反馈循环 ✅ | 测试结果提供明确的环境反馈 |
类比人机交互 (HCI),Barry 提出了 Agent-Computer Interface (ACI) 概念——这是被严重低估但至关重要的领域。
| 原则 | 说明 | 反例 |
|---|---|---|
| 给模型思考空间 | 让模型有足够 tokens 计划后再行动 | 要求模型直接输出 diff(需先知道行数变化) |
| 贴近自然文本 | 格式应接近模型在训练数据中见过的 | 高度结构化的自定义 DSL |
| 避免格式开销 | 无需精确计数或转义 | JSON 中的代码需要转义换行和引号 |
"While building our agent for SWE-bench, we actually spent more time optimizing our tools than the overall prompt."
例如:将相对路径改为绝对路径,Agent 使用正确率从有错误变为完美。
Barry Zhang 总结了两个特别有价值的 Agent 应用领域:
Barry Zhang 在演讲中提出了三个尚待解决的关键问题:
问题:Agent 的成本和延迟难以预测和控制
复杂性:如何定义"预算"?时间?金钱?tokens?
方向:让 Agent 自己感知和管理预算约束
概念:Meta-tool,让 Agent 设计和改进自己的工具
意义:使 Agent 更加通用化,减少人工工具设计
挑战:如何确保自创工具的安全性和有效性?
预测:2025 年内将大量进入生产环境
优势:并行化、关注点分离、保护主 Agent 上下文
挑战:Agent 间如何通信?如何从同步转向异步?
这是 Barry Zhang 在 2025 年 11 月 AI Engineer Code Summit 上提出的最新思想演进,与 Mahesh Murag 联合发表。
"Skills are organized collections of files that package composable procedural knowledge for agents."
本质:一个 Markdown 文件告诉模型如何做某事,可选地附带额外文档和预写脚本。
技能可以跨 Agent、跨项目共享
技能越多,Agent 能力增长越快
每个 Skill 可以深度优化
非技术人员也能创建 skill
| 维度 | Skills | MCP |
|---|---|---|
| 复杂度 | 极简(Markdown + 脚本) | 完整协议规范 |
| Token 消耗 | 按需加载,高效 | GitHub MCP 消耗数万 tokens |
| 实现门槛 | 写 Markdown 即可 | 需要实现服务器 |
| 灵活性 | 脚本可做任何事 | 受限于协议能力 |
这预示着一个自我进化的生态系统:Agent 使用 skills → 发现不足 → 创建新 skills → 被其他 Agent 使用 → 整体能力螺旋上升。
"Skills actually came out of a prototype I built demonstrating that Claude Code is a general-purpose agent :-)"
"It was a natural conclusion once we realized that bash + filesystem were all we needed."
与 Erik Schluntz 合著
"How We Build Effective Agents" (404K+ views)
"Don't Build Agents, Build Skills Instead" (742K+ views)
| 维度 | 建议 |
|---|---|
| 用例选择 | 高价值、高复杂度、错误可发现可恢复 |
| 信任建立 | 展示 Agent 规划步骤,保持透明 |
| Skills 策略 | 开始创建组织专属 skills 库 |
| 知识沉淀 | 将最佳实践转化为 skills |
Anthropic 官方博客文章
官方 Skills 代码库
MCP 官方文档
AI Engineer Summit 2025 (404K+ views)
AI Engineer Code Summit (742K+ views)
Anthropic 官方频道
Building Effective Agents 深度分析
Skills 可能比 MCP 更重要
More AI Agents Isn't the Answer