Coding Agent
覆盖约47%工作时长📖 概述
Coding Agent是一种IDE集成的AI编程助手,能够提供代码补全、代码生成、重构、调试、Bug修复等功能。它通过理解代码上下文和开发者意图,提供智能的编程辅助。
🔧 技术实现
核心架构
┌─────────────────────────────────────────────────────────────────┐
│ IDE 客户端 │
│ ┌─────────────┐ ┌──────────────┐ ┌─────────────────────┐ │
│ │ 编辑器事件 │ │ 上下文收集 │ │ Language Server │ │
│ │ 监听器 │─▶│ 模块 │─▶│ Protocol (LSP) │ │
│ └─────────────┘ └──────────────┘ └─────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ Prompt 构建层 │
│ ┌─────────────┐ ┌──────────────┐ ┌─────────────────────┐ │
│ │ AST 解析 │ │ 代码分块 │ │ Prompt 工程 │ │
│ │ (Tree-sitter)│ │ (Chunking) │ │ (Prompt Library) │ │
│ └─────────────┘ └──────────────┘ └─────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ 上下文检索层 │
│ ┌─────────────┐ ┌──────────────┐ ┌─────────────────────┐ │
│ │ 向量嵌入 │ │ 向量数据库 │ │ 语义搜索 │ │
│ │ Embeddings │ │ (Milvus等) │ │ (RAG) │ │
│ └─────────────┘ └──────────────┘ └─────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ LLM 推理层 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 代码生成模型 (Codex / GPT-4 / Claude / 通义千问-Code) │ │
│ │ 支持 Fill-In-the-Middle (FIM) 范式 │ │
│ └─────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
关键技术点
同时考虑光标前(prefix)和光标后(suffix)的代码,相比传统方式带来10%的相对性能提升。
基于抽象语法树的代码分块,保持函数/类的语义完整性,避免在代码中间断开。
只重新索引变更的文件,通过哈希比较快速检测变化,显著提升大型代码库的索引效率。
将代码块转换为向量嵌入,支持基于语义的代码检索,结合grep精确匹配和向量语义匹配。
Microsoft定义的标准协议,实现M种语言 × N种编辑器 → M + N的工作量,语言服务器在独立进程中运行。
核心技术栈
🎯 应用场景
- 代码补全:实时代码续写,行级/函数级补全建议
- 代码生成:根据注释或自然语言描述生成完整代码
- 代码重构:优化代码结构,提升可读性和性能
- Bug修复:自动定位并修复代码缺陷
- 调试辅助:帮助定位问题根因,提供调试建议
- 单元测试生成:自动生成测试用例和Mock数据
Chatbot Agent
覆盖约15%工作时长📖 概述
Chatbot Agent是一种对话式AI系统,能够与用户进行自然语言交互。现代Chatbot通常结合大型语言模型(LLM)和检索增强生成(RAG)技术,提供准确、有上下文的回答,支持知识问答、文档写作、翻译等多种任务。
🔧 技术实现
RAG架构流程
┌─────────────────────────────────────────────────────────────────┐
│ Chatbot Agent 架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 用户输入 │ → │ 会话管理 │ → │ 查询处理 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ RAG Pipeline │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────────────┐ │ │
│ │ │ Embedding │→│向量数据库 │→│ 相似性检索 (Top-K)│ │ │
│ │ └──────────┘ └──────────┘ └──────────────────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Prompt Engineering │ │
│ │ System Prompt + Retrieved Context + User Query │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ LLM │ → │ 流式输出 │ → │ 用户响应 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
关键技术点
将信息检索与生成模型结合,使LLM能够引用训练数据之外的权威知识库,显著减少幻觉。
将长文档分割成有意义的文本片段。推荐Chunk Size 1000-2000字符,Overlap 100-200字符,使用递归字符分割器。
存储和检索嵌入向量,支持高效相似性搜索。常用方案:Pinecone(云端)、Chroma(轻量)、Milvus(高性能)、FAISS(本地)。
管理多轮对话历史,支持上下文压缩(Compaction)保留潜在理解。GPT-4o支持128K tokens,Claude 3.5支持200K tokens。
使用Server-Sent Events实现流式传输,即时反馈,创造动态响应式用户体验。
核心技术栈
🎯 应用场景
- 技术问答:回答各类技术问题,提供解决方案
- 内部知识问答:基于企业知识库的智能问答
- 文档写作:撰写博客、周报、邮件等
- 文档润色翻译:优化文档表达、技术文档翻译
- 技术学习:AI辅助学习新技术
Workflow Agent
覆盖约15%工作时长📖 概述
Workflow Agent是一类自动化AI系统,通过预定义的工作流程或动态决策来完成复杂任务。与普通Agent不同,Workflow Agent更注重任务编排、流程控制和系统集成,适用于代码审查、文档处理、会议纪要等场景。
🔧 技术实现
工作流模式
每个LLM调用处理上一个调用的输出,适用于可分解为小步骤的任务。
多个LLM同时处理不同子任务,最后聚合结果,显著提升处理效率。
根据用户意图将查询路由到专门的处理Agent,实现任务分流。
编排器分解任务,工作者并行执行,最后综合结果。
一个LLM生成响应,另一个评估并提供反馈,循环改进直到满足条件。
关键技术点
定义任务之间的依赖关系和执行顺序,支持并行和顺序执行,动态创建任务节点。
工作流由事件驱动的步骤组成,每个步骤是一个状态,支持Choice、Parallel、Map等状态类型。
支持PR开启、Issue创建、CI完成等事件触发,使用HMAC签名验证请求来源安全性。
强制LLM输出符合JSON Schema的响应,支持Markdown、Pydantic模型等多种格式。
核心技术栈
🎯 应用场景
- Code Review:自动审查代码质量,检测安全漏洞
- 文档处理:PRD解析、API文档生成、用例设计
- 会议纪要:自动生成会议记录和行动项
- PPT生成:根据内容自动生成演示文稿
- CI/CD配置:配置流水线和部署脚本
Research Agent
覆盖约8%工作时长📖 概述
Research Agent是一种先进的AI系统,能够自主执行深度研究任务,包括网络搜索、多源信息综合、引用管理和报告生成。采用多智能体协作架构,能够进行迭代式、多维度的信息探索和分析。
🔧 技术实现
多智能体架构
[用户查询]
↓
[Lead Researcher Agent] ← 主协调者
↓
[创建多个专门化子智能体]
↓
[并行执行搜索和分析]
↓
[综合结果 + 引用处理]
↓
[最终报告]
关键组件:
• Lead Researcher:分析查询、制定策略、分配任务、综合结果
• Sub-Researchers:独立执行搜索、使用不同工具探索不同方向
• Citation Agent:处理文档引用,确保所有声明都有来源支撑
• Credibility Critic:评估信息源的可靠性和覆盖范围
• Report Writer:基于收集的信息撰写初稿
• Reflection Critic:审查报告并提供改进反馈
关键技术点
仅预定义任务类型,AI在运行时动态决定执行哪个任务,比工作流模式更灵活和可扩展。
向量检索(~30个结果)+ 关键词检索(~20个结果)→ 去重合并 → 神经重排序(Cross-Encoder)。
使用PPO强化学习路由器,根据查询复杂度、延迟目标、任务类型动态选择最佳模型。
将问题分解为更小组件,用更便宜的模型处理子任务,拼接结果,避免大上下文导致的准确性退化。
根据中间发现动态调整研究计划,可将研究时间减少90%。
核心技术栈
🎯 应用场景
- 技术调研:调研新技术方案,生成技术选型报告
- 竞品分析:分析竞争产品,生成对比报告
- 技术方案:生成技术方案文档
- 文献综述:收集和综合多源信息
Design Agent
覆盖约4%工作时长📖 概述
Design Agent专注于图表绘制、配图生成、图表美化等设计任务。通过自然语言理解用户意图,调用图表生成引擎或AI图像生成模型,快速产出可视化内容。
🔧 技术实现
架构流程
用户输入 → LLM理解意图 → 生成结构化描述 → 调用渲染引擎 → 输出可视化结果
┌─────────────────────────────────────────────────────────────┐
│ Design Agent Architecture │
├─────────────────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ User Input │→ │ LLM Core │→ │ Generator │ │
│ │ (Natural │ │ (GPT-4o/ │ │ (Mermaid/ │ │
│ │ Language) │ │ Claude) │ │ SD/DALL-E)│ │
│ └─────────────┘ └─────────────┘ └──────┬──────┘ │
│ ↓ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Output │← │ Render │← │ Assets │ │
│ │ (SVG/PNG/ │ │ Engine │ │ Library │ │
│ │ PDF) │ │ │ │ │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
└─────────────────────────────────────────────────────────────┘
关键技术点
基于文本的图表生成语言,LLM可直接输出Mermaid语法代码,支持流程图、时序图、类图、ER图等。
基于扩散模型的图像生成,使用ControlNet进行精确控制,通过LoRA进行风格微调。
另一种流行的文本到图表转换工具,适合UML图、架构图等技术图表。
最终可视化呈现层,支持矢量图形和位图渲染。
核心技术栈
🎯 应用场景
- 架构图:绘制系统架构图
- 流程图:绘制业务流程图
- ER图:绘制数据库ER图
- 配图生成:生成文章配图
- 图表美化:美化数据图表
Data Analysis Agent
覆盖约3%工作时长📖 概述
Data Analysis Agent专注于数据分析任务,能够将自然语言查询转换为SQL语句执行,进行日志分析、性能分析,并生成数据可视化报告和洞察。
🔧 技术实现
Text-to-SQL流程
┌─────────────────────────────────────────────────────────────┐
│ Data Analysis Agent Architecture │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌─────────────┐ │
│ │ Natural Lang │────→│ NL2SQL │────→│ Database │ │
│ │ Query │ │ Engine │ │ (SQL/NoSQL)│ │
│ └──────────────┘ └──────────────┘ └──────┬──────┘ │
│ ↓ │
│ ┌──────────────┐ ┌──────────────┐ ┌─────────────┐ │
│ │ Visualization│←────│ Pandas/ │←────│ Query │ │
│ │ Output │ │ NumPy │ │ Result │ │
│ └──────────────┘ └──────────────┘ └─────────────┘ │
│ ↓ │
│ ┌──────────────┐ │
│ │ LLM Insight │ ←── 自动生成数据洞察与解读 │
│ │ Generation │ │
│ └──────────────┘ │
└─────────────────────────────────────────────────────────────┘
处理步骤:
1. 用户输入自然语言问题
2. LLM分析问题意图
3. 获取数据库Schema信息
4. 生成对应SQL查询
5. 执行查询并获取结果
6. 结果可视化呈现 + 洞察生成
关键技术点
自然语言解析为SQL查询,Schema感知的查询生成,多轮对话上下文维护,使用LangChain SQL Agent实现。
数据清洗、转换和分析,支持大规模数据处理,与Python数据科学生态深度集成。
Matplotlib、Seaborn、ECharts等图表库,自动选择最佳图表类型呈现数据。
LLM分析数据结果,自动生成趋势分析、异常检测、关键发现等洞察报告。
核心技术栈
🎯 应用场景
- 日志分析:分析系统日志,定位问题
- 性能分析:分析性能指标,识别瓶颈
- SQL查询:自然语言生成SQL语句
- 数据报表:自动生成数据报表和可视化
Background Agent
覆盖约4%工作时长📖 概述
Background Agent是后台持续运行的AI系统,用于日程管理、邮件处理、定时任务等场景。通过任务调度、事件驱动和通知推送,实现工作流自动化。
🔧 技术实现
架构设计
┌─────────────────────────────────────────────────────────────┐
│ Background Agent Architecture │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Cron │ │ Event │ │ Manual │ │
│ │ Trigger │ │ Trigger │ │ Trigger │ │
│ └────┬─────┘ └────┬─────┘ └────┬─────┘ │
│ │ │ │ │
│ └──────────────┼──────────────┘ │
│ ↓ │
│ ┌─────────────────┐ │
│ │ Task Scheduler │ │
│ │ (Celery/APSch) │ │
│ └────────┬────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────┐ │
│ │ Workflow Engine │ │
│ │ (State Machine / DAG Executor) │ │
│ └────────────────┬─────────────────────┘ │
│ ↓ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Email │ │ SMS │ │ Webhook │ │ Slack │ │
│ │ Notify │ │ Notify │ │ Callback│ │ Bot │ │
│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────────────────────┘
关键技术点
定时任务调度,支持Cron表达式,可精确到分钟级别的任务执行。
Webhook、消息队列触发,支持Redis Pub/Sub、Kafka等事件订阅与发布机制。
Temporal、Airflow等复杂流程编排工具,状态机管理任务生命周期。
多渠道消息推送,支持Email、SMS、Slack、企业微信等通知方式。
核心技术栈
🎯 应用场景
- 日程管理:智能日程安排与提醒
- 邮件处理:自动分类、回复邮件
- 信息推送:定时推送重要信息
- 定时任务:自动化例行任务执行
Browser Use Agent
覆盖约2%工作时长📖 概述
Browser Use Agent是网页自动化AI,能够像人类一样操作浏览器,执行数据采集、表单填写等任务。结合视觉模型和DOM解析,实现智能网页交互。
🔧 技术实现
执行循环
┌─────────────────────────────────────────────────────────────┐
│ Browser Use Agent Architecture │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ │
│ │ User Task │ ←── "Fill out the job application" │
│ └──────┬───────┘ │
│ ↓ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ Screenshot │────→│ Vision Model │ │
│ │ Capture │ │ Analysis │ │
│ └──────────────┘ └──────┬───────┘ │
│ ↓ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ LLM Core │────→│ Action │ │
│ │ (Planning) │ │ Executor │ │
│ └──────────────┘ └──────┬───────┘ │
│ ↓ │
│ ┌──────────────────────────────────────┐ │
│ │ Playwright / Puppeteer │ │
│ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │ Click │ │ Type │ │ Scroll │ │ │
│ │ └────────┘ └────────┘ └────────┘ │ │
│ └──────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
执行流程:
任务请求 → 截图分析 → 元素识别 → 动作规划 → Playwright执行 → 结果验证 → 循环
关键技术点
微软/Google开发的浏览器自动化框架,支持多浏览器,提供丰富的DOM操作API。
截图 + Vision Model识别页面元素,理解页面布局和交互区域。
解析DOM树,定位可交互元素,支持CSS选择器和XPath。
可操作从未见过的网站,抗网站布局变化,单一工作流适用多网站。
核心技术栈
🎯 应用场景
- 数据采集:采集网页数据,爬取公开信息
- 表单填写:自动填写各类在线表单
- 网页测试:自动化端到端测试
- 流程自动化:跨网站的业务流程自动化
Computer Use Agent
覆盖约2%工作时长📖 概述
Computer Use Agent是桌面GUI自动化AI,能够控制鼠标、键盘,操作任意桌面应用程序。通过屏幕截图分析和精确的像素级定位,实现跨应用的复杂任务自动化。
🔧 技术实现
执行循环
感知(Perception) → 推理(Reasoning) → 行动(Action) → 循环
┌─────────────────────────────────────────────────────────────┐
│ Computer Use Agent Architecture │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ Execution Loop │ │
│ │ │ │
│ │ ┌────────────┐ │ │
│ │ │ Screenshot │ ←─────────────────────────┐ │ │
│ │ │ Capture │ │ │ │
│ │ └─────┬──────┘ │ │ │
│ │ ↓ │ │ │
│ │ ┌────────────┐ ┌────────────┐ │ │ │
│ │ │ Vision │────→│ LLM │ │ │ │
│ │ │ Analysis │ │ Reasoning │ │ │ │
│ │ └────────────┘ └─────┬──────┘ │ │ │
│ │ ↓ │ │ │
│ │ ┌────────────┐ │ │ │
│ │ │ Action │ │ │ │
│ │ │ Executor │────────┘ │ │
│ │ └─────┬──────┘ │ │
│ └───────────────────────────┼──────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ OS Control Layer │ │
│ │ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │ Mouse │ │Keyboard│ │ Screen │ │ Bash │ │ │
│ │ │ Click │ │ Type │ │ Scroll │ │ Cmd │ │ │
│ │ └────────┘ └────────┘ └────────┘ └────────┘ │ │
│ └──────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
执行步骤:
1. 感知:截图添加到模型上下文
2. 推理:链式思维决定下一步
3. 行动:点击、滚动、输入直到完成
关键技术点
实时捕获屏幕内容,使用Vision Model理解界面元素和状态。
通过像素计数精确定位目标元素,无需特定API集成即可操作任意应用。
模拟人类的鼠标移动、点击、拖拽和键盘输入操作。
无需针对特定应用集成,可操作任意GUI应用程序。
支持多步骤工作流执行,能够识别错误并进行恢复。
核心技术栈
🎯 应用场景
- 桌面自动化:自动化桌面操作任务
- 文件管理:自动化文件整理和处理
- 跨应用工作流:多个桌面应用之间的协作
- 测试自动化:GUI应用的自动化测试
🏢 典型产品
⚠️ 安全考虑
- 隔离环境运行:建议在VM/容器中运行,避免影响主系统
- 最小权限原则:仅授予必要的系统权限
- 敏感操作确认:重要操作前需人工确认
- 操作日志审计:记录所有操作用于审计
- 步骤限制与超时:防止无限循环执行