Agent组成和工作模式
# 一、agent的核心组成
Agent(智能体)的核心组成可以理解为让AI“能思考、能规划、能行动”的几个关键模块。虽然不同架构的实现有细节差异,但绝大多数Agent都包含以下四个核心部分:
# 1. 核心大脑:LLM(大语言模型)
这是Agent的“大脑”,负责所有认知任务:
| 功能 | 具体表现 |
|---|---|
| 理解任务 | 解析用户的自然语言指令 |
| 推理决策 | 根据当前状态和历史,决定下一步做什么 |
| 生成计划 | 将复杂任务拆解为可执行的子任务 |
| 生成输出 | 最终以文本形式给出回复或指令 |
如果没有LLM,Agent就没有“思考”能力,只是一个机械的执行器。
# 2. 规划模块(Planning / Reasoning)
规划模块让Agent具备了拆解任务和制定步骤的能力。它的核心机制是:
| 规划机制 | 说明 |
|---|---|
| 任务分解 | 将复杂任务拆分成可执行的小步骤(如 Chain-of-Thought、ReAct) |
| 自我反思 | 定期检查已执行的动作是否达成目标,必要时调整计划 |
| 错误修正 | 如果某一步失败了,Agent可以重新规划路径(如自我纠正机制) |
| 多步推理 | 支持“思考 → 行动 → 观察 → 再思考”的循环 |
如果没有规划模块,Agent就像“走一步看一步”,无法完成复杂的长期任务。
# 3. 工具调用模块(Tool Use)
这是Agent区别于纯LLM的核心所在——它让Agent真正能“动手”去改变外部世界。
工具可以是任何能调用的外部功能,常见的有:
| 工具类型 | 示例 |
|---|---|
| 搜索工具 | Google搜索、百度搜索、Wikipedia查询 |
| 代码执行器 | 运行Python脚本、SQL查询 |
| API调用 | 调用天气API、汇率API、数据库操作API |
| 文件操作 | 读取、写入、修改本地文件 |
| 外部服务 | 发送邮件、调用Webhook、操作GitHub |
| 专用工具 | 浏览器操作、调用其他AI模型 |
工具调用一般通过标准化接口(如OpenAI的Function Calling或通用的Tool SDK)来实现:Agent生成一个“调用请求”,外部系统执行,然后将结果返回给Agent。
如果没有工具调用模块,Agent就只能“纸上谈兵”,输出建议但无法真正执行。
# 4. 记忆模块(Memory)
记忆模块让Agent具备了持续学习和状态感知的能力,主要分两种类型:
| 记忆类型 | 说明 | 存储方式 |
|---|---|---|
| 短期记忆(Working Memory) | 当前会话内的上下文(对话历史、当前任务状态) | LLM的上下文窗口(如4K、128K token) |
| 长期记忆(Long-term Memory) | 跨会话的知识、用户偏好、学习到的经验 | 向量数据库(如Chroma、Pinecone)、关系数据库或文件系统 |
记忆模块是Agent“越用越聪明”的基础。例如,Agent可以通过长期记忆记住用户的编码风格,在不同的会话中保持一致。
如果没有记忆模块,Agent每次对话都“失忆”,无法提供连贯的个性化服务。

四个组成部分的协同关系:

上次更新: 2026-06-23 17:08:57