Agent组成和工作模式

# 一、agent的核心组成

Agent（智能体）的核心组成可以理解为让AI“能思考、能规划、能行动”的几个关键模块。虽然不同架构的实现有细节差异，但绝大多数Agent都包含以下四个核心部分：

这是Agent的“大脑”，负责所有认知任务：

如果没有LLM，Agent就没有“思考”能力，只是一个机械的执行器。

规划模块让Agent具备了拆解任务和制定步骤的能力。它的核心机制是：

规划机制	说明
任务分解	将复杂任务拆分成可执行的小步骤（如 Chain-of-Thought、ReAct）
自我反思	定期检查已执行的动作是否达成目标，必要时调整计划
错误修正	如果某一步失败了，Agent可以重新规划路径（如自我纠正机制）
多步推理	支持“思考 → 行动 → 观察 → 再思考”的循环

如果没有规划模块，Agent就像“走一步看一步”，无法完成复杂的长期任务。

这是Agent区别于纯LLM的核心所在——它让Agent真正能“动手”去改变外部世界。

工具可以是任何能调用的外部功能，常见的有：

工具调用一般通过标准化接口（如OpenAI的Function Calling或通用的Tool SDK）来实现：Agent生成一个“调用请求”，外部系统执行，然后将结果返回给Agent。

如果没有工具调用模块，Agent就只能“纸上谈兵”，输出建议但无法真正执行。

记忆模块让Agent具备了持续学习和状态感知的能力，主要分两种类型：

记忆类型	说明	存储方式
短期记忆（Working Memory）	当前会话内的上下文（对话历史、当前任务状态）	LLM的上下文窗口（如4K、128K token）
长期记忆（Long-term Memory）	跨会话的知识、用户偏好、学习到的经验	向量数据库（如Chroma、Pinecone）、关系数据库或文件系统

记忆模块是Agent“越用越聪明”的基础。例如，Agent可以通过长期记忆记住用户的编码风格，在不同的会话中保持一致。

如果没有记忆模块，Agent每次对话都“失忆”，无法提供连贯的个性化服务。

四个组成部分的协同关系：

上次更新: 2026-06-23 17:08:57