Agent

一、传统视角下的智能体

1. 基于模型的反射智能体 (Model-Based)

智能体引入了**世界模型（World Model）**来维护内部状态，试图回答“世界全貌为何”。即使在传感器盲区（如隧道中的自动驾驶），内部模型仍能维持对环境的连贯认知。这赋予了智能体初级记忆，使其决策跨越瞬时感知，具备了时间上的连续性。

核心逻辑：状态估计 (State Estimation)。智能体不仅仅依赖当前的传感器输入 $O_t$，而是结合上一时刻的内部状态 $S_{t-1}$ 和采取的动作 $A_{t-1}$ 来推导当前状态 $S_t$。
机制实现：
- 状态转移模型：预测“如果我做这个动作，世界会怎么变？”（公式：$S_t = f(S_{t-1}, A_{t-1})$）。
- 传感器模型：解释“现在的观测数据反映了世界的什么状态？”。
典型模型/算法：
- 卡尔曼滤波 (Kalman Filter)：在自动驾驶中，利用物理模型预测位置，再用含噪的GPS数据修正，从而在信号丢失时仍能维持轨迹追踪。

2. 基于目标的智能体 (Goal-Based)

仅有认知是不够的，智能体需具备目的性。此类智能体从被动反应转向主动规划（Planning），核心在于回答“如何达成目标”。通过搜索算法，它能预演未来路径，确保行动导向特定的终局状态。

核心逻辑：搜索与规划 (Search & Planning)。智能体将环境视为一个状态图，寻找从“当前状态”到“目标状态”的行动序列。它不再关注单步反应，而是关注路径的可达性。
机制实现：
- 状态空间搜索：在决策树中模拟未来的可能性，生成动作序列。
- 启发式评估：评估当前位置距离目标还有多远（Cost-to-Go），以剪除无用路径，提高效率。
典型模型/算法：
- A 算法 (A-Star)*：在地图导航中，结合“已走距离”($g$)和“预估剩余距离”($h$)来计算代价 ($f=g+h$)，从而规划出通往终点的最短路径。
- STRIPS 规划器：在机器人任务中，通过“前置条件”和“效果”逻辑链推导动作序列（如：移动->抓取->放置）。

3. 基于效用的智能体 (Utility-Based)

面对多重冲突目标（如导航中需平衡时间、油耗与拥堵），简单的二元成败已不足够。此类智能体引入效用函数量化满意度，旨在回答“何种选择收益最大”。这使其能进行复杂权衡，实现接近人类理性的最优决策。

核心逻辑：期望效用最大化 (Expected Utility Maximization)。将目标状态映射为实数值（效用值），处理多目标冲突与不确定性。决策标准从“是否达成”变为“收益多少”。
机制实现：
- 效用函数 $U(S)$：将复杂的状态映射为单一的满意度分数（如：$U = w_1 \cdot \text{省钱} + w_2 \cdot \text{省时}$）。
- 决策法则：选择期望效用最高的动作 $a^* = \arg\max \sum P(Result|a) \times U(Result)$。
典型模型/算法：
- 多目标优化 (Multi-Objective Optimization)：在金融交易中，算法不仅追求收益率（Goal），还在风险（Variance）和收益之间计算夏普比率（Utility），以决定投资组合。

4. 学习型智能体 (Learning Agent)

上述三者均依赖预设知识，而学习型智能体通过**强化学习（RL）**打破了这一限制。它由“性能元件”执行决策，“学习元件”依据环境反馈（奖励机制）修正策略。如AlphaGo通过自我对弈与试错，实现了从零经验到超越人类知识的自主进化。

核心逻辑：误差反向传播与策略更新 (Error Feedback & Policy Update)。将智能体拆解为“执行者”与“批评者”。通过环境反馈的奖惩信号，调整内部决策参数，无需预设完整规则。
机制实现：
- 评价元件 (Critic)：将环境反馈转化为奖励/惩罚信号（Reward Signal）。
- 学习元件 (Learning Element)：根据信号修改知识库或决策权重（如更新Q表或神经网络权重）。
典型模型/算法：
- Q-Learning / DQN：智能体维护一张表（或神经网络），记录在状态 $S$ 下采取动作 $A$ 的预期价值 $Q(S,A)$，通过贝尔曼方程迭代更新，最终学会最优策略。

二、大语言模型驱动的智能体

以 GPT 为代表的大语言模型（LLM）的出现，标志着智能体构建范式的根本性转移。智能体的核心决策机制从“显式规则”跃迁为“隐式推理”，从而突破了传统自动化的能力边界。

1. 核心范式对比：从规则到概率

传统智能体与 LLM 智能体的本质区别，在于其认知引擎与知识获取方式的不同。如下表所示：

对比维度	传统智能体 (Rule-Based)	LLM 驱动的智能体 (Learning-Based)
核心引擎	逻辑系统：基于显式编程的 `if-then` 规则	推理引擎：基于预训练模型的概率预测
知识来源	外部注入：工程师预定义的知识图谱与算法	内化涌现：从海量非结构化数据中压缩学习
交互带宽	窄带宽：仅接受结构化、精确的命令	宽带宽：理解高层级、模糊的自然语言意图
运行机制	确定性：输入固定则输出固定，路径可预测	生成式：具备随机性，输出具有多样性与创造性
适应边界	封闭集：仅能处理预设框架内的任务	开放集：具备强大的零样本 (Zero-shot) 泛化能力

2. 实例解析：智能旅行助手的进化

这种范式转移，使得 LLM 智能体能够胜任高层级、非结构化的复杂任务。以“规划一次厦门之旅”为例，LLM 智能体展现了以下核心能力，彻底改变了人机交互的流程：

意图理解与任务分解 (Decomposition) 传统系统需要用户手动拆解任务（查天气、订票、找酒店）。而 LLM 智能体能直接理解模糊意图，通过内在的逻辑推理，将高层目标自动分解为 [偏好确认] -> [信息检索] -> [方案生成] -> [资源预订] 的可执行子任务链。
工具使用与信息补全 (Tool Use) 智能体不再是封闭系统，它能识别自身知识的边界。当发现缺乏实时数据时，它会主动生成指令调用外部 API（如天气接口），并将返回的“预报有雨”作为新的环境状态 (State)，在后续规划中智能地调整策略（如增加室内活动权重）。
动态规划与反馈修正 (Dynamic Planning) 在交互中，智能体具备长短期记忆。它能将用户的实时反馈（如“预算超标”）作为新增约束条件，即时回溯并修正之前的决策树。整个“感知-规划-行动”的闭环不再是硬编码的流程图，而是由上下文驱动的动态生成的路径。

总而言之，这一新范式的本质是：我们将开发的重心从编写特定的控制逻辑，转移到了引导一个通用的智能大脑。核心不再是构建自动化工具，而是培养能够自主规划、行动和纠错的数字劳动力。

三、智能体的分类架构

在理解智能体的演进后，我们需要深入其系统内核。本节将从决策机制的复杂度、时空资源的权衡以及底层认知的表征三个维度，对智能体架构进行解构。

1. 基于内部决策架构的分类：从本能到适应

依据《Artificial Intelligence: A Modern Approach》的经典范式，智能体的决策层级是由信息的处理深度决定的，呈现出阶梯式的进化特征：

反射与模型层（生存与感知）
- 简单反射：仅基于当前感知做出响应，本质是条件查找表（Lookup Table）。逻辑形式为 if condition then action，不涉及推理，适用于全观察环境。
- 基于模型：引入状态估计 (State Estimation)。智能体维护一个内部变量 $S_t$，用于记录“世界现在的状态”。它通过 $S_t = f(S_{t-1}, A_{t-1}, O_t)$ 的状态转移方程，在传感器盲区通过历史记忆补全当前认知。
目标与效用层（意图与优化）
- 基于目标：决策不再由规则驱动，而是由搜索算法驱动。智能体在状态空间图中寻找从 $S_{start}$ 到 $S_{goal}$ 的路径。这引入了“未来”的概念。
- 基于效用：引入偏好函数 (Utility Function) $U(S)$。当存在多条路径达成目标时，通过最大化期望效用 $\mathbb{E}[\sum U(s)]$ 来寻找最优解（如耗时最短、风险最低）。
学习层（元能力 Meta-Capability）
- 这是上述所有架构的“元层级”。它不直接做决策，而是通过评价元件 (Critic) 观察决策结果，利用性能反馈 (Feedback) 修改上述各层的参数（如调整反射规则的权重、修正状态转移的概率、更新效用函数的估值），从而实现无需人工干预的自我进化。

2. 基于时间与反应性的分类：快慢思维的博弈

此维度揭示了智能体设计中的核心工程权衡：计算延迟 (Latency) 与 决策最优性 (Optimality) 之间的零和博弈。

反应式智能体 (Reactive) —— 速度优先 (System 1)
- 核心机制：策略映射 (Policy Mapping)。建立一个从感知空间到动作空间的直接映射函数 $\pi: S \rightarrow A$。
- 实现细节：通常采用行为树 (Behavior Trees) 或预训练的策略网络。在运行时无需进行显式的推理或搜索，仅需一次前向传播或查表。
- 第一性原理：以空间换时间。将复杂的推理过程预编译为规则或网络权重，实现 $O(1)$ 的即时响应。
- 局限：缺乏对长远后果的模拟能力，易陷入局部极值。
规划式智能体 (Deliberative) —— 质量优先 (System 2)
- 核心机制：前瞻模拟 (Lookahead Simulation)。在执行动作前，在内部构建虚拟世界模型，推演不同动作序列产生的未来状态轨迹 $\tau = (s_0, a_0, s_1, a_1, ...)$。
- 实现细节：采用蒙特卡洛树搜索 (MCTS) 或 A* 算法，结合价值网络评估未来状态的收益。
- 第一性原理：反事实推理 (Counterfactual Reasoning)。能够设想“如果我不这样做，会发生什么”，通过消耗算力来消除未来的不确定性。
- 局限：计算开销巨大，在环境剧烈变化时，规划结果可能迅速失效（Lag）。
混合式智能体 (Hybrid) —— 动态统一
- 核心机制：ReAct (Reason + Act) 循环。现代 LLM Agent 的架构本质是利用 LLM 的上下文窗口（Context Window）作为工作记忆，在其中交替运行系统 1 和系统 2。
- 运行逻辑：
  1. Reasoning (Sys 2)：LLM 生成思维链 (CoT)，在文本空间进行低成本的逻辑规划与反思。
  2. Acting (Sys 1)：将规划转化为具体的 API 调用或指令，执行并获取即时反馈。
  3. Observing：将执行结果写回工作记忆，修正下一步规划。

3. 基于知识表示的分类：连续直觉与离散逻辑的统一

这是 AI 认知的底层命题：智能究竟构建于符号逻辑的推演，还是神经网络的统计拟合

符号主义 (Symbolic AI) —— 显式的离散逻辑
- 第一性原理：物理符号系统假设 (Physical Symbol System Hypothesis)。智能的本质是物理系统中离散符号的句法操作。
- 表征形式：知识被硬编码为图谱 (Knowledge Graphs) 与规则 (Production Rules)。类似于 System 2 的慢速逻辑思维。
- 优势与阿喀琉斯之踵：具备完美的可解释性与逻辑严密性。但在面对非结构化的现实世界（如像素、声波）时，陷入符号落地问题 (Symbol Grounding Problem) —— 无法建立“抽象符号”与“感知数据”之间的内在映射，导致系统极其脆弱，无法处理模糊性。
亚符号主义 (Sub-symbolic AI) —— 隐式的连续直觉
- 第一性原理：流形假设 (Manifold Hypothesis)。现实世界的高维数据（如图像、文本）分布在嵌入高维欧氏空间的低维流形上。学习的本质是通过拓扑变换拟合这些流形。
- 表征形式：知识内隐于高维向量空间 (Vector Space) 的权重分布中，即分布式表示 (Distributed Representation)。类似于 System 1 的快速直觉思维。
- 优势与阿喀琉斯之踵：拥有强大的模式识别与泛化能力，对噪声具有鲁棒性。但其本质是概率统计而非因果推理，导致黑箱不可解释，且在长链条推理中容易产生逻辑幻觉 (Hallucination)。
神经符号主义 (Neuro-Symbolic AI) —— 连续感知到离散认知的映射
- 本质（The Essence）：高维流形与低维拓扑的统一。它试图解决 AI 的终极难题：如何将感知层的高维连续信号（神经网络擅长的直觉），坍缩为认知层的低维离散概念（符号系统擅长的逻辑）。
- 为什么可行？（神经解析 + 逻辑求解） 一个完备的智能体需要同时具备“看”和“想”的能力：
  1. 神经解析器 (Neural Parser)：利用神经网络将非结构化的感官噪声（Continuous Noise）映射为结构化的原子符号（Discrete Symbols）。这解决了符号落地问题。
  2. 符号求解器 (Symbolic Solver)：对提取出的符号进行代数运算或逻辑推演，得出确定的结论。这解决了逻辑幻觉问题。
- LLM Agent 的实现范式：软逻辑引擎 (Soft Logic Engine) 大语言模型驱动的 Agent 是该理念的隐式最佳实践，它巧妙地在模型内部实现了这种耦合：
  - 内隐的亚符号层：LLM 的内核是庞大的神经网络，它在向量空间进行概率计算，赋予了 Agent 理解模糊指令、进行类比和联想的直觉 (System 1)。
  - 外显的符号层：当 LLM 输出 Chain-of-Thought (CoT)、JSON 或 Python 代码时，它实际上是在生成结构化的符号序列。这些序列不仅是文本，更是可被执行、可被验证的逻辑 (System 2)。
  - 结论：LLM Agent 不再是单纯的统计模型，它变成了一个概率性的逻辑推理机。它用“直觉”去理解世界，用“符号”去规划行动，从而真正实现了双系统的协同。

Agent#

一、传统视角下的智能体#

1. 基于模型的反射智能体 (Model-Based)#

2. 基于目标的智能体 (Goal-Based)#

3. 基于效用的智能体 (Utility-Based)#

4. 学习型智能体 (Learning Agent)#

二、大语言模型驱动的智能体#

1. 核心范式对比：从规则到概率#

2. 实例解析：智能旅行助手的进化#

三、 智能体的分类架构#

1. 基于内部决策架构的分类：从本能到适应#

2. 基于时间与反应性的分类：快慢思维的博弈#

3. 基于知识表示的分类：连续直觉与离散逻辑的统一#