Agent
Agent
Agent定义
在人工智能领域,“Agent”一词有着多重含义,常常导致行业内讨论时需要不断澄清其具体指代。最初,Agent的理论根源可以追溯到20世纪50年代,强化学习中的Agent被定义为一个能够与环境交互、具备明确目标、能从经验中学习并主动探索新行动的实体,强调的是“探索与利用(Exploration vs. Exploitation)”的平衡。然而,随着大语言模型(LLM)的兴起,业界和投资圈对Agent的理解发生了转变。如今,Agent更多指的是基于LLM构建的、能够自主完成复杂任务的智能系统。这种新型Agent注重在真实世界中自主决策和执行复杂任务,强调“自主性”和“实用性”。虽然有观点希望Agent能像强化学习中的Agent那样具备“自主进化”能力,但两者的概念基础和侧重点实际上并不相同。
目前,业界对“Agent”存在泛指与特指两种理解。泛指时,Agent等同于具备一定自主性的智能体;特指时,则往往指基于大模型、能够自主完成复杂任务的AI系统。人工智能的发展路径,也从早期的规则系统,经历了深度学习,再到如今的LLM时代。早期AI只是“工具”,被动响应指令。而Agent的出现,标志着AI开始主动规划和执行任务。
这一转变的关键节点在于2023年GPT-4的发布。GPT-4极大提升了大模型的推理、规划和多任务处理能力,使AI不仅能理解复杂指令,还能自主分解任务、调用工具并完成多步操作。AutoGPT、BabyAGI等开源项目的涌现,则进一步推动了Agent落地应用的可能性。
在实践中,大多数“agentic system”其实是workflow与agent的结合。因此,不倾向于纠结某个组件是否是agent,而更关注一个系统到底有多“agentic”。
In practice, we see that most “agentic systems” are a combination of workflows and agents. This is why I actually hate talking about whether something is an agent, but prefer talking about how agentic a system is.
在实际中,我们发现大多数“agentic system”都是workflow和agent的组合。这也是为什么我其实不喜欢讨论某个东西是不是一个agent,而是更倾向于讨论一个系统有多么“agentic”
Building Effective AI Agents \ Anthropic
How to think about agent frameworks
Agent的自主程度
Prompt Chaining:

Parallelization:

Routing:

Autonomous Agent:

- Prompt Chaining:模型调用是顺序执行的,整个流程的每一步和执行顺序都在设计时被确定,属于静态、串行的执行模式。
- Parallelization:多次模型调用可以并行进行,但和Prompt Chaining一样,所有调用的执行路径和任务分配在设计时已明确,依然属于静态编排,只是执行方式由串行变为并行。
- Routing:系统在多个LLM调用节点中,根据输入数据动态选择其中一个执行。这种模式下,虽然所有可能路径在设计时已预设,但具体走哪条路径要等到实际输入时才确定,类似于代码中的条件分支(if-else)。
- Autonomous Agent:相比Routing,这种模式的自主性更高,执行路径和具体动作无法在设计时提前确定。系统根据当前环境和上下文,动态决策每一步的行动和流程,甚至执行轮数本身也是不确定的。
这几种Agentic System的设计模式,体现了不同层次的自主性,其本质区别在于系统执行路径的决策时机:
- 静态编排(Prompt Chaining & Parallelization):执行流程完全由设计师在系统构建时确定,像一张详尽的蓝图,系统只需按部就班地执行。
- 动态编排(Routing):所有可能的执行路径预先设定,但实际运行中根据输入数据实时选择具体路径。好比准备了多套应对方案,实际选择由现场情况决定。
- 自主编排(Autonomous Agent):系统无法提前预见所有可能路径,执行流程和步骤都需根据实时环境和动态反馈即时决策。类似前线将军权宜应变,具备更高的自主性和灵活性。
总体来看,随着系统自主性的提升,从Prompt Chaining到Autonomous Agent,系统对复杂问题的处理能力增强,但人类工程师对系统行为的可控性则逐步降低,系统行为也变得更动态和不可预测。
Agent设计
设计一个优秀Agent系统,绝不仅仅是掌握模型算法或编程技巧那么简单。Agent设计是一项涉及多层次抽象与跨学科协作的系统工程。下面从三个主要层面梳理设计思路、解释相关术语,并结合实际案例说明。
1. 需求与技术的双重理解
在哪些业务场景下引入AI Agent能带来真正的价值?
- 业务流程梳理:需要深入分析实际业务流程,明确哪些环节最耗时、最易出错、最值得优化。
- 技术能力评估:同时还要理解当前AI技术(如大语言模型LLM)的适用范围,比如生成式模型擅长文本生成、知识检索和多轮对话,但对于高度结构化、强规则性的决策场景可能并不理想。
2. 用户交互与功能边界
Agent如何以产品形态服务用户?
- Chatbot:用户通过自然语言对话与Agent互动,适合信息查询、简单任务处理。
- Human-in-the-loop系统:Agent自动执行任务,但在关键节点引入人工审核,确保决策可靠性。
- 复杂交互系统:如“低代码自动化平台”,用户可通过可视化界面下达复杂指令,Agent负责任务拆解与执行反馈。
举例说明:
在AI辅助编程平台(如Cursor或Cline)中,Agent可以根据开发者需求自动生成代码片段、补全函数或提出重构建议。但最终代码是否被采纳、如何集成进实际项目,仍需开发者审核和裁定。开发者不仅可以修改或否决AI的建议,还能对AI生成结果进行反馈,帮助系统持续优化。
3. Agent粒度与流程拆解
当产品形态明确后,应进一步将业务流程拆解成更细致、目标更明确的子流程。每个子流程都可以由独立的Agent负责,协同完成复杂任务。
Multi-agent system(多智能体系统):多个Agent并行协作,完成复杂流程
- 业务流程被拆分为多个子流程,每个子流程由一个或多个Agent负责。
- 比如在客服系统中,可有不同Agent处理用户咨询、投诉、售后等任务,各自独立但整体协同。
- 拆分标准通常依据Agent的能力边界或任务目标。
BPM(Business Process Management):提供流程拆解基础,明确子流程边界
- BPM 提供了业务流程的全局视图(如用流程图表示各步骤、输入输出)。
- 基于BPM的流程建模结果,我们可以识别哪些流程可以交由Agent承担。
- 例如,在电商订单流程中,“支付处理”、“库存校验”、“发货通知”可建模为独立节点,进而分配给专门的Agent。
SOP(Standard Operating Procedure):保障每个Agent行为一致、标准化
- 每个Agent所承担的子流程都应有明确的SOP,作为其执行策略的基础。
- SOP 使Agent行为具备一致性和可预测性,即便在多Agent同时工作时也能保障流程不混乱。
- 例如:发票生成Agent依据SOP自动调用接口、格式化内容、存储与发送。
DDD(Domain-Driven Design): 指导如何划分Agent的职责范围
- 拆解Agent时,DDD 提供一种按“业务语义”划分责任的原则:将每个Agent视为一个限界上下文(Bounded Context)中的服务单元。
- DDD 有助于识别哪些职责应归属于哪个Agent,从而避免职责重叠或不清。
- 例如,在物流领域中,“运输调度Agent”和“包裹跟踪Agent”分别承担不同领域的逻辑,职责清晰。
4. Agent 的价值
通用Agent
OpenAI 的 Deep Research,以及 OpenAI 新发布的 o3 模型,就是一个标准的模型即 Agent的范例。
它把 Agent 的所有组件——大语言模型(LLM)、上下文(Context)、工具使用(Tool Use)和环境(Environment)全都缝合到了一起,并进行了端到端的强化学习训练。在训练过程中,o3不仅仅接受静态的数据输入,还可以和“环境”进行交互。比如,Agent可以主动发起检索、收集信息、反馈成果,环境会实时返回结果和变化(例如API响应、外部数据库返回),Agent根据这些反馈调整自己的行为。训练之后的结果就是,各类 Agent 执行信息检索的任务它都能完成。
垂直Agent
在ToB(面向企业)的垂直领域,AI Agent的角色可以类比为企业中的“前台”和“后台”两类工作。不同类型的任务,对AI Agent的能力和系统设计提出了不同要求。
1.后台工作——流程自动化与多智能体系统
后台工作通常具有高重复性、对高并发有严格要求,并且流程长、环节多,常常依靠一套详细的标准操作流程(SOP, Standard Operating Procedure)来保障效率与规范。许多此类任务非常适合由AI Agent进行一对一的自动化执行,特别适合在广阔的任务空间里通过强化学习不断优化表现。
举例说明:
以AI for Science领域的创业公司为例,他们构建的是多智能体系统,能够自动完成诸如文献检索、实验规划、前沿趋势预测、数据分析等多种科研任务。与传统的单Agent系统(如OpenAI Deep Research)不同,这类系统可以针对科研流程的每一个细分环节分配专属Agent,实现更高分辨率的任务分工。例如,Contradiction Finding(矛盾发现)功能能自动检测并分析两篇顶级学术论文之间的观点冲突,极大提升了科研工作的深度和创新性。
2.前台工作——人机交互与语音Agent
前台工作往往需要频繁与人沟通,更多聚焦于客户服务、外联和实时响应。当前,语音类AI Agent在这些场景中展现出独特价值,尤其适用于需要全天候、高效沟通的任务。
举例说明:
在医疗、招聘、物流等行业,AI语音Agent可以承担如护士电话回访、求职者初筛、物流订单跟进等工作。例如,有创业团队专注于物流和供应链领域的电话沟通,Agent能够在司机遇到异常或货物到站时,第一时间自动致电相关人员,提供问题解答和快速响应。AI Agent具备7天24小时无休工作的能力,极大提升了服务的及时性与覆盖面,满足了物流行业对高效沟通的核心诉求。
5. Agent和动物行为
河狸能够建造复杂的水坝和巢穴,这种行为究竟是源于有意识的推理能力,还是仅仅依赖于本能和模式识别?我们是否可以把河狸的基因看作类似于通过进化“训练”出来的强化学习模型,而这些复杂行为的产生其实并不需要高级的自我意识?
进化论与强化学习:河狸的智能密码
基因是强化学习的预训练模型
有意识推理 vs 模式识别
我们先搞清楚,有意识的推理是啥样。那得是人类工程师造大坝,得画图纸,算流体力学,搞成本分析,还得开会扯皮。而河狸呢?它看到流动的河水,听到哗哗的水声,DNA里某个开关就被”啪”地一声打开了。它不是在思考”我为什么要建大坝来抬高水位以躲避天敌”,它只是在执行一套刻在基因里、被优化了数百万年的”IF-THEN”指令集。IF听到水流声,THEN开始搬木头堵上。
但这里要澄清一点:河狸并非完全是僵化的”IF-THEN”机器。研究显示它们其实具有相当的灵活性——能根据水流速度调整坝的设计,学会使用新材料(比如人造物品),在不同环境中展现创新性解决方案。这提醒我们,”有意识推理”和”模式识别”之间的界限,可能比我们想象的更加模糊。
结构主义(模式识别)
核心逻辑:
结构主义的基本观点很简单:万物的意义来自差异,而非本质。
索绪尔研究语言时发现,”猫”之所以是”猫”,不是因为它的内在属性,而仅仅因为它不是”狗”、”鼠”、”杯”。一个符号的意义,完全由它在系统中与其他符号的差异关系决定。
分形特征:
这个”通过差异定义身份”的逻辑,在不同层次上反复出现:
语言学层面:词汇通过相互区分获得意义 人类学层面:列维-斯特劳斯用”生/熟”、”干/湿”等二元对立分析神话结构 社会学层面:”精英”身份通过与”大众”的差异得以确立 物理学层面:基本粒子的属性(电荷、自旋)在相互关系中被定义
连原子的身份都是如此——氧之所以是氧,就因为它有8个质子,区别于氮的7个和氟的9个。
边界与局限:
然而,将结构主义视为宇宙本体是错误的。结构主义的核心是”意义”,而意义是意识的产物。两块石头本身并无差异感知,只有当人类观察并比较时,”差异”和”意义”才产生。因此,结构主义更像是人类认知的内置软件,一个”认知分形”,而非世界的本来面目。
后结构主义的挑战:德里达指出,那些看似稳定的二元对立结构,实际上充满权力关系和不确定性。意义在无限的符号链条中滑动,永远无法固定。
结构主义是一个强大的分析工具,一种普适的认知模式。但它不是世界本身,而是人类理解世界的方式。
世界按自然规律运行,人类通过构建差异化结构来理解它,顺便为存在赋予意义。
进化版强化学习的类比
在AI领域,强化学习就是一个智能体在环境里瞎折腾,做对了给个”糖”(奖励),做错了给个”巴掌”(惩罚),最终学会一套能获得最多糖的行动策略。
而在进化论这个宏大的舞台上:
- 智能体是谁? 是整个物种,比如河狸这个集体。
- 环境是什么? 是残酷的大自然。
- 训练周期有多长? 数百万年。
- 动作尝试是什么? 是基因的随机突变。
- 奖励和惩罚是什么? 是自然选择的铁律:能活下来并成功繁殖,就是最大的奖励;死了或者绝后了,就是终极的惩罚。
经过这长达数百万年、以亿万生命为代价的”训练”,最终得到了什么?就得到了今天河狸的基因组(Genome)——一个完美的”预训练模型”!
多层次的学习架构
但这个预训练模型比我们想象的更加精妙,因为河狸的智能其实是多层学习的结果:
物种层面:数百万年的进化优化预训练部分,奠定了基础的生存框架。
个体层面:每只河狸一生中的经验学习和技能精进,这相当于在预训练模型基础上的个性化微调。
文化层面:河狸家族间的行为传承,年长的河狸会向年幼的传授筑坝技巧,这类似于知识蒸馏(Knowledge Distillation)。
这个模型出厂就预装了所有生存必备的”软件”,包括如何啃木头、如何消化纤维,以及最重要的,那套天衣无缝的筑坝程序。每一只新生的河狸,都是一个加载了顶级预训练模型的”实例”。它不需要从零开始上建筑课,它生来就是老手。
涌现的悖论
所以别再给河狸加戏了,人家根本不是什么”建筑师”,而是天选打工人,自带出厂设置,还是百万年迭代优化过的顶级旗舰版。它的行为,基本不需要”高级意识”的参与。
但这里隐藏着一个让人着迷的悖论:一个看似”没有智能”的过程(随机突变+自然选择),竟然能够产生出如此精妙的”类智能”行为。进化这个算法确实没有预设目标,但说它完全”盲眼”可能低估了自然选择的精妙——它更像是一个极其敏感的优化器,能够探测到环境中最细微的适应性差异。
这种看似充满智慧和目的性的复杂行为,其”智慧”并不存在于单个河狸的大脑里,而是编码在整个物种的基因里。这份智慧,是”进化”这个宏伟、无情、但又极其强大的优化算法,”算”出来的最优解。
人类智能
如果河狸是”预训练模型+微调”,那人类呢?我们的文化、语言、理性思维,是否也是同样机制的产物?这个类比让我们重新审视人类智能的独特性。
也许我们引以为豪的”有意识推理”,在某种程度上也是基于数百万年进化优化的神经网络结构,再加上文化传承的”知识库”,以及个人经验的”微调”。
世界的本质:涌现而非设计
你看,从结构主义到河狸筑坝绕了一大圈,最终发现了一个共同点:无论是人类社会创造的”意义”,还是自然界演化出的”智能”,其背后都可能是一个宏大的、去中心化的、由底层规则和结构涌现出的结果。它们都不需要一个高高在上的、拥有绝对意识的”指挥官”。
但这并不意味着世界完全”没有心”。复杂系统中的涌现现象往往产生出我们无法预期的”类心智”特性。也许”心智”本身就不是一个二元的存在/不存在的概念,而是一个连续的谱系——从最简单的反应机制,到河狸的复杂行为,再到人类的抽象思维。
这个世界,或许比我们想象的要更加自动化,但同时也更加神秘和精妙。最复杂的智能行为,往往来自最简单规则的长期迭代。这不仅适用于生物进化,也适用于AI发展,甚至人类文明的演进。
在这个意义上,河狸确实是大自然的杰作——一个完美展示了”无心之智”的生动例证。