智能体（ReAct）架构范式

2026-04-15

657

ReAct（Reasoning + Acting）是智能体领域经典的架构范式，核心是模仿人类解决问题的认知模式，将“推理（Reasoning）”与“行动（Acting）”显式耦合，通过“思考→行动→观察”的循环迭代，实现复杂任务的自主推进与动态调整，打破传统大模型“纯文本推理”的局限，成为连接大语言模型（LLM）与现实世界交互的桥梁之一。

一、范式起源与定位

ReAct范式由普林斯顿大学和谷歌研究院的研究团队于2022年在论文《ReAct: Synergizing Reasoning and Acting in Language Models》中正式提出，其诞生的核心背景是解决传统智能体的两大痛点：纯思考型智能体（如思维链CoT）易产生事实幻觉、无法与外部环境交互；纯行动型智能体缺乏推理能力、难以应对复杂动态任务。

与其他智能体范式相比，ReAct的定位是“边想边做、实时反馈”，不追求一次性生成完整执行计划，而是通过高频交互适配任务不确定性，强调推理过程的可追溯性与行动的灵活性，现已成为大模型智能体设计的基础范式，广泛应用于多领域复杂任务落地。

二、架构与组件

ReAct架构并非单一算法，而是“LLM核心+工具集+循环调度机制”的集成体系，三大组件相互协同，构成完整的智能闭环，各组件功能如下：

（一）核心驱动：大语言模型（LLM）

作为ReAct智能体的“大脑”，LLM承担两大职责：一是生成推理轨迹（Thought），分析当前任务状态、历史交互记录，明确下一步行动的逻辑依据；二是解析行动结果（Observation），基于外部反馈调整后续推理与行动策略。LLM的推理能力、指令遵循能力直接决定ReAct范式的运行稳定性，是整个架构的驱动力量。

（二）交互载体：工具集（Tools）

工具集是ReAct智能体与外部环境交互的“手脚”，用于将LLM的推理转化为可执行的具体行动，获取客观反馈。工具类型无明确限制，可根据任务场景灵活扩展，常见类型包括：

•信息检索类：搜索引擎、数据库查询接口，用于获取实时、专业的外部信息；

•数据处理类：Excel工具、SQL查询、数据分析API，用于完成数据计算、统计与整理；

•场景控制类：设备控制接口、第三方服务API（如航班预订、消息推送），用于实现具体场景的操作执行；

•辅助工具类：计算器、翻译接口等，用于完成简单的标准化任务。

（三）调度核心：循环机制（Loop Mechanism）

循环机制是ReAct范式的创新，负责串联“思考-行动-观察”三个环节，实现任务的迭代推进。其逻辑是将每一步行动的结果（观察）作为下一轮推理的输入，形成动态闭环，确保智能体能够根据环境反馈实时调整策略，避免陷入固定路径。

三、工作流程（TAO闭环）

ReAct的工作流程可概括为“TAO闭环”（Thought→Act→Observe），整个过程分为初始化、循环迭代、终止输出三个阶段，各阶段逻辑连贯、层层递进，具体如下：

（一）初始化阶段：任务与环境准备

该阶段为闭环运行提供基础支撑，核心操作包括三项：一是任务解析，接收自然语言任务目标，明确任务类型、核心约束（如时间、精度要求）；二是示例加载，输入1-3个Few-shot示例，帮助LLM理解“思考-行动-观察”的链路逻辑与格式要求；三是上下文初始化，创建上下文管理器，用于存储后续迭代过程中的TAO三元组，为LLM提供历史状态参考。

（二）循环迭代阶段：TAO闭环核心执行

这是ReAct智能体的运行阶段，每轮迭代均严格遵循“思考→行动→观察”的顺序执行，直至满足终止条件，各步骤细节如下：

1.Thought（推理）：决策逻辑生成——LLM基于“任务目标+历史TAO轨迹”，生成可追溯的推理内容，明确当前任务进展（已获取信息、缺失信息）和下一步行动方案（调用工具类型、参数、预期结果）。例如，在“查询商品最终价格”任务中，推理过程可能为：“当前已获取商品原价，需查询折扣信息，调用折扣查询工具，参数为商品ID，预期获取折扣比例后计算最终价格”。

2.Act（行动）：标准化执行——LLM将推理结果转化为标准化行动指令，指令需包含“工具名+参数”，遵循预定义格式（如“工具名(参数1,参数2)”），确保工具集可解析执行。行动类型分为工具调用、直接输出最终答案两种，若未获取足够信息则执行工具调用，若已满足任务目标则输出最终答案。

3.Observe（观察）：环境反馈接收——工具执行行动后，返回客观结果（如搜索结果、计算答案、工具调用失败提示），ReAct智能体将该结果作为观察信息，更新至上下文管理器，为下一轮推理提供真实数据支撑。例如，折扣查询工具返回“8折优惠”，该信息将作为下一轮计算最终价格的依据。

（三）终止输出阶段：任务闭环收尾

当满足以下任一终止条件时，循环迭代终止：一是LLM通过推理判断已获取足够信息，生成最终答案；二是达到预设的最大迭代步数，避免陷入无限循环；三是工具调用多次失败且无法通过调整策略解决，返回任务执行失败提示，并说明失败原因。

四、优势与应用局限

（一）优势

•可解释性强：推理轨迹与行动步骤显式耦合，每一步行动都有明确的推理依据，可追溯智能体的决策过程，便于调试与优化，解决了传统智能体“黑箱决策”的痛点。

•灵活性高：基于实时观察结果动态调整推理与行动策略，能够应对任务目标模糊、环境变化等复杂场景，例如商品价格计算中，可根据“折扣价”替代“优惠价”的反馈，调整计算公式。

•抗幻觉能力强：通过调用外部工具获取客观反馈，将推理过程锚定到真实数据，从根源上减少大模型的事实幻觉，尤其适用于需要实时信息、专业知识的任务。

•泛化性好：依托LLM的上下文学习能力，仅需少量示例即可适配多领域任务，无需大规模微调，替换工具集即可快速切换应用场景（如从多跳问答切换到机器人控制）。

（二）应用局限

•执行效率较低：串行的“思考-行动-观察”循环需要多次调用LLM，存在网络延迟与计算成本，复杂任务的迭代步数较多，总耗时较长，相较于Function Calling等范式效率更低。

•依赖LLM能力：推理质量、行动指令的标准化程度完全依赖LLM的逻辑推理与指令遵循能力，若LLM推理失误或输出格式不规范，会导致整个闭环中断。

•提示词脆弱：闭环的稳定运行依赖精心设计的提示词模板，模板用词、格式的微小变动，可能影响LLM的行为，增加实际应用中的不确定性。

•易陷入局部最优：“边走边想”的模式缺乏全局规划，可能因眼前的观察结果选择短期合理但长期非最优的路径，甚至陷入循环往复的无效操作。

五、适用场景与典型案例

（一）适用场景

ReAct范式的优势的是应对复杂、动态、需要多步骤决策的任务，尤其适用于以下场景：

•探索性任务：需要从多个来源收集、综合信息的场景，如学术研究、复杂问题调研（如“科罗拉多造山带形成原因”）；

•动态决策任务：任务路径不明确、需要根据反馈调整策略的场景，如商品价格计算、旅行规划、智能客服；

•高可解释性需求场景：需要追溯决策过程的场景，如医疗诊断、代码生成、数据分析报告撰写；

•多工具协同任务：需要调用多种工具完成复杂目标的场景，如数据检索+计算+报告生成、航班查询+筛选+预订。

（二）典型案例

1.商品价格计算：用户需求为“计算某商品最终价格”，ReAct闭环执行过程为：①思考：需先获取商品原价，调用价格查询工具；②行动：调用商品价格查询工具，参数为商品ID；③观察：获取原价100元；④思考：需查询优惠信息，调用折扣查询工具；⑤行动：调用折扣查询工具，参数为商品ID；⑥观察：获取8折折扣；⑦思考：已获取足够信息，计算最终价格（100×0.8=80元）；⑧行动：输出最终答案80元。

2.多跳问答：用户需求为“科罗拉多造山带是如何形成的？”，ReAct闭环执行过程为：①思考：需获取造山带形成的相关信息，调用搜索引擎；②行动：搜索“科罗拉多造山带形成”；③观察：搜索结果提到板块碰撞，但未涉及东部地区；④思考：需补充东部地区信息，调整搜索关键词；⑤行动：搜索“科罗拉多东部造山带形成”；⑥观察：获取完整信息；⑦思考：信息足够，整理生成最终答案；⑧行动：输出最终回答。

3.旅行规划：用户需求为“预订明天深圳到海南最便宜的晚上航班”，ReAct闭环执行过程为：①思考：需查询符合条件的航班，调用航班查询工具；②行动：调用航班查询工具，参数为出发地深圳、目的地海南、日期明天、时段晚上；③观察：获取3个符合条件的航班及价格；④思考：筛选最便宜的航班，调用航班预订工具；⑤行动：调用预订工具，参数为航班号；⑥观察：预订成功；⑦行动：输出预订结果及相关信息。

六、与其他智能体范式的对比

为更清晰理解ReAct的定位，将其与智能体领域另外两种经典范式（Chain-of-Thought、Function Calling）进行对比，明确各自的差异与适用场景：

ReAct（思考+行动）范式以“Thought→Act→Observe”的循环迭代为逻辑，秉持“边想边做”的理念，其优势在于可解释性强、灵活性高、抗幻觉能力突出且泛化性好，能很好地适配复杂多步骤、动态决策及高可解释性需求的任务，但同时存在执行效率低、依赖LLM能力、提示词脆弱的局限。与之相对，Chain-of-Thought（CoT，思维链）范式侧重纯文本多步推理，不涉及外部工具交互，响应速度快、无需工具依赖且部署简单，适合纯推理任务（如数学计算、知识问答），但容易产生事实幻觉，无法处理实时或外部数据。而Function Calling（工具调用）范式则是通过LLM识别用户意图，直接调用预定义工具，无显式推理过程，执行效率高、输出结构化且易集成外部功能，适用于简单明确、需精准调用工具的自动化任务，但其灵活性较差，难以应对模糊或复杂的任务场景。

七、范式延伸与实践建议

（一）范式延伸

ReAct范式并非孤立存在，可与其他高阶范式结合，提升智能体的能力上限：

•ReAct + Reflection（反思）：在闭环终止后，增加反思环节，总结任务执行中的问题与经验，用于优化后续同类任务的推理与行动策略；

•ReAct + Plan-and-Solve（规划-执行）：先通过Plan-and-Solve制定全局规划，再用ReAct范式执行具体步骤，兼顾全局视野与动态调整能力；

•多ReAct智能体协同：将复杂任务拆解为子任务，每个子任务由独立ReAct智能体负责，通过中台调度实现多智能体协同完成目标。

（二）实践落地建议

•优化提示词模板：设计标准化的提示词模板，明确推理轨迹的格式（需包含任务现状、行动目的、预期结果），降低LLM输出格式不规范的风险；

•控制迭代步数：根据任务复杂度预设合理的最大迭代步数，结合异常捕获机制，避免陷入无限循环；

•工具集标准化：对工具进行封装，统一接口格式，便于ReAct智能体解析调用，同时增加工具调用重试机制，提升鲁棒性；

•选择合适LLM：优先选用推理能力强、指令遵循度高的LLM（如GPT-4、Claude 3），降低推理失误概率；

•场景适配优化：根据任务场景调整闭环频率，简单任务可减少迭代步数，复杂任务可增加示例引导，提升执行效率与准确性。

八、总结

ReAct架构范式的价值，在于将人类“思考-行动-反馈”的认知模式抽象为机器可执行的闭环机制，实现了LLM推理能力与外部环境交互能力的深度协同，解决了传统智能体可解释性差、抗幻觉能力弱、灵活性不足的痛点。尽管存在执行效率低、依赖LLM能力等局限，但凭借其高可解释性与灵活性，ReAct已成为复杂场景下智能体设计的首选范式，且通过与其他高阶范式的结合，其应用边界正不断拓展。

在实际落地中，需结合任务场景优化提示词、工具集与循环机制，平衡执行效率与任务精度，才能充分发挥ReAct范式的优势，让智能体真正实现从“被动应答”到“主动解决问题”的跨越。

点赞数：12