学会调用工具的语言模型（ToolFormer）

2026-04-21

740

ToolFormer是由Meta AI Research于2023年2月发布的开创性语言模型，其核心突破的是让大型语言模型（LM）通过完全自监督的方式，自主学会调用外部工具（API），实现“语言模型的通用性与工具的精确性”的完美结合，彻底打破了传统语言模型的能力局限，成为“工具增强型语言模型”领域的奠基石之作。与传统语言模型不同，ToolFormer无需大量人工标注，就能自主判断何时调用工具、调用哪个工具、传入什么参数，以及如何将工具返回的结果融入后续文本生成，既保留了语言模型本身强大的文本理解与生成能力，又借助外部工具弥补了自身的固有缺陷。

一、为什么语言模型需要“学会用工具”

传统大型语言模型（如GPT-3、OPT）虽在零样本、少样本任务中表现出色，但存在难以克服的固有短板，这些短板限制了其在真实场景中的实用价值：一是无法获取实时信息，知识局限于训练数据，容易产生“事实幻觉”，比如无法回答训练数据截止后发生的新闻、事件；二是数学计算精度不足，面对复杂运算时容易出现错误；三是低资源语言理解能力薄弱，难以处理小众语言相关任务；四是缺乏时间感知，无法准确响应与当前日期、时间相关的查询。

此前的解决方案（如WebGPT、ReAct）要么依赖海量人工标注，成本高昂，要么仅限于特定任务，难以泛化到各类场景。在此背景下，ToolFormer提出了三大核心目标：以少量演示示例实现自监督学习、不绑定具体任务实现完全通用、微调后不牺牲语言模型的原生能力（困惑度基本不变），最终实现让语言模型“自主借力工具”的突破。

二、原理：自监督“采样-执行-过滤”三阶段流程

ToolFormer的核心创新在于其自监督的工具学习机制，无需人工干预标注工具使用场景，而是通过“采样-执行-过滤”三个阶段，自动构建高质量的工具调用训练数据集，再通过微调让语言模型掌握工具使用能力，整个过程可分为数据集构建和推理两个核心环节。

（一）数据集构建：自监督生成高质量工具调用样本

ToolFormer以任意纯文本语料为起点，通过三个步骤自动构建包含工具调用的增强数据集，这也是其“自监督学习”的核心所在：

1.采样阶段：通过少量人工编写的少样本提示（in-context learning），引导基础语言模型预测文本中可能需要调用工具的位置，计算每个位置生成工具调用标记的概率，保留概率较高的位置，并为每个位置采样多个候选工具调用。例如，当文本中出现“400名参与者占1400人的比例”时，模型会被引导生成计算器工具的候选调用。

2.执行阶段：对采样得到的所有候选API调用进行实际执行，获取真实的返回结果（以文本序列形式呈现）。比如执行计算器调用“Calculator(400/1400)”，会得到“0.29”的真实结果；执行维基百科搜索调用“WikiSearch(\"Brown Act\")”，会得到对应的维基百科摘要。

3.过滤阶段：这是实现自监督的关键步骤。通过定义加权交叉熵损失（越靠近工具调用位置的后续token权重越高），对比“插入真实工具调用+结果”“不插入工具调用”“只插入调用不带结果”三种情况的损失差异，仅保留能显著降低损失的工具调用样本。这种方式让模型通过自身预测损失的下降，判断工具调用是否有用，无需人工打分，完美实现自监督学习。

最终，ToolFormer会在原文本的对应位置，插入“(API名称(输入) → 结果)”的线性化格式（论文中实际使用特定符号，实现时简化为易识别的格式），形成包含工具调用的增强语料，用于后续模型微调。

（二）推理流程：自主调用工具，无缝生成结果

ToolFormer的推理过程完全自动化，对用户透明，核心分为三个步骤：首先，模型正常进行自回归文本生成，直到输出工具调用的起始标记；其次，系统立即暂停生成，解析并执行对应的API调用，获取真实结果；最后，将结果插入到工具调用标记后，继续完成后续文本生成。为提升工具使用率，推理时采用top-k（k=10）解码策略，且每段输入最多调用一次工具。

三、支持的工具类型与调用格式

1.常用工具类型

ToolFormer初期集成了5种全文本输入/输出的工具API，覆盖了常见的能力短板场景，每种工具都有明确的应用场景和输入输出示例：

•QA工具：用于事实查询，输入示例为“Who is the publisher of NEJM?”，输出示例为“Massachusetts Medical Society”；

•WikiSearch（Atlas）：检索增强型问答工具，输入关键词（如“Brown Act”），输出对应的维基百科摘要，底层通过BM25和KILT Wikipedia实现；

•Calculator（计算器）：用于精确数学运算，输入运算表达式（如“400 / 1400”），输出保留两位小数的结果（如“0.29”），底层通过Python eval实现；

•Calendar（日历）：用于时间查询，无需额外输入，可输出当前日期（如“Today is Monday, January 30, 2023”），底层通过简单日期函数实现；

•MT（机器翻译）：用于多语言转换，输入待翻译文本（如“la tortuga”），输出翻译结果（如“turtle”），底层基于NLLB-600M模型，可自动检测语言。

训练时，ToolFormer会通过简单的启发式过滤，匹配文本场景与工具类型（如含数字的文本优先匹配计算器，非英文文本优先匹配翻译工具），提升工具调用的准确性。

2.工具调用格式

ToolFormer采用简洁的线性化格式表示工具调用，无需修改模型架构，仅将工具调用视为一种特殊的token，融入文本生成流程，主要分为两种形式：

•无结果状态：(API_name(input))，用于表示模型预测的候选调用，尚未执行；

•有结果状态：(API_name(input) → result)，用于表示执行后的完整调用，包含输入和真实结果。

这种格式设计简洁易懂，既便于模型学习和生成，也便于系统解析和执行，实现了工具调用与文本生成的无缝融合。

四、实验结果

ToolFormer的实验以GPT-J 6.7B（参数量远小于GPT-3的175B）为基模型，在CCNet子集上进行微调（batch 128，2k steps），零样本任务表现惊艳，大幅领先传统语言模型，部分核心实验结果如下：

•事实完成（LAMA）：T-REx数据集准确率达53.5%，远超GPT-3的39.8%，QA工具使用率高达98.1%；

•数学任务（ASDiv/SVAMP）：计算器工具使用率97.9%，准确率从14.0%提升至40.4%，实现翻倍；

•问答任务（WebQS）：WikiSearch工具使用率99.3%，表现优于GPT-3；

•多语言任务（MLQA）：翻译工具显著提升阿拉伯语、德语等低资源语言的理解能力；

•时序任务（DATESET）：日历工具使用率54.8%，准确率从3.9%提升至27.3%。

实验还发现两个关键结论：一是ToolFormer在禁用工具时，与原GPT-J模型的困惑度几乎一致，证明其微调后未牺牲语言模型的原生能力；二是随着模型规模增大（超过775M），工具使用带来的收益呈指数级上升，过滤阈值越高，训练数据质量越好，模型表现越优秀。

五、与同类方法对比及局限性

1.与同类方法的差异

ToolFormer与此前的工具增强方法（如ReAct）相比，核心优势在于完全自监督学习，无需人工示范和链式思考（Chain-of-Thought）提示，仅通过少量演示示例，就能让模型自主学会工具使用，泛化能力更强，且无需额外的控制器或复杂提示模板，工具调用完全融入文本生成流。而ReAct等方法依赖大量人工标注的工具使用示例，且局限于特定任务，难以推广到各类场景。

2.自身局限性

尽管ToolFormer实现了重大突破，但论文中也明确指出了其局限性，这些也是后续工具增强语言模型的主要优化方向：

•仅支持单次、非迭代调用，无法形成复杂的工具链（如将翻译工具的输出作为问答工具的输入）；

•无成本感知，不考虑API调用的延迟、费用等实际成本，可能出现不必要的工具调用；

•对提示词敏感，少样本提示的质量和格式会影响模型的工具调用效果；

•采样效率较低，尽管单个工具（如计算器）只需几百条示例即可，但若扩展工具种类，整体数据集构建成本仍较高；

•API集合固定，扩展新API需重新生成训练数据并进行微调，灵活性不足。

六、实现与开源情况及行业影响

1.实现与开源

ToolFormer的官方团队未直接开源模型权重，但论文中提供了完整的算法伪代码，便于研究者复现和扩展。目前，社区已有多个基于PyTorch的实现版本，例如xrsrke/toolformer（支持WolframAlpha工具）、conceptofmind/toolformer（早期复现版本，已归档）、lucidrains/toolformer-pytorch等，为后续研究提供了便利。

2.行业影响

ToolFormer的核心贡献的是证明了“让语言模型自学工具”的可行性与强大效果，一个6.7B参数量的模型，就能在多任务零样本表现上超越175B参数量的GPT-3，彻底改变了人们对语言模型能力边界的认知。它直接启发了后续一系列Agent框架的发展，如LangChain、AutoGPT、ToolLLM等，推动“工具增强型语言模型”成为自然语言处理领域的重要研究方向，为语言模型从“封闭世界”走向“开放世界”、实现与外部环境的交互奠定了基础。

七、总结

ToolFormer作为自监督工具学习的开创性工作，通过巧妙的“采样-执行-过滤”三阶段流程，让语言模型实现了自主工具调用的突破，既保留了语言模型的通用性，又借助外部工具弥补了自身的精度、实时性、多语言等短板，在零样本任务中展现出远超传统模型的优势。尽管存在工具链支持不足、成本感知缺失等局限性，但它为工具增强语言模型的发展提供了核心范式，其自监督学习思路和工具调用融合方式，至今仍对相关研究具有重要的指导意义。随着技术的发展，后续基于ToolFormer的优化的工作，将进一步突破其局限性，让语言模型的工具使用能力更接近人类，实现更广泛的场景落地。

点赞数：4