为什么GPT无法真正理解“为什么”?当我们向GPT提问“为什么吸烟会导致肺癌”时,它能生成逻辑通顺的回答,罗列尼古丁损伤细胞、诱发基因突变等要点;但当被追问“如果一个人从不吸烟却患上肺癌,可能的原因是什么”这类反事实问题,或面对“冰淇淋销量上升与溺水事件增多是否存在因果关系”这类易混淆相关与因果的问题时,GPT往往会陷入逻辑摇摆或给出错误结论。这一现象的核心的是:GPT本质是统计模式的学习者,而非因果机制的理解者,其架构与训练范式决定了它难以突破“关联感知”的层面,触及“因果理解”的核心。
一、底层机制局限:统计逼近而非因果建模
GPT系列模型的核心训练目标是“预测下一个token的概率”,基于海量文本数据中的词语共现模式构建统计关联模型,而非对真实世界的因果机制进行建模。这种自回归架构使其本质上是一台“高精度模式匹配器”,而非具备逻辑推理能力的智能体。
从数学本质来看,神经网络的核心是函数逼近,通过多层非线性变换拟合数据分布,优化目标是让输出“看起来合理”的概率最大化,而非保证逻辑的严格一致性与因果正确性。正如深度学习先驱LeCun所指出的,自回归LLM存在根本性逻辑缺陷——它们从未真正“理解”物理世界的运行规律,仅能通过文本中的统计模式复现因果表述。例如,GPT知道“下雨→地湿”的关联,是因为这一组合在训练数据中高频出现,而非理解“水分子降落与地面湿润的物理因果链”,因此它可能会生成“地湿→下雨”的反向错误推理,却无法识别逻辑漏洞。
这种局限还体现在对虚假相关性的辨别无力上。训练数据中“冰淇淋销量上升”与“溺水事件增多”常同时出现,GPT可能会错误建立两者的因果关联,却忽略“气温升高”这一共同潜在原因。这正是统计学习范式的固有问题:只能捕捉表面关联,无法穿透数据看到背后的因果机制。
二、因果推理的双重缺失:干预与反事实能力空白
根据朱迪亚·珀尔的因果阶梯理论,因果推理分为三个层级:关联(观察层面的相关性)、干预(主动改变变量后的结果预测)、反事实(假设条件改变后的推理)。当前GPT仅能停留在最低的“关联”层面,缺乏对后两个层级的核心能力。
1.干预能力缺失:无法模拟“主动改变”的因果效应
干预能力的核心是回答“如果我们改变某个变量,结果会如何”,这需要模型理解变量间的内在作用机制,而非仅依赖历史数据关联。例如,在机械故障诊断场景中,传统LLM难以判断“若人为降低轴承转速,是否会减少振动异常导致的故障”,因为它没有建模“转速-振动-故障”的物理因果链。而研究人员提出的CN-LLM-KGN框架,正是通过引入因果网络(CN)挖掘物理逻辑,才实现了对故障传播路径的精准定位,这从侧面印证了纯LLM在干预推理上的短板。
2.反事实能力薄弱:难以应对“未发生场景”的推理
反事实推理是“理解为什么”的关键——只有能想象“如果情况不同会怎样”,才能真正归因。但GPT在反事实任务中表现极差:梅兰妮·米切尔教授的研究显示,GPT-4在标准国际象棋合法开局判断中准确率接近90%,但当面对“骑士与主教交换初始位置”的反事实变体时,准确率骤降至54%,仅略高于随机猜测。类似地,在句子颠倒任务中,当输出句子在训练数据中概率较低时,GPT的表现会显著下滑,暴露其依赖“近似检索”而非抽象推理的本质。
这种薄弱性源于训练数据的“既成性”——GPT只能学习已发生的事实模式,无法构建未发生场景的因果逻辑。当被问及“如果没有工业革命,人工智能会提前出现吗”,它只能拼凑与“工业革命”“人工智能”相关的文本片段,无法进行严谨的反事实归因。
三、认知模式偏差:“因果鹦鹉”而非“因果理解者”
学界将LLM的因果推理能力形容为“因果鹦鹉”——它们能复述训练数据中存在的因果表述,却无法真正理解或灵活应用因果关系。这种“伪理解”主要体现在两个方面:
一方面,GPT的因果回答高度依赖训练语料的覆盖度。在Tübingen基准测试中,LLM在成对因果发现任务上准确率达97%,但这仅是基于变量描述的文本元数据推理,而非分析数据本身;一旦遇到训练数据中未覆盖的新颖因果场景,就会产生“因果幻觉”,生成看似合理却违背逻辑的结论。例如,它可能会认为“喝咖啡导致失眠”,却无法区分“咖啡因代谢速度”这一个体差异变量的调节作用。
另一方面,GPT缺乏对因果一致性的约束。神经网络的概率输出特性使其无需保证逻辑闭环,只需优化文本流畅度。在多步因果推理任务中,即使中间某一步出现因果断裂,模型也可能因后续token的高概率预测而生成连贯文本,导致整体推理失效。实验显示,即使使用思维链(CoT)提示,GPT-4在部分因果任务中的准确率仍低至33%,且性能波动极大,证明其因果能力缺乏稳定性。
四、突破困境的尝试与局限
为弥补因果能力短板,学界已探索多种路径,但尚未实现根本性突破。一是融合因果结构,如CN-LLM-KGN框架将因果网络、LLM与知识图谱结合,通过因果一致性损失约束模型推理,使故障根因定位准确率达81.12%,但这种方法依赖特定领域的物理知识与数据预处理,泛化性有限。二是构建“世界模型”,LeCun提出的JEPA架构试图让模型学习数据的抽象表示而非直接预测token,结合具身学习模拟物理世界交互,但目前仍处于理论探索阶段。三是多模态融合,通过图像、视频数据补充文本的不足,帮助模型感知物理规律,但这仅能缓解部分“世界无知”问题,无法从根本上建立因果建模能力。
结语:理解“为什么”的本质是超越统计
GPT无法真正理解“为什么”,本质是统计学习范式与因果理解需求的根本性矛盾。人类对“为什么”的理解,源于对世界的具身体验、逻辑演绎与因果建模的结合,而GPT仅能在文本层面复刻统计关联。未来,只有突破“预测下一个token”的训练目标,将因果推理内置于模型架构与训练过程,融合物理规律、具身经验与多模态知识,才有可能让大模型真正触及“理解”的本质,而非停留在“鹦鹉学舌”式的因果表述模拟。