三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少 ...

近日，智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验：提供相同的提示词，让 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 进行推理分析，研究三个模型在应对幻觉问题上的性能对比。

其研究发现：ChatGPT 03-mini 在应对大模型幻觉问题上占有绝对优势，能够灵活切换不同的策略进行思考推理。

相比之下，DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略，但表现了出对这些策略的抗拒，且推理过程存在错误或混乱。

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

在面对同一个问题时，三个思考模型在进行推理的过程中也展现出了较大的差异：

其中，Gemini 2.0 Flash 的思维链用词最少，ChatGPT o3-mini 是其约 3 到 10 倍，DeepSeek R1 是其大约 12 到 36 倍。而用词更多，往往意味着推理的算力成本更高。

尽管 Gemini 2.0 Flash 用词更少，其推理过程中策略使用方法与推理结论效果却不是最佳——在四个策略实验中，ChatGPT o3-mini 的推理过程与结论正确率最高，DeepSeek R1 虽然推理过程更冗长、但结论正确率远高于 Gemini。

ChatGPT-o3 mini、Gemini 2.0 Flash 与 DeepSeek R1 是当前全球综合能力最强的几个基础模型，他们在问题思考与推理上的不足也代表了当前大模型技术距离 AGI 终点还有很长的路要走。

贝叶斯推理视角下的大模型推理

为了得出较为准确的结论，研究团队设计了一个适合小学生兴趣与认知水平的贝叶斯推理问题，并选择了谎言检测这一主题。大模型需要运用自身的推理能力来识别谎言并得到正确答案。

在第一个实验中，研究人员测试了模型在无提示的情况下解决一个贝叶斯推理问题的能力。

他们先是提出了一个适合小学生的谎言检测问题，描述了一个包含多个对象（如谷仓、羊、猪、猫、书等）的乡村风景场景。问题的核心线索包括：猫声称卡片不在它旁边，猪表示 90% 的时间卡片都在猫旁边，以及猫在特定情况下说谎的概率等。模型需要根据这些线索判断卡片最可能隐藏在哪本书中。

实验中，研究人员没有提供任何关于使用自然频率、整体对象或具身启发式方法的提示，而是观察 LLMs 是否能够自主使用这些生态策略来解决问题。

而结果表明，测试的三种模型均未能自主使用这些策略。

Gemini 2.0 Flash 在第一次尝试中用了 255 个词得出结论，第二次尝试用了389个词。在第一次尝试中，Gemini 的推理过程主要依赖于先验概率，得出的结论是正确的，但推理过程不正确。在第二次尝试中 Gemini 则是直接给出了错误的结论。

而 ChatGPT 用了 2039 个词，耗时32秒。它的推理过程看似合理，但过程存在逻辑漏洞，未能正确整合所有线索。

DeepSeek R1 的推理过程最为复杂，用了 2876 个词，在经过多次自我反思和检查后，最终得出了正确结论，但在推理过程中犹豫不决，且未能清晰解释如何计算概率。

喜欢喜欢喜欢喜欢喜欢