当前位置：首页 > news >正文

上海嘉定做网站公司徐州网站建设招聘网

news 2026/4/14 17:18:24

上海嘉定做网站公司,徐州网站建设招聘网,做网站美工的前途怎么样,济南国画网站建设编者按#xff1a; 大语言模型真的具备推理能力吗#xff1f;我们是否误解了智能的本质#xff0c;将模式匹配误认为是真正的推理#xff1f; 本文深入探讨了大语言模型#xff08;LLMs#xff09;是否真正具备推理能力这一前沿科学问题#xff0c;作者的核… 编者按大语言模型真的具备推理能力吗我们是否误解了智能的本质将模式匹配误认为是真正的推理本文深入探讨了大语言模型LLMs是否真正具备推理能力这一前沿科学问题作者的核心观点是LLMs 本质上是高级的模式识别机器而非真正具备逻辑推理能力。首先作者指出尽管大语言模型在各类推理能力基准测试中表现出色但其性能实际上高度依赖于训练数据中的模式识别而非真正的逻辑推理。其次文章质疑了目前广泛使用的思维链Chain-of-Thought提示词技术。再者通过对数学推理的深入分析作者指出 LLMs 实际上并不理解数学概念而是在寻找和匹配模式。即便在复杂的数学问题中模型也常常表现出对无关信息的过度敏感性。本文作者并未贬低大语言模型的价值而是客观地将其定位为拥有非凡记忆能力的系统期待未来能够开发出真正具备推理能力的人工智能架构。作者 | Salvatore Raieli 编译 | 岳扬 image generated by the author using DALL-E 我很少遇到能够进行推理的数学家。— 柏拉图推理能够引导出结论但这些结论是否确凿还需通过经验的验证才能确定。— 罗杰·培根大语言模型LLMs[1]展现出的性能惊人特别是在自然语言处理[2]的传统领域比如回答问题方面表现突出。更令人惊讶的是它们在那些需要逻辑推理的复杂任务如编程和数学问题解决上也取得了进步。长期以来这些能力一直被认为是人类独有的。因此当人们提出大语言模型LLMs能够解决那些需要推理的任务时这个观点引发了激烈的讨论。大语言模型LLMs真的能够进行推理吗还是它们仅仅是比较高级的模式匹配器pattern matchers 推理能力对于人工智能系统与人类的有效互动以及在执行关键任务时的应用具有决定性意义。这种能力要求系统能够逻辑性地推理reason logically、进行推断conduct inference、解决问题并基于现有信息作出决策。在科学探索、医疗健康、金融领域以及教育行业中能够为我们提供实质性帮助的模型同样需要具备这些技能。新模型的问世使得这场讨论愈发激烈。随着 OpenAI GPT-4o1[3] 的发布人们对使用思维链COT训练模型来提高推理能力产生了浓厚的兴趣。经过这种训练的大语言模型LLMs所取得的成果让一些公司宣称现在的 LLMs 已经具备了推理能力AGI 离我们越来越近了。因此当前的我们正处于一场深刻的大辩论之中一方面有公司和研究人员坚称这些模型已经拥有了推理能力[4]而另一方面也有人将 LLMs 贬称为“随机鹦鹉stochastic parrots”。本文将着重探讨以下问题的答案何谓推理大语言模型LLMs是否具备真正的推理能力还是仅仅在做鹦鹉学舌我们对于推理能力的评估方法是否准确无误 01 何谓推理reasoning 推理是根据现有信息、逻辑和分析内容得出结论或做出决定的基本认知过程。根据亚里士多德的观点推理可分为两种类型演绎推理Deductive reasoning 从普遍原理中得出具体结论。归纳推理Inductive reasoning 通过观察现象来形成一般性结论。传统观念认为推理是人类独有的能力。但现在我们发现灵长类、章鱼甚至鸟类也展现出了一定的推理能力它们能够进行决策和解决问题。一般来说推理被视为解决复杂问题或做出明智选择的过程。这要求识别问题、将其拆分为小问题、发现其中的规律然后选择最佳解决方案。决策过程也相似需要识别问题、寻找规律并在做出选择前对备选方案进行评估。然而这些定义存在不明确之处。按照这些标准LLM 也可以被视为具有推理能力。 02 LLM 能够推理吗在一系列评估推理能力的基准测试中如 GLUE[5]、SuperGLUE[6] 和 Hellaswag[7]大语言模型LLMs的表现甚至超越了人类。有人据此认为LLMs 可以进行推理并得出合乎逻辑的结论。 LLMs 推理能力的提升主要得益于两个方面 LLMs 在所有针对推理能力评估设计的基准测试中都表现出了推理能力。随着模型参数、token 数量和计算资源的增加模型的新特性不断涌现。采用思维链CoT等技巧可以让模型发挥其潜力。如果我们认为 LLMs 不具备推理能力那么我们就需要对上述观点提出质疑。 2.1 LLMs 在推理能力基准测试中的惊艳表现当有人声称 LLM 不会推理时AGI 的支持者会回应说“看看推理能力基准测试[8]的结果。”这就像是“鸭子测试duck test”如果它能像人一样解决问题做出决策甚至在推理能力基准测试中胜出那么它很可能就具有人类拥有的推理能力。然而也有学者对此表示怀疑1。模型看似能够进行复杂的推理但实际上它们依赖的是概率模式匹配而非严谨的形式推理formal reasoning。模型对特定 tokens 的过度依赖表明它更多的是在利用输入数据的表面特征而非深入理解背后推理任务的本质。—— source[9] 换言之这些脆弱的表现揭示了 LLMs 在遇到与训练过程中所见模式不同的新案例时缺乏泛化能力。一旦改变例子中的 tokens就会导致逻辑错误因为模型无法将新例子与训练数据中的模式相对应。因此模型对于测试案例极为敏感容易受其影响这也解释了为何模型有时看似推理能力惊人有时却会以失败告终。通过扰动例子中的 tokens我们可以看到模型的脆弱性扰动导致 LLM 无法解决问题说明其“推理”过于依赖特定的 tokens并将它们与训练集中的内容相匹配。这一点通过训练数据中例子的出现频率与测试表现之间的相关性得到了验证8。 “图论中经典的‘二十五匹马’问题。上面两幅子图由 GPT-4o 生成仅供参考通过将‘马’改为‘兔子’来演示这一概念这与问题的基本逻辑无关。下面两幅子图显示的是 GPT-4 和 Claude 的实验结果其中动物名称和数量的扰动导致性能显著下降”。图片来源https://arxiv.org/pdf/2406.11050 这种现象被称为“提示词敏感性”即模型对于语义上等价的不同提示词会有不同的反应11-12。这意味着模型对于与训练文本更为贴近的提示词会有更好的响应。大语言模型Large Language ModelsLLM同样对噪声敏感2。实际上这些模型很容易受到无关上下文的影响导致其在进行推理时的表现大打折扣。此外即便是那些专门用于提升推理能力的提示词技巧[10]也无法完全消除噪声的影响。这表明噪声对模型记忆中模式识别能力的干扰是显著的。 2.2 智力被视为一种“涌现属性” 许多人认为智力是随着生物系统自然趋向于复杂化和能力提升而逐渐涌现的[11]。如果生物不能适应这种变化就会在进化压力下被淘汰。因此进化过程会导致生物变得越来越聪明或越来越特化。智力就是在这样的压力下逐步进化而来的。智力的发展显然需要资源因此大脑发展到了支持智力发展的水平。有些人认为在模式训练pattern training function中的损失函数就如同一种进化压力。因此一旦模型拥有了足够的“神经元”它们就能够发展出推理能力用专业术语来说就是随着模型规模的扩大推理能力逐渐显现。如前所述这种推理能力的增强被认为是模型规模增加的结果无论是参数的数量还是训练 tokens 的数量。但是在一些学者看来推理能力是一种需要达到一定参数阈值才能显现的涌现属性。然而后续的研究表明大语言模型Large Language ModelsLLMs中的涌现属性[12]可能是一种测量误差因此整个理论就与推理能力的突然出现3, 13有关了。 2.3 CoT is not all you need 其他学者认为大语言模型Large Language ModelsLLMs本身具备推理能力但这种能力需要通过特定方式来激活。思维链Chain-of-thoughtCoT提示词就是这样一种方法它通过中间推理过程帮助模型释放其潜力进而引导模型在解决算术问题时得出正确答案4。然而几周前的一篇文章对 CoT 的实际效用提出了质疑5 在 MMLU 基准测试中CoT 带来的性能提升多达 95% 是因为问题或生成的输出中包含了“”符号。对于非数学问题我们并未发现任何迹象表明 CoT 在什么情况下会有帮助。—— source[13] 由此可见CoT 在解决数学问题上的确有所帮助但它并不能真正激活 LLM 的推理潜力。尽管如此CoT 仍被吹嘘为灵丹妙药并被认为是最新一代 LLMs 推理能力的基础[14]。通过对思维链Chain-of-thoughtCoT相关文献的元分析发现无论是在数学领域还是其他类型的符号推理领域CoT 都能带来显著的性能提升红色虚线所示为不同实验中 CoT 带来的平均改进效果。图片来源https://arxiv.org/pdf/2409.12183 这些发现似乎表明LLMs 并不具备常识推理能力但这并不意味着它们完全不具备其他类型的推理能力。 LLMs 真的能够进行数学推理吗尽管数学推理似乎是 LLMs 在推理方面的优势但有研究表明LLMs 可能只是在识别模式patterns。也就是说它们在寻找模式patterns时并不真正理解这些数学符号的含义。一些研究者指出6LLMs 在数学上无法进行形式推理formal reasoning因为它们不能制定出行动计划这里所说的计划是指一系列行动策略通过执行这些策略可以从初始状态达到期望的最终状态。没有这样的计划模型就只能简单复现训练中遇到的模式patterns[15]而无法真正解决问题。在某些情况下甚至可能是用户无意中引导 LLM 找到了答案7 这就是所谓的“聪明的汉斯效应The Clever Hans Effect”LLM 只是在进行猜测而真正引导它的是处于环路中的人类他们凭借对正确与错误解决方案的了解无意中操控了 LLM 的输出 —— 即便他们并非有意为之。因此确保准确性如果有的话的功过都应该归咎于这个环路中的人类。sourcehttps://arxiv.org/pdf/2403.04121 LLMs 所声称的推理能力有时实际上是由于参与其中的人类在不自觉中提供了有益的、连续的提示词。图片来源https://arxiv.org/pdf/2403.04121 综上所述支持大语言模型LLM存在推理能力的人们认为我们之所以看到模型的这些行为有多方面的原因。但是有几项研究表明它们与这些观点存在冲突。尽管那些研究坚称大语言模型LLM不具备推理能力但它们在所有基准测试中都取得了惊人的成绩甚至在一些复杂的测试中超越了人类的表现[16]。因此我们提供的证据似乎更多是基于理论而不是基于大语言模型LLM解决数学和复杂问题能力的实证研究。是否是因为人类对于被大语言模型LLM超越而感到不满还是其中确实存在问题呢 2.4 发现一名学生在抄袭无疑看到有人声称大语言模型LLM的表现堪比博士生这让人感到不悦 o1-preview 模型的设计初衷是处理具有挑战性的任务它通过像人一样花更多时间思考和优化回答来应对复杂问题。在测试中这种方法使得模型在物理、化学和生物等领域的表现接近博士生水平。sourcehttps://venturebeat.com/ai/forget-gpt-5-openai-launches-new-ai-model-family-o1-claiming-phd-level-performance/ 暂且不提这种不快问题在于我们如何衡量这些模型的能力。我们可能并没有用正确的方法来测试它们的推理能力是时候采用新的评测体系了。这些模型都在 GSM8KGrade School Math 8K[17]数据集上进行测试这个数据集提供了复杂的算术问题但由于训练 LLM 时使用了数十亿个数据 tokens存在答案泄露的风险。此外这个数据集只提供了一个固定问题集上的单一度量标准对我们了解 LLM 的推理能力帮助有限有趣的是LLM 可能在推理完全错误的情况下仍然给出正确答案。而且这个数据集是静态的不允许我们改变测试条件。在这项研究中研究者提出了一个新的基准测试数据集 GSM-Symbolic[18] 9它通过使用符号模板生成不同的问题。通过该数据集我们可以调整问题的难度并在测试时提供更精确的控制。这个数据集实际上与之前用于推理测试的数据集相同只是对问题进行了修改使得简单的统计模式匹配statistical pattern matching变得困难。如果 LLM 真的具备推理能力它应该能够轻松解决这些问题但如果它无法进行泛化那么它将无法完成任务。 GSM-Symbolic 模板创建过程示意图。图片来源https://arxiv.org/pdf/2410.05229 在对最先进的 LLMs 进行测试时研究者并未发现模型具备形式推理的能力。这些模型并不稳健当数值发生变化时性能就会下降且在问题复杂性提升时其处理能力会迅速衰退。如果向问题中插入看似相关却实际上对推理和结论无影响的语句模型便容易被误导。模型会将这些语句考虑在内从而诱发错误。研究指出模型并没有真正理解数学概念而是试图将这些语句转化为数学操作。作者们推测这可能是由于训练数据集中包含了类似需要转化为数学操作的例子。比如我们观察到的一种常见情况是无论上下文如何模型会将涉及“折扣”的语句理解为“乘法”。这不禁让人质疑这些模型是否真正掌握了数学概念。来源https://arxiv.org/pdf/2410.05229 图片来源https://arxiv.org/pdf/2410.05229 这再次证明模型甚至在模式patterns仅仅是背景噪声的情况下也会试图寻找这些模式patterns。当噪声增强寻找模式patterns的难度加大或者难以一致性地将这些模式patterns映射到解决方案上模型的性能就会大幅下滑10。这一点同样适用于那些经过 CoT 训练的 LLMs比如 ChatGPT4-O1[3]。这进一步说明CoT 并未真正提升模型的推理能力。图片来源https://www.arxiv.org/pdf/2409.13373 03 结束语本文探讨了一个热门话题LLMs 是否具备推理能力或者至少是某种形式的推理能力我们所展示的研究成果给出了不同的观点认为 LLMs 实质上是高级的模式匹配机器。总结来说这些研究指出 LLMs 通过海量 tokens 进行训练因此存在主要基准测试数据集发生数据污染的风险。即便模型未曾直接见过某个数学问题它也可能接触过众多类似的案例。凭借其庞大的知识库和与生俱来的模式识别能力归功于注意力机制和上下文学习[19]它们能够解决大部分问题。它们在应对问题变化、tokens 偏差以及噪声影响方面的脆弱性强烈表明 LLMs 并不具备形式推理的能力。最新研究结果显示即便采用先进的提示词技术模型仍然容易受到噪声和不相关甚至可能误导信息的影响。这些模型能够进行模式匹配但似乎并不理解解决问题所依据的任何数学概念。这些发现并未否定 LLMs 的实用性而是对 LLMs 具备推理能力的观点提出了质疑。这些结果表明可以将 LLM 视为拥有非凡记忆力的机器却无法进行推理或者可以说是迄今为止最精巧的“机械鹦鹉”。这并非贬低创造它们所需的卓越技术而是对人类智慧结晶的赞叹。为了更深入地理解 LLMs 的能力以及开发能够进行推理的新模型架构可能还需要进一步的研究。 Reference Jiang, 2024, A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners, https://arxiv.org/abs/2406.11050Shi, 2023, Large Language Models Can Be Easily Distracted by Irrelevant Context, https://proceedings.mlr.press/v202/shi23a.htmlSchaeffer, 2023, Are emergent abilities of large language models a mirage? https://arxiv.org/pdf/2304.15004Wei, 2022, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, https://arxiv.org/abs/2201.11903Sprague, 2024, To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, https://arxiv.org/abs/2409.12183Valmeekam, 2023, PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about ChangeKambhampati, 2024, Can Large Language Models Reason and Plan? https://arxiv.org/abs/2403.04121Razeghi, 2022, Impact of Pretraining Term Frequencies on Few-Shot Reasoning, https://arxiv.org/abs/2202.07206Mirzadeh, 2024, GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, https://arxiv.org/abs/2410.05229Valmeekam, 2024, LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench, https://www.arxiv.org/abs/2409.13373Lu, 2022, Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, https://aclanthology.org/2022.acl-long.556/Zhao, 2021, Calibrate Before Use: Improving Few-shot Performance of Language Models, https://proceedings.mlr.press/v139/zhao21c.htmlRogers, 2024, Position: Key Claims in LLM Research Have a Long Tail of Footnotes, https://openreview.net/forum?idM2cwkGleRL Thanks for reading! Hope you have enjoyed and learned new things from this blog! About the authors Salvatore Raieli Senior data scientist | about science, machine learning, and AI. Top writer in Artificial Intelligence END 本期互动内容 ❓您对未来可能出现的、真正具备推理能力的 AI 系统有什么期待和想象文中链接 [1]https://github.com/SalvatoreRa/tutorial/blob/main/artificial%20intelligence/FAQ.md#large-language-models:~:textLarge%20Language%20Models,-What%20is%20a [2]https://en.wikipedia.org/wiki/Natural_language_processing [3]https://openai.com/index/introducing-openai-o1-preview/ [4]https://aibusiness.com/nlp/chatgpt-update-claims-reasoning-capabilities-industry-reacts [5]https://gluebenchmark.com/ [6]https://super.gluebenchmark.com/ [7]https://deepgram.com/learn/hellaswag-llm-benchmark-guide [8]https://paperswithcode.com/area/reasoning [9]https://arxiv.org/pdf/2406.11050 [10]https://www.promptingguide.ai/techniques [11]https://ngsf.in/2021/09/19/intelligence-as-an-emergent-property-in-biological-systems/ [12]https://github.com/SalvatoreRa/tutorial/blob/main/artificial%20intelligence/FAQ.md#large-language-models:~:textWhat%20does%20it%20mean%20emergent%20properties%3F%20what%20it%20is%20the%20scaling%20law%3F [13]https://arxiv.org/pdf/2409.12183 [14]https://openai.com/index/learning-to-reason-with-llms/ [15]https://www.lakera.ai/blog/what-is-in-context-learning [16]https://www.technologyreview.com/2023/08/30/1078670/large-language-models-arent-people-lets-stop-testing-them-like-they-were/ [17]https://paperswithcode.com/dataset/gsm8k [18]https://machinelearning.apple.com/research/gsm-symbolic [19]http://ai.stanford.edu/blog/understanding-incontext/ 原文链接 https://towardsdatascience.com/the-savant-syndrome-is-pattern-recognition-equivalent-to-intelligence-242aab928152

查看全文

http://www.hkea.cn/news/14263725/