当前位置: 首页 > news >正文

台山网站建设温州网站制作网站

台山网站建设,温州网站制作网站,郑州 发布会,手机网站永久免费制作大语言模型真的可以推理吗#xff1f;LLM 都是“参数匹配大师”#xff1f;苹果研究员质疑 LLM 推理能力#xff0c;称其“不堪一击”#xff01;苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文#xff0c;对大型语言模型 #xff08;LLM#xff09; 的推理能…大语言模型真的可以推理吗LLM 都是“参数匹配大师”苹果研究员质疑 LLM 推理能力称其“不堪一击”苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文对大型语言模型 LLM 的推理能力提出了尖锐的质疑他认为LLM 的“推理” 能力其实只是复杂的模式匹配不堪一击 论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是在 OpenAI 发布 GSM8K 的三年里模型的性能有了显著提升从 GPT-3 175B 的 35% 提升到了现在 30 亿参数模型的 85% 以上更大的模型甚至超过了 95%。但 Farajtabar 认为这并不能证明 LLM 的推理能力真的提高了 为了测试 LLM 的数学推理能力的极限Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具它可以根据 GSM8K 测试集创建符号模板从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合这些集合本质上就像 GSM8K 示例但具有不同的值和名称 GSM8K 是 “Grade School Math 8K” 的缩写是一个用来评估数学问题解决能力的数据集。这个数据集主要包含小学级别的数学题目大约 8000 道题目通常用于训练和测试机器学习模型特别是在自然语言处理领域的模型如何处理和解决数学问题 实验结果令人大跌眼镜 1当前 GSM8K 的准确率并不可靠 不同模型在 GSM8K 上的表现差异巨大例如 Llama 8B 的得分在 70% 到 80% 之间Phi-3 的得分在 75% 到 90% 之间等等。对于大多数模型在 GSM-Symbolic 上的平均性能低于在 GSM8K 上的平均性能 2所谓的 LLM 推理能力不堪一击 LLM 对专有名词和数字的更改非常敏感这说明它们并没有真正理解数学概念。就像一个小学生如果我们只是更改了数学测试题中的人名他的分数就会下降 10% 吗显然不会 3随着问题难度的增加 M1 → Symbolic → P1 → P2。引入了 GSM-Symbolic 的三个新变体来研究模型行为删除一个分句GSM-M1、增加一个分句GSM-P1或增加两个分句GSM-P2模型的性能下降方差上升 这意味着模型的可靠性越来越差 4引入 GSM-NoOp 后模型性能断崖式下跌 GSM-NoOp 是在 GSM-Symbolic 的基础上添加了一个看似相关但不影响整体推理的子句。所有模型包括 o1 模型都表现出了显著的性能下降。这说明即使是强大的 o1 模型也无法真正理解数学问题的逻辑结构 5即使是 OpenAI 的 o1 系列模型也无法完全避免这些问题。 o1-preview 虽然有所改进但仍然会犯一些低级错误例如无法理解“现在”和“去年”的区别这可能是因为训练数据中包含了“通货膨胀”的模式模型只是简单地模仿了这种模式 Farajtabar 认为 LLM 的这些表现更好地解释是复杂的模式匹配而不是真正的逻辑推理。 即使我们增加数据、参数和计算量或者使用更好的训练数据也只是得到了“更好的模式匹配器”而不是“更好的推理器” Denny Zhou Google DeepMind 的 LLM 推理团队负责人 也参与了讨论他指出 “这项工作的一个关键发现是向 GSM8k 问题添加不相关的上下文会导致 LLM 无法解决这些问题正如我们在 ICML 2023 年的论文‘大型语言模型很容易被不相关的上下文分散注意力’ 中所证明的那样。提示构建的差异在我看来仍然很有趣。” Yuandong Tian Meta AI 的研究科学家总监 也表达了他的观点 “核心问题是凭借我们的领域知识我们可以构建权重使 LLM 在特定问题中进行良好的推理然而梯度下降可能无法学习到这样的权重我们仍然依赖梯度下降因为它为许多领域带来了魔力——如果它在其他领域变得愚蠢我们也无能为力。” 结论 总的来说这篇论文研究结果没有在包括 Llama、Phi、Gemma 和 Mistral 等开源模型以及最近的 OpenAI GPT-4o 和 o1 系列等领先闭源模型在内的语言模型中找到任何形式推理的证据。他们的行为可以用复杂的模式匹配来更好地解释——如此脆弱以至于更改名称都会使结果改变约 10%我们可以扩展数据、参数和计算量——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但这可能只会产生“更好的模式匹配器”而不是“更好的推理器”
http://www.hkea.cn/news/14538891/

相关文章:

  • 如何选择家居网站建设下载软件的软件哪个好
  • 网站建设公司会议网站腾讯云 安装wordpress
  • 关于图书网站建设的书籍wordpress同步插件
  • wordpress站群模板江苏住房城乡建设厅网站
  • 网站多语言界面建设方案门户网站建设公司市场
  • 电商网站规划书网站建设与管理就业
  • 网站页面设计论文遵义网站建设公司招聘
  • 龙岗外贸网站建设公司杭州建设网站设计的公司
  • 邯郸网站开发网站建设团队定制
  • 网站推广的图片可以做仿牌网站
  • 西安网站建设公司哪有ps课堂网站
  • 招聘销售员网站建设网络推广好的建站平台
  • 做配电箱的专门网站软件技术就业岗位
  • 移动服务器建设的电影网站店铺装修设计效果图免费
  • 广东建设业协会网站做网站带源码软件-dw
  • 怎么做百度联盟网站茅台镇哪一家网站做的好
  • 食品网站建设项目的预算网站开发需要哪些技术
  • 典型的电子商务网站做视频后期的网站
  • 外贸网站建设注意事项做期货关注网站
  • 河南信合建设投资集团有限公司网站行业前10的网站建设公
  • 网站建立者开发一个简单的app需要多少钱
  • 网站网址前的小图标怎么做在百度怎么开店卖货
  • 公司网站制作重庆永兴县网站建设哪个好
  • 如何个网站做二维码wordpress文章点击次数插件
  • 网站建设需求精确表优秀网站欣赏
  • 网站建设与思想阵地网站功能需求表
  • 建站 赚钱成都鸿邑网站建设
  • 无备案网站微信做暧暧视频网站在线
  • 沈阳网站推广的公司哪些网站做高尔夫旅游
  • php网站美化我想在网站做宣传怎么弄