一元购物网站怎么做,全国楼市走势最新消息,微信小程序开挂方法,息县网站建设研究背景
论文介绍了 “ReAct” 范式#xff0c;该范式旨在融合推理和行动的功能#xff0c;通过让大型语言模型#xff08;LLMs#xff09;生成既包括言语推理轨迹又包括行动序列的输出#xff0c;解决多种语言推理和决策任务。这种方法允许模型在与外部环境#xff08…研究背景
论文介绍了 “ReAct” 范式该范式旨在融合推理和行动的功能通过让大型语言模型LLMs生成既包括言语推理轨迹又包括行动序列的输出解决多种语言推理和决策任务。这种方法允许模型在与外部环境如Wikipedia交互时动态地进行推理和调整计划。
研究目标
ReAct的目标是改善LLMs中推理和行动生成的整合以提升在多样化基准测试中的性能。它试图解决现有模型的局限性这些模型通常将推理和行动生成分开处理从而增加在需要这两种认知功能的任务中的效率。
相关工作
该方法与之前只侧重于推理的链式思考提示等方法形成对比。ReAct在整合基于行动的交互方面独树一帜为涉及外部信息源的问题解决任务提供了更全面的解决方案。
方法论
ReAct采用一种新颖的提示策略将推理和行动步骤交错使用并利用如Wikipedia这样的外部API获取实时数据以辅助决策过程。这种设置允许模型根据最新信息调整其响应提高准确性和相关性。 ReAct框架结合了结构化提示和微调方法在更少的数据样本上训练模型同时实现更高的性能。它利用上下文学习和针对性微调使模型适应特定任务而不需要大量数据。
以在wiki上的HotPotQA数据为例
设计动作空间 论文设计一个简单的维基百科web API三种类型的行动来支持交互式信息检索
search[entity]返回前5个句子从相应的实体维基页面如果存在或者建议5类似实体从维基百科搜索引擎lookup[string]这将返回页面的下一个句子包含字符串模拟CtrlF浏览器功能finish[answer]这将会用答案来完成当前的任务
这个动作空间大多只能根据确切的段落名称检索到一篇文章的一小部分这明显比现有的词汇或神经检索器更弱。其目的是模拟人类将如何与维基百科互动并迫使模型通过语言中的显式推理进行检索。
prompt
问题科罗拉多造山带东部区域的海拔范围是多少
行动 1搜索【科罗拉多造山带】
观察 1科罗拉多造山带是科罗拉多及周边地区的一次山脉构造活动。
行动 2查找【东部区域】
观察 2结果 1 / 1东部区域延伸至高原平原称为中部平原造山带。
行动 3搜索【高原平原】
观察 3高原平原指两个不同的地区之一
行动 4搜索【美国高原平原】
观察 4高原平原是大平原的一个子区域。从东到西高原平原的海拔从大约 1,800 英尺升至 7,000 英尺550 到 2,130 米。
行动 5结束【1,800 至 7,000 英尺】实验
实验设计
实验在四个不同的基准测试上进行问题回答、事实验证、基于文本的游戏和网页导航。这些测试旨在评估模型在复杂的多组件环境中执行推理和行动生成的能力。
任务类型任务数据集备注问题回答Hot-PotQA从英文维基百科收集的 QA 数据集包含大约113K个群众来源的问题这些问题需要两篇维基百科文章的引言段落来回答。数据集中的每个问题都有两个黄金段落以及这些段落中的句子列表众包工作者认为这些句子是回答问题所必需的支持事实。事实验证FEVER一个针对文本来源进行事实提取和验证的公开数据集。FEVER(事实提取和验证)由185,445个声明组成通过修改从维基百科中提取的句子然后在不知道这些句子的情况下进行验证。声明被分为 SupportedRefutedNotRnoughInfo数据是 Json 格式。基于文本的游戏ALFWorldALFWorldShridhar等人2020b图1(2)是一个基于文本的合成游戏旨在与具体化的阿尔弗雷德基准测试对齐Shridhar等人2020a。它包括6种类型的任务其中代理需要通过文本操作导航模拟家庭并与之进行交互例如去咖啡柜1取纸2使用桌面灯1。网页导航WebShopWebShop是一个模拟的电子商务网站环境拥有118万个真实世界的产品和12087条众包文本指令。在这种环境中代理需要浏览多种类型的网页并发出不同的操作来查找、自定义和购买给定说明的产品。WebShop提供了一些挑战包括理解组合指令、查询重新公式、处理网页中的嘈杂文本以及执行战略探索。
实验结论
ReAct在所有测试领域中的性能均优于最先进的基线模型特别是在传统仅行动模型中表现出色并在从实时数据交互中受益的任务中显示出显著优势。实验还突出了ReAct提高模型可解释性和可信度的能力使用户更容易理解并验证模型决策背后的推理。
比如在HotPotQA上的实验结果如下
参考资料
论文代码