当前位置：首页 > news >正文

分享惠网站怎么做深圳市工程招标网中标公告

news 2026/4/19 21:11:47

分享惠网站怎么做,深圳市工程招标网中标公告,网页设计与网站建设在线考试1,什么叫网站的域名论文地址#xff1a;https://arxiv.org/abs/2310.11511 项目主页#xff1a;https://selfrag.github.io/ Self-RAG学习检索、生成和批评#xff0c;以提高 LM 的输出质量和真实性#xff0c;在六项任务上优于 ChatGPT 和检索增强的 LLama2 Chat。问题#xff1a;万能L…论文地址https://arxiv.org/abs/2310.11511 项目主页https://selfrag.github.io/ Self-RAG学习检索、生成和批评以提高 LM 的输出质量和真实性在六项任务上优于 ChatGPT 和检索增强的 LLama2 Chat。问题万能LLM错误陈述事实的问题尽管大型语言模型LLM具有非凡的能力但由于它们完全依赖于它们所封装的参数知识因此通常会产生包含事实不准确的响应。他们经常产生幻觉尤其是在长尾方面他们的知识已经过时并且缺乏归因。检索增强是否是银弹检索增强生成 (RAG) 是一种临时方法通过检索相关知识来增强 LM减少此类问题并在 QA 等知识密集型任务中显示出有效性。然而不加区别地检索和合并固定数量的检索到的段落无论检索是否必要或者段落是否相关都会降低 LM 的多功能性或可能导致生成无用的响应。此外并不能保证所引用的证据会影响几代人。 Self-RAG的概念自反思检索增强生成(Self-RAG)是个新框架通过检索和自反思来提高LM的质量和事实性。我们的框架训练单个任意LM该LM可以自适应地按需检索段落(例如可以在生成过程中多次检索或完全跳过检索)并使用称为反思令牌的特殊标记生成并反映检索到的段落及其自己的生成。生成反射令牌使LM在推理阶段可控使其能够根据不同的任务要求调整其行为。 Self-RAG的好处实验表明Self-RAG(7B和13B参数)在各种任务上显着优于最先进的LLM和检索增强模型。具体来说Self-RAG在开放域QA、推理和事实验证任务上优于ChatGPT和检索增强的Llama2-chat并且相对于这些模型它在提高长格式生成的事实性和引用准确性方面显示出显着的收益。 1. 基本思想自我反思检索增强生成(SELF-RAG)通过按需检索和自我反思来提高LLM的生成质量包括其事实准确性而不损害其通用性。以端到端方式训练任意LLM使其学会在任务输入时通过生成任务输出和间歇性特殊标记(即反思标记)来反思自己的生成过程。反思标记分为检索标记和批判标记分别表示检索需求和生成质量。 Self-RAG是个新的框架通过自我反思令牌(Self-reflection tokens)来训练和控制任意LM。它主要分为三个步骤检索、生成和批评。检索Self-RAG首先解码检索令牌(retrieval token)以评估是否需要检索并控制检索组件。如果需要检索LM将调用外部检索模块查找相关文档。生成如果不需要检索模型会预测下一个输出段。如果需要检索模型首先生成批评令牌(critique token)来评估检索到的文档是否相关然后根据检索到的段落生成后续内容。批评如果需要检索模型进一步评估段落是否支持生成。最后一个新的批评令牌(critique token)评估响应的整体效用。具体来说在给定输入提示和前几代的情况下SELF-RAG 首先会判断用检索到的段落来增强继续生成是否有帮助。如果有帮助它就会输出一个检索标记按需调用检索模型步骤 1。随后SELF-RAG 同时处理多个检索到的段落评估它们的相关性然后生成相应的任务输出步骤 2。然后它生成批判标记来批判自己的输出并从事实性和整体质量方面选择最佳输出第 3 步。这一过程不同于传统的 RAG图 1 左后者无论检索的必要性如何例如下图示例不需要事实性知识都会持续检索固定数量的文档进行生成而且从不对生成质量进行二次检查。此外SELF-RAG 还会为每个段落提供引文并对输出结果是否得到段落支持进行自我评估从而更容易进行事实验证。 SELF-RAG 通过将任意 LM 统一为扩展模型词汇表中的下一个标记预测训练其生成带有反射标记的文本。 2. 实现详情 SELF-RAG 通过检索和自我反思来提高 LLM 的质量和事实性同时又不牺牲 LLM 的原始创造性和多功能性。端到端训练可以让 LMM 在必要时根据检索到的段落生成文本并通过学习生成特殊标记对输出进行批判。这些反思标记表 1表示需要检索或确认输出的相关性、支持性或完整性。相比之下常见的 RAG 方法会不加区分地检索段落而无法确保引用来源的完整支持。 2.1 问题形式化和概述形式上给定输入 x训练 M 按顺序生成由多个片段 yy1,…,yT 组成的文本输出 y其中 yt 表示第 t 个片段的标记序列。首先看推理阶段。图 1 和算法 1 展示了 SELF-RAG 的推理情况。对于每一个 x 和前序生成结果 yt模型都会解码一个检索标记以评估检索的效用。如果不需要检索模型就会像标准 LM 一样预测下一个输出段落。如果需要检索模型就会生成一个评论标记用于评估检索段落的相关性然后生成下一个回复段落以及一个评论标记用于评估回应段中的信息是否得到段落的支持。 SELF-RAG 并行处理多个段落以生成每个段落并使用自己生成的反射标记对生成的任务输出执行软约束或硬控制。例如在上图中由于 d2 没有提供直接证据ISREL 为不相关且 d3 输出仅得到部分支持而 d1 得到完全支持因此在第一个时间步骤中选择了检索到的段落 d1。 2.2 训练阶段 Self-RAG的训练包括三个模型检索器(Retriever)、评论家(Critic)和生成器(Generator)。首先训练评论家使用检索器检索到的段落以及反思令牌增强指令 - 输出数据。然后使用标准的下一个 token 预测目标来训练生成器 LM以学习生成自然延续 (continuations) 以及特殊 tokens (用来检索或批评其自己的生成内容)。下面介绍两个模型的监督数据收集和训练即批判者 C 和生成器 M。 2.2.1 训练批判者模型数据收集。对每个片段的反射标记进行人工标注的成本很高。最先进的 LLM如 GPT-4可有效用于生成此类反馈。然而依赖这种专有的 LLM 可能会提高 API 成本并降低可重复性通过促使 GPT-4 生成反射标记来创建监督数据然后将其知识提炼为内部 C{Xsample,Ysample}∼{X,Y}。如表 1 所示不同的反射标记组有不同的定义和输入因此我们对它们使用不同的指令提示。反射标记定义如下‍‍‍‍ 按需检索Retrieve给定输入和前一步生成如适用后LM 会确定续篇是否需要事实依据。no 表示不需要检索因为序列不需要事实基础或可能不会通过知识检索得到加强yes 表示需要检索。continue 表示一个模型可以继续使用之前检索到的证据。例如一段话可能包含丰富的事实信息因此 SELF-RAG 会根据这段话生成多个片段。相关性ISREL检索到的知识不一定总是与输入相关。这一方面表明证据是否提供了有用的信息相关。支持 (ISSUP)归因是指输出是否得到某些证据的充分支持。这一方面判断的是输出中的信息有多少是由证据所包含的归因分为三个等级完全支持、部分支持和不支持 / 矛盾。有用ISUSE将感知到的有用性定义为回复是否是对查询有帮助且信息丰富的答案而与回复是否符合事实无关这也可视为可信度。对于有用性采用五级评价1 为最低5 为最高。以” 检索” 为例。向 GPT-4 发送了一条特定类型的指令” 给定指令请判断从网络上查找一些外部文档是否有助于生成更好的回复。”然后用 fewshot 演示了 I 的原始任务输入 x 和输出 y以预测适当的反映标记文本p(r|I,x,y)。其针对每个标记都设定了一些 prompt这块是整个数据的关键表 8 显示了初始检索标记的指令和示例。表 9 显示了用于收集” 检索给定指令”、” 前面的句子” 和” 以前检索过的段落” 三路输出标记的指令和示例。表 10 显示了用于收集 ISREL 三路输出标记的指令和示例。表 11 显示了用于收集 ISREL 三路输出标记的指令和示例。表 12 显示了用于收集 ISUSE 的五路输出标记的指令和示例。人工评估结果表明GPT-4 的反射标记预测与人工评估结果具有很高的一致性所以为每种类型收集了 4k-20k 个有监督的训练数据并将它们组合起来形成 C 的训练数据样式如下‍‍‍‍‍‍ 训练数据的样式如下批判学习。在收集到训练数据 Dcritic 之后用预先训练好的 LM 对 C 进行初始化并使用标准的条件语言建模目标–最大化似然–对其进行训练 $\max {\mathcal{C}} \mathbb{E}{((x, y), r) \sim \mathcal{D}{\text {critic }}} \log p{\mathcal{C}}(r \mid x, y), r \text { for reflection tokens. }$ 2.2.2 训练生成器模型数据收集。给定一对输入 - 输出x,y使用检索模型和批判者模型来增强原始输出 y以创建精确模拟 SELF-RAG 推理时间过程的监督数据。对于每个语段 yt∈y运行 C 来评估额外的语段是否有助于增强生成。如果需要检索则添加检索特殊标记 Retrieveyes然后 R 检索前 K 个段落 D。对于每个段落C 进一步评估该段落是否相关并预测 ISREL。如果段落相关C 会进一步评估该段落是否支持模型生成并预测 ISSUP。其中批判标记 ISREL 和 ISSUP 会附加在检索到的段落之后。在输出 y或 yT结束时C 会预测总体效用标记 ISUSE并将包含反射标记和原始输入对的增强输出添加到 Dgen 中。生成器学习。使用标准的下一个标记目标在添加了反射标记 Dgen 的编辑语料库上训练生成器模型 M $\max {\mathcal{M}} \mathbb{E}{(x, y, r) \sim \mathcal{D}{g e n}} \log p{\mathcal{M}}(y, r \mid x)$ M 与 C 训练不同M 学习预测目标输出和反射标记。在训练过程中会屏蔽掉检索到的文本块以计算损失并用一组反射标记 {Critique,Retrieve} 来扩展原始词汇 V。 3、推理阶段 Self-RAG 通过学习生成反思令牌使得在不需要训练 LMs 的情况下为各种下游任务或偏好量身定制模型行为。特别是它可以适应性地使用检索令牌进行检索因此模型可以自发判断是不是有必要进行检索。它引入了多种细粒度的批评令牌这些令牌用于评估生成内容的各个方面的质量。在生成过程中作者使用期望的批评令牌概率的线性插值进行 segment 级的 beam search以在每一个时间步骤中确定最佳的 K 个续写方案。在推理阶段SELF-RAG 通过生成反射标记来自我评估输出结果从而使其行为适应不同的任务要求。对于要求事实准确性的任务目标是让模型更频繁地检索段落以确保输出结果与可用证据密切吻合。在开放性较强的任务中如撰写个人经历文章重点则转向减少检索次数优先考虑整体创造性或实用性得分。因此在推理过程中需要实施控制以满足这些不同目标。方法如下‍‍‍‍‍‍ 带阈值的自适应检索。SELF-RAG 通过预测” 检索”Retrieve来动态决定何时检索文本段落。另外还允许设置阈值。具体来说如果在 Retrieve 的所有输出标记中生成 RetrieveYes 标记的概率超过了指定的阈值就会触发检索带批判标记的树状解码。在每个分段步骤 t当需要根据硬条件或软条件进行检索时R 会检索 K 个段落生成器 M 会并行处理每个段落并输出 K 个不同的候选续篇。进行分段级波束搜索波束大小 B以获得每个时间戳 t 的前 B 个分段连续性并在生成结束时返回最佳序列。每个段落 yt 相对于段落 d 的得分都会用批判者得分 S 更新该得分是每个段落 yt 和段落 d 的归一化概率的线性加权和。对于每个批判标记组 G如 ISREL将其在时间戳 t 的得分记为 sGt并按如下方式计算片段得分 3.实验设置与结果分析‍‍‍‍ 3.1 任务和数据集该工作在一系列下游任务上对 SELF-RAG 和各种基线进行了评估用旨在评估整体正确性、事实性和流畅性的指标对输出进行了整体评估。封闭集任务包括两个数据集即关于公共卫生的事实验证数据集PubHealth和根据科学考试创建的多选推理数据集ARC-Challenge使用准确率作为评估指标并对测试集进行报告。两个开放域问题解答QA数据集PopQA 和 TriviaQA-unfiltered其中系统需要回答有关事实知识的任意问题。长式生成任务包括传记生成任务和长式质量保证任务 ALCE-ASQA使用 FactScore 来评估传记并使用基于 MAUVE 的官方指标正确性、流畅性以及引用精度和召回率来评估 ASQA。 3.2 实验结果表 2上列出了相关对比效果‍ 如表 2下所示在 PubHealth 和 ARC-Challenge 上有检索功能的基线与没有检索功能的基线相比性能提升并不明显。大多数带检索的基线模型在提高引用准确率方面都很吃力。在实际精确度的度量上SELF-RAG7B 偶尔会优于 13B这是因为较小的 SELF-RAG 通常倾向于生成精确且较短的输出。 Llama2-FT7B 是在与 SELF-RAG 相同的指令 - 输出对上训练的基准 LM不进行检索或自我反省仅在测试时进行检索增强它落后于 SELF-RAG。这一结果表明SELF-RAG 的收益并非完全来自训练数据并证明了 SELF-RAG 框架的有效性。 Self-RAG 在六项任务中均超越了原始的 ChatGPT 或 LLama2-chat并且在大多数任务中其表现远超那些广泛应用的检索增强方法。以上是一些消融实验可以看到每一个组件和技术在 Self-RAG 中都起到了至关重要的作用。调整这些组件可以显著影响模型的输出性质和质量这证明了它们在模型中的重要性。综上所述Self-RAG 作为一种新型的检索增强生成框架通过自适应检索和引入反思令牌不仅增强了模型的生成效果还提供了对模型行为的更高程度的控制。这项技术为提高开放领域问答和事实验证的准确性开辟了新的可能性展示了模型自我评估和调整的潜力。 4. 总结 SELF-RAG 通过预测原始词汇中的下一个标记以及新添加的特殊标记称为” 反思标记”训练 LM 学习检索、生成和批判文本段落以及自己的生成。

查看全文

http://www.hkea.cn/news/14332614/