当前位置：首页 > news >正文

做企业网站域名付费资源下载站源码

news 2026/5/5 22:20:20

做企业网站域名,付费资源下载站源码,网站发的文章怎么做的,wordpress的文件夹LLMs在回答各种复杂问题时#xff0c;有时会“胡言乱语”#xff0c;产生所谓的幻觉。解决这一问题的初始步骤就是创建高质量幻觉数据集训练模型以帮助检测、缓解幻觉。但现有的幻觉标注数据集#xff0c;因为领域窄、数量少#xff0c;加上制作成本高、标注人员水平不一…LLMs在回答各种复杂问题时有时会“胡言乱语”产生所谓的幻觉。解决这一问题的初始步骤就是创建高质量幻觉数据集训练模型以帮助检测、缓解幻觉。但现有的幻觉标注数据集因为领域窄、数量少加上制作成本高、标注人员水平不一所以很难变得强大。为了解决这个问题上海AI lab设计了一个迭代自训练框架——ANAH-v2它像滚雪球一样一边扩大幻觉检测的数据集一边提高标注者的准确性。这个框架利用期望最大化算法每次循环都会先用现有的幻觉标注工具给新数据打上“幻觉”标签然后用这些新数据训练一个更厉害的标注工具。通过迭代检测工具越来越强数据集也越来越大。一个仅有7B参数的幻觉标注模型89.55%超越了GPT-4的表现86.97%并且在幻觉检测基准HaluEval和HalluQA上获得了新的SOTA 论文标题: ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models 论文链接 https://arxiv.org/pdf/2407.04693 方法 1. 善于分析的幻觉标注器幻觉标注器的目标是识别模型响应中的幻觉在本文中该过程分为三个阶段更贴近人类认知判断过程事实存在判断标注器评估提供的句子是否包含可验证的事实。如果没有事实内容该句子被归类为“无事实”无需进一步标注。参考信息提取标注器从与问题和答案相关的文档中提取相关参考点。幻觉类型判断标注器根据提取的参考点确定幻觉类型。如果句子与参考点一致则分类为“无幻觉”。如果与参考点矛盾则视为“矛盾幻觉”。如果缺乏支持证据且无法验证则标记为“不可验证幻觉”。以上三个阶段将在训练数据中形成多轮对话用于后续模型训练。 2. 最大期望EM算法本文通过最大期望算法同时扩展数据集和提高标注准确性。对于输入集合需要同时估计两个隐藏变量即输出集合和模型参数。具体而言定义幻觉标注器的输入来自输入集合包括一个问题、一个待标注的句子和一个参考文档。预期输出包括事实信息、参考文档中的关键参考点和幻觉类型。通过交替执行步和步来最大化的对数似然估计以更新模型参数 E步为了提高的估计准确性和稳定性作者引入了自一致性方法这提供了分布的更稳健表示。对于每个输入进行多次采样以产生个独立的输出其中第个输出样本由事实信息()、参考点()和幻觉类型()组成。使用自一致性度量从所有输出中选择最具代表性的样本在选择过程中依次考虑幻觉类型、参考点和事实信息。通过对所有样本进行多数投票来确定最常见的幻觉类型记为。然后从包含的输出中获取相应的形成候选参考集合。通过比较余弦相似性选择最“一致”的参考点。对于中的每个首先计算它与中其他元素的平均余弦相似性。之后选择平均余弦相似性最高的参考点。最后利用(, )可以唯一地选择相应的。 M步在E步的稳健估计之后M步更新模型参数以最大化所选输出的似然。在第次迭代中将参数更新策略公式化为 3. 多维数据缩放基于EM算法本文框架以迭代方式运行逐步扩展数据集包括三个阶段阶段1种子数据和基础标注器本文利用ANAH数据集作为种子数据其中包含超过700个主题和大约4300个由LLM生成的问题和回答。对于每个回答ANAH通过人工参与的方法为每个句子提供幻觉类型。本文使用第一节中描述的标注方法用这些种子数据训练初始幻觉标注器称为ANAH-v2阶段1。阶段2在回答维度上扩展在阶段1中对于每个问题ANAH提供GPT-3.5基于参考文档生成的回答以及InternLM-7B在没有参考文档的情况下生成回答。本文首先通过收集13个不同规模和系列的开源模型对相同问题的回答来扩展数据集的模型回答。对于每个模型收集有无参考文档的回答。在过滤掉相似的模型回答后这些回答使用ANAH-v2阶段1的自一致性pipeline逐句进行标注。新标注的数据与种子数据结合用于训练ANAH-v2阶段2。阶段3在主题维度上扩展本文沿四个类别扩展主题覆盖地点、人物、事件和事物与ANAH的配置平行。对于每个主题根据提供的参考文档生成几个问题。然后使用阶段2中的相同方法收集多个模型的回答并按照阶段2中使用ANAH-v2阶段2标注器的相同程序进行标注。最终数据集结合前几个阶段的数据用于训练最终版本的标注器。总体统计最终数据集涵盖超过3000个主题约196k个模型回答和约822k个标注句子包含英文和中文。主题覆盖名人、事件、地点和事物涉及广泛领域如政治、健康和体育。该数据集规模庞大覆盖全面。实验与分析本文采用了预训练的InternLM2-7B模型来对幻觉标注器进行微调使用ANAH数据集的子集作为测试集。利用F1和准确率评估标注器在预测幻觉类型方面的性能还使用RougeL和BertScore 来将生成的文本与人类参考文本进行比较以考虑语法、连续性、顺序和语义方面。实验结果如下表上表的最后三行展示了ANAH-v2在数据扩展各阶段的性能。随着数据集数量的增加其性能逐步提高。这一趋势突显了幻觉标注框架的可扩展性和有效性。值得注意的是ANAH-v2在第二阶段的F1值达到87.78%准确率达到88.03%超越了GPT-4。最终在第三阶段我们达到了89.30%的F1值和89.55%的准确率。除此之外ANAH-v2在第一阶段的准确率84.85%已超过参数为20B的ANAH-20B81.01%而其参数仅为7B。这种优越性能归功于前文提到的善于分析的幻觉标注器的设计得到了非常丰富的多轮对话。消融实验自一致性的影响当标注器模型在各个数据扩展阶段使用相同的训练数据时如下表所示采用自一致性推理策略w/ SC的性能始终优于不采用自一致性策略w/o SC即对每个输入只生成一次。因此自一致性方法提高了幻觉标注估计的准确性和稳定性。渐进数据缩放的影响在渐进方法中第二阶段更新的标注器用于标注额外主题的响应不断丰富训练数据。相比之下在非渐进方法中第一阶段的基本标注器用于生成第三阶段额外训练数据的标注。在相同规模的训练数据下使用非渐进数据扩展训练的标注器性能不如使用渐进数据扩展训练的标注器。训练策略的影响在默认训练过程中将新标注的数据与旧数据混合以重新训练标注器。或者仅使用新标注的数据来进一步训练上一阶段的标注器模型。结果表明混合训练数据的训练策略比仅用新数据进一步训练效果更好。在各个训练阶段整合不同质量的数据提高了标注器模型的鲁棒性。评估ANAH-v2模型在幻觉检测能力的泛化性本文进一步验证了微调模型ANAH-v2在其他幻觉检测数据集HaluEval英文和HalluQA中文上的有效性。让ANAH-v2分别判断回答中是否包含幻觉。结果显示标注模型ANAH-v2在HaluEval和HalluQA上均取得了显著的准确率。ANAH-v2第三阶段在zero-shot设置下分别在HaluEval81.54%和HalluQA94.44%上取得了新的SOTA这突显了ANAH-v2的泛化能力。此外ANAH-v2第三阶段的表现优于第一阶段和第二阶段的标注器这进一步证明了数据扩展策略在处理不熟悉回答时有效地稳定了性能。 ANAH-v2数据集可作为幻觉评估基准 ANAH-v2数据集和标注器可以作为现有模型生成文本中幻觉水平的基准。作者评估了各种不同规模的LLMs在ANAH-v2数据集的上性能。所有模型在英文中的表现优于中文这突显了需要进一步研究以理解和减少语言依赖的差异。所有模型在使用参考文档时的性能都优于不使用参考文档时的性能。Qwen1.5-14B在使用参考文档时实现了最低的幻觉率5.33%而Deepseek-67B在没有提供参考文档时实现了最低的幻觉率47.17%。 ANAH-v2标注器可用于缓解幻觉除了用于测量幻觉水平外ANAH-v2还可以用于缓解幻觉。本文使用了两个模型InternLM2-7B和LLaMA2-7B通过top-k采样k40生成36个候选响应然后使用ANAH-v2标注器对这些响应进行重新排序选择具有最低幻觉率的最佳响应。为了量化幻觉程度使用了RougeL、BertScore、NLI和QuestionEval指标测量生成的响应与标准答案和/或参考文档之间的一致性。结果显示通过ANAH-v2标注器进行重新排序后幻觉水平明显下降。LLaMA2-7B的NLI指标显著提高从25.00%上升到37.01%。结语本文通过迭代自我训练逐步扩大数据集的多样性和规模并提高幻觉标注器的准确性。最终得到的ANAH-v2仅用7B参数在各种幻觉检测基准测试中首次超过了GPT-4并在第三方幻觉检测基准测试中表现出色。 ANAH-v2不仅提供了一个基于的扩展数据集的自动幻觉评估基准为未来幻觉缓解研究铺平了道路还通过简单的重新排序策略展示了其在幻觉缓解中的潜力。相信ANAH-v2还可以为更细粒度的RLHF等更多幻觉缓解策略提供帮助。

查看全文

http://www.hkea.cn/news/14546974/