当前位置：首页 > news >正文

中国航空集团建设开发有限公司网站微信公众号推广网站

news 2026/4/6 19:00:44

中国航空集团建设开发有限公司网站,微信公众号推广网站,网页升级访问自动,做电子外贸网站最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback 一、简介部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调…

最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等

本次解读经典论文learning to summarize with human feedback

一、简介

部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调的模型跟真正使用模型的人的喜好并不能直接匹配，即不对齐。

这种不对齐的原因有：（1）最大化可能性目标对于重要和不重要的错误判别的差距不大。（2）模型会对人类的训练数据放置更大的可能性，其中包括低质量的训练数据。（3）采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善，比如束搜索，但是可能造成重复和不想要的捏造。

本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

主要的贡献如下：

（1）使用人类反馈训练后在英文摘要生成的任务上表现显著。

（2）比有监督模型对于新领域的泛化性更好

（3）对policy和奖励模型进行了严谨的分析

（4）开源人类反馈数据集

创新：模型更大；收集人类反馈的批次设定；保证标注人员和研究人员的评价一致；一些算法改进，比如将policy和奖励模型分开

二、方法和实验细节

在已经有一个训练过的模型（在强化学习中，这个训练好的模型叫policy）的基础上，对于RLHF，通用的三步如下：

1.使用policy模型对同一个prompt进行推理后给标注员进行对比

2.从以上的对比结果中训练一个奖励模型

3.使用奖励模型和PPO算法进行policy模型的优化

对于同一个摘要生成的数据，结果对比：

三、模型结构

所有模型的结构是GPT3风格的Transformer解码器

先在大规模的文本库中使用预测下一个token的形式进行预训练

奖励模型

人类反馈policy模型

前者最大化奖励模型的偏好，后者有两个作用：（1）鼓励模型去探索好的模式，防止单模式崩溃

（2）让模型减少学习和训练时见过的输出相差较大的偏好。

http://www.hkea.cn/news/642977/

相关文章：

网站不去公安局备案自己怎么搭建网站

外贸网站建设入门深圳网络推广哪家

网站模板资源公司网站推广

广东省建设教育协会官方网站首页html简单网页代码

个人网站意义阿里指数官网最新版本

网站开发方式有哪四种搜索引擎优化课程总结

申请做网站、论坛版主app推广接单

青海网站建设广州seo优化推广

物流公司网站制作模板上海网站关键词排名

广西建设人才网搜索引擎优化的目标

比汉斯设计网站素材图片搜索识图入口

php网站架设教程英雄联盟韩国

做毕设好的网站百度客服电话24小时

上海手机网站建设电话咨询seo综合查询系统

wordpress 4.6 中文版沈阳seo

文件管理软件天津搜索引擎优化

九亭网站建设全国疫情高峰时间表最新

青岛网站建设公司武汉seo收费

mvc网站建设的实验报告怎么做优化

有官网建手机网站千锋教育培训多少钱费用

b2c交易模式的网站有哪些百度营销客户端

flash 学习网站重庆网站seo多少钱

年终总结ppt模板免费下载网站小红书seo排名规则

自己架设网站口碑营销的产品有哪些

湖北省网站备案最快几天天津百度推广排名优化

app在线开发制作平台seo网络优化前景怎么样

商务网站的基本情况网站建设工作总结

山西建设厅网站网络销售怎么聊客户

软装素材网站有哪些seo网络排名优化哪家好

邯郸市做网站建设网络口碑营销案例分析