当前位置：首页 > news >正文

angular做的网站大全自己的网站怎么做seo

news 2026/4/6 21:36:29

angular做的网站大全,自己的网站怎么做seo,网站做直播吗,对网站分析最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback 一、简介部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调…

最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等

本次解读经典论文learning to summarize with human feedback

一、简介

部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调的模型跟真正使用模型的人的喜好并不能直接匹配，即不对齐。

这种不对齐的原因有：（1）最大化可能性目标对于重要和不重要的错误判别的差距不大。（2）模型会对人类的训练数据放置更大的可能性，其中包括低质量的训练数据。（3）采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善，比如束搜索，但是可能造成重复和不想要的捏造。

本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

主要的贡献如下：

（1）使用人类反馈训练后在英文摘要生成的任务上表现显著。

（2）比有监督模型对于新领域的泛化性更好

（3）对policy和奖励模型进行了严谨的分析

（4）开源人类反馈数据集

创新：模型更大；收集人类反馈的批次设定；保证标注人员和研究人员的评价一致；一些算法改进，比如将policy和奖励模型分开

二、方法和实验细节

在已经有一个训练过的模型（在强化学习中，这个训练好的模型叫policy）的基础上，对于RLHF，通用的三步如下：

1.使用policy模型对同一个prompt进行推理后给标注员进行对比

2.从以上的对比结果中训练一个奖励模型

3.使用奖励模型和PPO算法进行policy模型的优化

对于同一个摘要生成的数据，结果对比：

三、模型结构

所有模型的结构是GPT3风格的Transformer解码器

先在大规模的文本库中使用预测下一个token的形式进行预训练

奖励模型

人类反馈policy模型

前者最大化奖励模型的偏好，后者有两个作用：（1）鼓励模型去探索好的模式，防止单模式崩溃

（2）让模型减少学习和训练时见过的输出相差较大的偏好。

http://www.hkea.cn/news/116869/

相关文章：

乌鲁木齐招聘网站建设一站式网络营销

中小型网站建设服务淘宝数据分析工具

梧州网站设计企业网站模板建站

行政事业单位网站建设建议营销策划公司

网络推广网站怎么做百度联盟广告点击一次收益

wordpress居中样式宁波seo网络推广外包报价

java做网站用到哪些技术网络营销的重要性与意义

网络营销推广的作用谷歌seo什么意思

免费网站建设解决方案郑州网络营销公司哪个好

转转怎么做钓鱼网站税收大数据

株洲专业网站排名优化深圳产品网络推广

深圳美食教学网站制作如何免费搭建自己的网站

兰州移动端网站建设广东整治互联网霸王条款

彩票网站该怎么建设天津seo实战培训

原平的旅游网站怎么做的新冠疫情最新情况最新消息

网站开发软件著作权归谁seo外包

小说网站的网编具体做哪些工作南宁网站快速排名提升

承德网站设计seo互联网营销培训

工信部网站备案查询手机seo专员的工作内容

淘宝活动策划网站视频营销成功的案例

精准营销数据杭州排名优化软件

中卫网站建站设计seo学习论坛

wordpress初始登录seo排名赚app靠谱吗

软件外包保密协议seo相关岗位

后台网站开发文档下载班级优化大师app

辛集城乡建设管理局网站网络营销网络推广

阿里云部署一个自己做的网站吗电商网站搭建

免费汽车租赁网站模板网站域名解析ip查询

企业解决方案官网国内seo排名分析主要针对百度

变态版手游石景山区百科seo