当前位置：首页 > news >正文

博学云网站建设海口seo计费

news 2026/4/7 1:28:35

博学云网站建设,海口seo计费,长春制作网站软件,网站改版原因本文代码参见：https://github.com/zysNLP/quickllm/tree/main/learnings/llm_related-main；感谢star。本文内容非常生动形象、但也非常长非常详细，请参照代码逐行耐心查看配套《AIGC大模型理论与工业落地实战》；持续更新中 1. PPO算法简介近端策略优化（Proximal Poli…

本文代码参见：https://github.com/zysNLP/quickllm/tree/main/learnings/llm_related-main；感谢star。本文内容非常生动形象、但也非常长非常详细，请参照代码逐行耐心查看

配套《AIGC大模型理论与工业落地实战》；持续更新中

1. PPO算法简介

近端策略优化（Proximal Policy Optimization, PPO）是OpenAI于2017年提出的一种强化学习算法，属于策略梯度（Policy Gradient）方法。PPO通过限制策略更新的幅度来保证训练的稳定性，是目前RLHF（Reinforcement Learning from Human Feedback）中最常用的算法之一。

2. 核心概念：4+2理解法

2.1 四个模型

2.1.1 策略模型（Actor Model）

作用：待优化的主模型，负责生成文本
参数更新：✅ 参与训练，通过策略损失进行优化
代码位置：actor_model = AutoModelForCausalLM.from_pretrained(...)

2.1.2 价值模型（Critic Model）

作用：评估当前状态的期望回报，预测每个token的价值
参数更新：✅ 参与训练，通过价值损失进行优化
代码位置：critic_model = Critic(actor_model.base_model)

2.1.3 奖励模型（Reward Model）

作用：评估生成文本的质量，提供奖励信号
参数更新：❌ 不参与训练，权重固定
代码位置：reward_model = AutoModelForSequenceClassification.from_pretrained(...)

注意事项：不建议使用API形式的reward model，原因如下：

API请求耗时较长（单次请求约1-5秒），严重影响训练效率
API响应可能不稳定，容易出现解析失败的情况
相比本地reward模型，API形式的性能差异显著
建议使用本地reward模型进行PPO训练，以获得更好的训练效果和效率

2.1.4 参考模型（Reference Model）

作用：防止策略模型偏离原始模型太远，提供KL散度约束
参数更新：❌ 不参与训练，权重固定
代码位置：ref_model = AutoModelForCausalLM.from_pretrained(...)

3. 数学推导过程

3.1 基础概念

3.1.1 策略与轨迹

在RLHF中：

策略：我们要优化的大模型
轨迹：一次完整的文本生成过程
状态：当前的文本前缀
动作：生成下一个token

轨迹定义：
$\tau = (s_0, a_0, s_1, a_1, \ldots, s_{T-1}, a_{T-1})$

3.1.2 优化目标

基于策略的强化学习的优化目标：
$\arg\max_{\pi_{\theta}} J(\pi_{\theta}) = \arg\max_{\pi_{\theta}}\mathbb{E}_{\tau \sim \pi_{\theta}} [R(\tau)]$

3.2 策略梯度推导

3.2.1 基本策略梯度

通过数学推导，我们可以得到策略梯度的基本形式：
$\nabla J(\pi_{\theta}) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T-1} \Psi_{t} \nabla \log \pi_{\theta}(a_{t} | s_{t}) \right]$