当前位置: 首页 > news >正文

在网站里继费合肥网站建设价格

在网站里继费,合肥网站建设价格,域名备案步骤,广告投放效果背景说明 DeepSeek系列解读请移步我的上一篇blog#xff1a;【完整版】DeepSeek-R1大模型学习笔记#xff08;架构、训练、Infra#xff09;代码仓库【科大的大四老哥太太太太太值得倾佩了】#xff1a;https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档#…背景说明 DeepSeek系列解读请移步我的上一篇blog【完整版】DeepSeek-R1大模型学习笔记架构、训练、Infra代码仓库【科大的大四老哥太太太太太值得倾佩了】https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab趁着DeepSeek火起来的这个风口自己抓紧学习一下大模型的基础知识慢慢把之前积累的一些东西串起来非常佩服科大的老哥前途无量正好我来学习一下大模型训练过程看下有哪些训练坑和经验值得总结 基本设置 训练算法DeepSeek-R1-Zero纯RL训练无long CoT、SFT和蒸馏过程Base modelQwen/Qwen2.5-7B-Instruct-1Mhuggingface传送门训练脚本执行bash main_grpo.shRL训练过程 第一阶段正确的格式学习3PPL数据集 训练400个step wandb filerun-20250207_161945-1oftdu9q main_grpo.sh脚本配置如下 set -x MODEL_PATHQwen2.5-7B-Instruct-1M export VLLM_ATTENTION_BACKENDXFORMERS python3 -m verl.trainer.main_ppo \algorithm.adv_estimatorgrpo \data.train_filesdata/kk/instruct/3ppl/train.parquet \data.val_filesdata/kk/instruct/3ppl/test.parquet \data.train_batch_size2 \data.val_batch_size4 \data.max_prompt_length400 \data.max_response_length2048 \actor_rollout_ref.model.path$MODEL_PATH \actor_rollout_ref.actor.optim.lr3e-7 \actor_rollout_ref.model.use_remove_paddingTrue \actor_rollout_ref.actor.ppo_mini_batch_size256 \actor_rollout_ref.actor.ppo_micro_batch_size64 \actor_rollout_ref.actor.use_kl_lossTrue \actor_rollout_ref.actor.kl_loss_coef0.001 \actor_rollout_ref.actor.kl_loss_typelow_var_kl \actor_rollout_ref.model.enable_gradient_checkpointingTrue \actor_rollout_ref.actor.fsdp_config.param_offloadTrue \actor_rollout_ref.actor.fsdp_config.grad_offloadTrue \actor_rollout_ref.actor.fsdp_config.optimizer_offloadTrue \actor_rollout_ref.rollout.log_prob_micro_batch_size160 \actor_rollout_ref.rollout.tensor_model_parallel_size1 \actor_rollout_ref.rollout.namevllm \actor_rollout_ref.rollout.gpu_memory_utilization0.6 \actor_rollout_ref.rollout.n16 \actor_rollout_ref.ref.log_prob_micro_batch_size160 \actor_rollout_ref.ref.fsdp_config.param_offloadTrue \algorithm.kl_ctrl.kl_coef0.001 \trainer.critic_warmup0 \trainer.logger[wandb] \trainer.project_nameGRPO_logic_KK \trainer.experiment_nameQwen-7B \trainer.n_gpus_per_node2 \trainer.nnodes1 \trainer.default_local_dirlocal_dir \trainer.default_hdfs_dirnull \trainer.save_freq10 \trainer.test_freq10 \trainer.total_epochs1 $ 21 | tee grpo.log验证集效果逐渐变好 平均reward、答案错误的比例、全对的比例、格式错误比例前三者趋势正确但是变化不大格式错误大幅降低因为这一步主要是在简单的3PPL数据上学格式大约10个step可以将格式错误降到0.1以下 平均生成长度有少量增长但并不明显应该是还在第一阶段的问题 再看一下生成答案过程中的一些特点 再看一下出现的格式错误具体原因 还出现了不同程度的语言混杂问题
http://www.hkea.cn/news/14565269/

相关文章:

  • 沈阳网站建设公司网页微博怎么注销账号
  • 东莞想做网站找什么公司设计网站推荐p
  • 前端网站论文开网站赚50万做
  • 哈尔滨网络科技公司哪家好外贸网站谷歌优化
  • 空间类网站价格亚马逊建站服务
  • asp装饰公司网站源码网站开发代码用什么软件
  • 响应式网站要怎么做台州网站建设团队
  • 网站建设 技术要求北京网站建设排行
  • 建设网站站点有哪些步骤响应式网站开发的
  • 关于英文网站建设的请示wap网站和internet网站
  • 珠海做网站找哪家好域名备案是什么意思?
  • 大连网站专业制作html5网站有点
  • 高端企业网站建设服务商河南科兴建设有限公司网站
  • 网站建设优化合同自己做博客网站
  • html5作业 建设网站保定建站模板
  • 合肥快速建站模板网站服务器租用一般费用
  • 做电影网站用什么格式好wordpress 画线不显示不出来
  • 公司怎么建网站做推广移动网站性能
  • 网站建设应用潮州外贸网站建设
  • 湖州本地做网站珠海做网站优化的公司
  • 邯郸网站建设找谁音乐 版权 做视频网站
  • 环保部网站建设项目重大变动原阳网站建设
  • 廊坊网站建设联系青橙网络苏州做网站建设
  • 商城网站建设二次开发台海最新24小时消息
  • 网站开发项目进度安排宁德商城网站建设
  • 丹阳做公司网站wordpress 小程序源码
  • 网站开发毕设开题报告怎么写个人建什么网站好
  • 用jsp做学校网站网页传奇游戏排行榜前十名端游
  • 焦作住房和城乡建设局网站seo整站优化费用
  • 南希网站建设如何用dw做网站前端