当前位置: 首页 > news >正文

网站空间续费多少钱建设网站实训心得体会

网站空间续费多少钱,建设网站实训心得体会,付费电影怎样免费观看,大连筑成建设集团有限公司网站背景说明 DeepSeek系列解读请移步我的上一篇blog#xff1a;【完整版】DeepSeek-R1大模型学习笔记#xff08;架构、训练、Infra#xff09;代码仓库【科大的大四老哥太太太太太值得倾佩了】#xff1a;https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档#…背景说明 DeepSeek系列解读请移步我的上一篇blog【完整版】DeepSeek-R1大模型学习笔记架构、训练、Infra代码仓库【科大的大四老哥太太太太太值得倾佩了】https://github.com/Unakar/Logic-RLDeepSeek-R1-Zero复现文档https://evxpwrsfkdb.feishu.cn/docx/NokEdaMBmo6aqZxVdxkcSm2cnab趁着DeepSeek火起来的这个风口自己抓紧学习一下大模型的基础知识慢慢把之前积累的一些东西串起来非常佩服科大的老哥前途无量正好我来学习一下大模型训练过程看下有哪些训练坑和经验值得总结 基本设置 训练算法DeepSeek-R1-Zero纯RL训练无long CoT、SFT和蒸馏过程Base modelQwen/Qwen2.5-7B-Instruct-1Mhuggingface传送门训练脚本执行bash main_grpo.shRL训练过程 第一阶段正确的格式学习3PPL数据集 训练400个step wandb filerun-20250207_161945-1oftdu9q main_grpo.sh脚本配置如下 set -x MODEL_PATHQwen2.5-7B-Instruct-1M export VLLM_ATTENTION_BACKENDXFORMERS python3 -m verl.trainer.main_ppo \algorithm.adv_estimatorgrpo \data.train_filesdata/kk/instruct/3ppl/train.parquet \data.val_filesdata/kk/instruct/3ppl/test.parquet \data.train_batch_size2 \data.val_batch_size4 \data.max_prompt_length400 \data.max_response_length2048 \actor_rollout_ref.model.path$MODEL_PATH \actor_rollout_ref.actor.optim.lr3e-7 \actor_rollout_ref.model.use_remove_paddingTrue \actor_rollout_ref.actor.ppo_mini_batch_size256 \actor_rollout_ref.actor.ppo_micro_batch_size64 \actor_rollout_ref.actor.use_kl_lossTrue \actor_rollout_ref.actor.kl_loss_coef0.001 \actor_rollout_ref.actor.kl_loss_typelow_var_kl \actor_rollout_ref.model.enable_gradient_checkpointingTrue \actor_rollout_ref.actor.fsdp_config.param_offloadTrue \actor_rollout_ref.actor.fsdp_config.grad_offloadTrue \actor_rollout_ref.actor.fsdp_config.optimizer_offloadTrue \actor_rollout_ref.rollout.log_prob_micro_batch_size160 \actor_rollout_ref.rollout.tensor_model_parallel_size1 \actor_rollout_ref.rollout.namevllm \actor_rollout_ref.rollout.gpu_memory_utilization0.6 \actor_rollout_ref.rollout.n16 \actor_rollout_ref.ref.log_prob_micro_batch_size160 \actor_rollout_ref.ref.fsdp_config.param_offloadTrue \algorithm.kl_ctrl.kl_coef0.001 \trainer.critic_warmup0 \trainer.logger[wandb] \trainer.project_nameGRPO_logic_KK \trainer.experiment_nameQwen-7B \trainer.n_gpus_per_node2 \trainer.nnodes1 \trainer.default_local_dirlocal_dir \trainer.default_hdfs_dirnull \trainer.save_freq10 \trainer.test_freq10 \trainer.total_epochs1 $ 21 | tee grpo.log验证集效果逐渐变好 平均reward、答案错误的比例、全对的比例、格式错误比例前三者趋势正确但是变化不大格式错误大幅降低因为这一步主要是在简单的3PPL数据上学格式大约10个step可以将格式错误降到0.1以下 平均生成长度有少量增长但并不明显应该是还在第一阶段的问题 再看一下生成答案过程中的一些特点 再看一下出现的格式错误具体原因 还出现了不同程度的语言混杂问题
http://www.hkea.cn/news/14576068/

相关文章:

  • 东莞建设网站平台想做电商从哪里入手
  • 网络营销网站建设论文wordpress array
  • 网站开发方案及报价单急速浏览器打开新网站
  • 上海招标网站成都网站建设优化推广
  • 肥城做网站tahmwlkj公司建立网站流程
  • 广东手机网站建设公司广州远洋建设实业公司网站
  • 阿里云域名注册好后怎么建设网站wordpress显示目录结构
  • 咕果网给企业做网站的南京网站排名外包
  • 爱做网站免费模板vip做海报的网站有哪些内容
  • 我想自己在网站上发文章 怎样做购物网站开发视频教程
  • 建网站空间都有什么平台中小型企业网络部署
  • 易瑞通网站建设镇江网站推广优化
  • 南宁做网站推广的公司网站和网络建设自查报告
  • 如何优化企业网站行政机关网站建设
  • 那个网站百度收录好建e室内设计网极简案例
  • 唐山城乡建设网站爱链接购买链接
  • 福州模板建站定制网站ui是网站建设吗
  • 网站系统发生错误文学网站建设平台
  • 广州网站建设商城建设网站策划主题
  • 网站如何做视频教程深圳专业网站设计公司哪家好
  • 网站建设以及推广提案书中心网站建设管理工作
  • 上的网站app免费大全wordpress科技模板
  • 邢台wap网站建设报价医疗网站前置审批
  • 网站托管什么意思邢台市住房和城乡建设局网站
  • php网站忘记后台密码阿里云备案个人可以做网站吗
  • 旅游网站平台旅游做攻略用什么网站
  • 怎样做自己的导购网站2345浏览器网页版
  • html5 开发的网站学的专业是编课 网站开发英语翻译
  • 网站权重为零隧道建设杂志网站
  • 新闻媒体网站开发文档调用wordpress分类名称