当前位置: 首页 > news >正文

深圳做响应式网站制作重庆网站建设

深圳做响应式网站制作,重庆网站建设,青岛推广信息,公司做网站留言板1.准备工作 显卡一张:A卡,H卡都可以,微调需要一张,大概显存得30~40G吧环境安装: 尽量在虚拟环境安装:参见,https://blog.csdn.net/u010212101/article/details/103351853环境安装参见&#xff…

1.准备工作

  • 显卡一张:A卡,H卡都可以,微调需要一张,大概显存得30~40G吧
  • 环境安装:
    • 尽量在虚拟环境安装:参见,https://blog.csdn.net/u010212101/article/details/103351853
    • 环境安装参见:https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning

2.如何微调:

参见:https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning

2.0.训练数据格式,整理成如下格式,格式1和2都行:

格式1:

{"content":"xxx","summary":"xxx"}
{"content":"xxx","summary":"xxx"}
... ...

格式2:

[
{"content":"xxx","summary":"xxx"}
{"content":"xxx","summary":"xxx"}
... ...]

2.1.训练方案-ptuning高效微调:

参见:https://github.com/THUDM/ChatGLM2-6B/blob/main/ptuning/train.sh

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=1torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \--do_train \--train_file AdvertiseGen/train.json \--validation_file AdvertiseGen/dev.json \--preprocessing_num_workers 10 \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path THUDM/chatglm2-6b \--output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR \--overwrite_output_dir \--max_source_length 64 \--max_target_length 128 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 16 \--predict_with_generate \--max_steps 3000 \--logging_steps 10 \--save_steps 1000 \--learning_rate $LR \--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4

注意点:

  • 将模型下载到本地,可以从modelscope或者huggingface上下载,建议直接modelscope下载,huggingface下载慢/还得科学上网,麻烦。
    • https://modelscope.cn/models/ZhipuAI/chatglm2-6b-32k/summary
  • 将上述model_name_or_path 的路径改为你本地模型路径
  • 资源紧张,下述一些参数需要调整:
  • 调节batchsize设置: per_device_train_batch_sizeper_device_eval_batch_sizegradient_accumulation_steps=batchsize,这三项酌情调整
  • 训练步数:
    • max_steps=5000步
  • max_source_length:输入的最大长度
  • max_target_length:输出的最大长度

2.2.全量微调

  • 全量微调速度比较慢,建议使用deepspeed,直接pip安装即可
  • 全量微调,几百上千条数据的情况,显存得100G以上,也即需要至少2张A800卡

deepspeed 全量微调chatglm2命令如下:

  • 参见:https://github.com/THUDM/ChatGLM2-6B/blob/main/ptuning/ds_train_finetune.sh
LR=1e-4MASTER_PORT=$(shuf -n 1 -i 10000-65535)deepspeed --num_gpus=4 --master_port $MASTER_PORT main.py \--deepspeed deepspeed.json \--do_train \--train_file AdvertiseGen/train.json \--test_file AdvertiseGen/dev.json \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path THUDM/chatglm2-6b \--output_dir ./output/adgen-chatglm2-6b-ft-$LR \--overwrite_output_dir \--max_source_length 64 \--max_target_length 64 \--per_device_train_batch_size 4 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 1 \--predict_with_generate \--max_steps 5000 \--logging_steps 10 \--save_steps 1000 \--learning_rate $LR \--fp16
  • 注意点和上述基本一致,至于deepspeed高级配置如何做,这里挖个坑,后续佛系更新

2.3.其他微调,参见官方教程

https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning

3.推理加速

  • 按照fastllm,速度提升3成~4成吧
  • 教程参见:https://github.com/ztxz16/fastllm
http://www.hkea.cn/news/264697/

相关文章:

  • flash网站优缺点厦门百度seo
  • 贵阳利于优化的网站百度搜索引擎推广步骤
  • 金色 网站 模板外链是什么
  • 网站有多难做如何做推广引流赚钱
  • 建设企业网站怎么样百度首页 百度
  • 热烈祝贺网站上线泉州seo代理计费
  • 网站平台建设意见长沙有实力seo优化
  • 深圳网站如何制作西安seo网站推广优化
  • 网站建设业务文案网站seo检测工具
  • 石家庄做外贸网站建设现在最好的营销方式
  • 兰州做网站公司有哪些html+css网页制作成品
  • 福州做网站的公司多少钱信息流优化
  • 群晖的网站开发百度客服怎么转人工
  • 制作网站项目流程无锡网站建设seo
  • 最好的开发网站建设价格如何搜索网页关键词
  • 做网站犯法了 程序员有责任吗网站建设合同
  • 建设部职称网站关键词优化营销
  • 做seo还要需要做网站吗百度热搜榜排行
  • 福建城市建设厅网站怎么推广一个网站
  • 机构网站建设需要交费吗关键词挖掘
  • 专业网站建设费用报价今日最新消息
  • 电商网站建设论文2022黄页全国各行业
  • 能源企业 网站建设网络营销的应用
  • 如何看网站是用什么语言做的关键词排名是由什么决定的
  • 政府网站建设招标书百度网站收录
  • 已经有了网站怎么做推广哈尔滨关键词优化报价
  • 网站建设与管理作业镇江推广公司
  • 域名申请好后 如何建设网站网站权重划分
  • 佛山百度网站快速优化网络营销推广工具
  • 建一个网站需要哪些人广州seo网站推广公司