当前位置: 首页 > news >正文

放图片网站蛋糕网站案例

放图片网站,蛋糕网站案例,做老电影网站侵权吗,市政工程建设规范免费下载网站基于MindNLP的Roberta模型Prompt Tuning 本文档介绍了如何基于MindNLP进行Roberta模型的Prompt Tuning#xff0c;主要用于GLUE基准数据集的微调。本文提供了完整的代码示例以及详细的步骤说明#xff0c;便于理解和复现实验。 环境配置 在运行此代码前#xff0c;请确保…基于MindNLP的Roberta模型Prompt Tuning 本文档介绍了如何基于MindNLP进行Roberta模型的Prompt Tuning主要用于GLUE基准数据集的微调。本文提供了完整的代码示例以及详细的步骤说明便于理解和复现实验。 环境配置 在运行此代码前请确保MindNLP库已经安装。本文档基于大模型平台运行因此需要进行适当的环境配置确保代码可以在相应的平台上运行。 模型与数据集加载 在本案例中我们使用 roberta-large 模型并基于GLUE基准数据集进行Prompt Tuning。GLUE (General Language Understanding Evaluation) 是自然语言处理中的标准评估基准包括多个子任务如句子相似性匹配、自然语言推理等。Prompt Tuning是一种新的微调技术通过插入虚拟的“提示”Token在模型的输入中以微调较少的参数达到较好的性能。 import mindspore from tqdm import tqdm from mindnlp import evaluate from mindnlp.dataset import load_dataset from mindnlp.transformers import AutoModelForSequenceClassification, AutoTokenizer from mindnlp.core.optim import AdamW from mindnlp.transformers.optimization import get_linear_schedule_with_warmup from mindnlp.peft import (get_peft_model,PeftType,PromptTuningConfig, )1. 定义训练参数 首先定义模型名称、数据集任务名称、Prompt Tuning类型、训练轮数等基本参数。 batch_size 32 model_name_or_path roberta-large task mrpc peft_type PeftType.PROMPT_TUNING num_epochs 202. 配置Prompt Tuning 在Prompt Tuning的配置中选择任务类型为SEQ_CLS序列分类任务并定义虚拟Token的数量。虚拟Token即为插入模型输入中的“提示”Token通过这些Token的微调使得模型能够更好地完成下游任务。 peft_config PromptTuningConfig(task_typeSEQ_CLS, num_virtual_tokens10) lr 1e-33. 加载Tokenizer 根据模型类型选择padding的侧边如果模型为GPT、OPT或BLOOM类模型则从序列左侧填充padding否则从序列右侧填充。 if any(k in model_name_or_path for k in (gpt, opt, bloom)):padding_side left else:padding_side righttokenizer AutoTokenizer.from_pretrained(model_name_or_path, padding_sidepadding_side) if getattr(tokenizer, pad_token_id) is None:tokenizer.pad_token_id tokenizer.eos_token_id4. 加载数据集 通过MindNLP加载GLUE数据集并打印样本以便确认数据格式。在此示例中我们使用GLUE的MRPCMicrosoft Research Paraphrase Corpus任务该任务用于句子匹配即判断两个句子是否表达相同的意思。 datasets load_dataset(glue, task) print(next(datasets[train].create_dict_iterator()))5. 数据预处理 为了适配MindNLP的数据处理流程我们定义了一个映射函数 MapFunc用于将句子转换为 input_ids 和 attention_mask并对数据进行padding处理。 from mindnlp.dataset import BaseMapFunctionclass MapFunc(BaseMapFunction):def __call__(self, sentence1, sentence2, label, idx):outputs tokenizer(sentence1, sentence2, truncationTrue, max_lengthNone)return outputs[input_ids], outputs[attention_mask], labeldef get_dataset(dataset, tokenizer):input_colums[sentence1, sentence2, label, idx]output_columns[input_ids, attention_mask, labels]dataset dataset.map(MapFunc(input_colums, output_columns),input_colums, output_columns)dataset dataset.padded_batch(batch_size, pad_info{input_ids: (None, tokenizer.pad_token_id),attention_mask: (None, 0)})return datasettrain_dataset get_dataset(datasets[train], tokenizer) eval_dataset get_dataset(datasets[validation], tokenizer)6. 设置评估指标 我们使用 evaluate 模块加载评估指标accuracy 和 F1-score来评估模型的性能。 metric evaluate.load(./glue.py, task)7. 加载模型并配置Prompt Tuning 加载 roberta-large 模型并根据配置进行Prompt Tuning。可以看到微调的参数量仅为总参数量的0.3%左右节省了大量计算资源。 model AutoModelForSequenceClassification.from_pretrained(model_name_or_path, return_dictTrue) model get_peft_model(model, peft_config) model.print_trainable_parameters()模型微调Prompt Tuning 在Prompt Tuning中训练过程中仅微调部分参数主要是虚拟Token相关的参数相比于传统微调而言大大减少了需要调整的参数量使得模型能够高效适应下游任务。 1. 优化器与学习率调整 使用 AdamW 优化器并设置线性学习率调整策略。 optimizer AdamW(paramsmodel.parameters(), lrlr)# Instantiate scheduler lr_scheduler get_linear_schedule_with_warmup(optimizeroptimizer,num_warmup_steps0.06 * (len(train_dataset) * num_epochs),num_training_steps(len(train_dataset) * num_epochs), )2. 训练逻辑定义 训练步骤如下 构建正向计算函数 forward_fn。定义梯度计算函数 grad_fn。定义每一步的训练逻辑 train_step。遍历数据集进行训练和评估在每个 epoch 结束时计算评估指标。 def forward_fn(**batch):outputs model(**batch)loss outputs.lossreturn lossgrad_fn mindspore.value_and_grad(forward_fn, None, tuple(model.parameters()))def train_step(**batch):loss, grads grad_fn(**batch)optimizer.step(grads)return lossfor epoch in range(num_epochs):model.set_train()train_total_size train_dataset.get_dataset_size()for step, batch in enumerate(tqdm(train_dataset.create_dict_iterator(), totaltrain_total_size)):loss train_step(**batch)lr_scheduler.step()model.set_train(False)eval_total_size eval_dataset.get_dataset_size()for step, batch in enumerate(tqdm(eval_dataset.create_dict_iterator(), totaleval_total_size)):outputs model(**batch)predictions outputs.logits.argmax(axis-1)predictions, references predictions, batch[labels]metric.add_batch(predictionspredictions,referencesreferences,)eval_metric metric.compute()print(fepoch {epoch}:, eval_metric)在每个 epoch 后程序输出当前模型的评估指标accuracy 和 F1-score。从结果中可以看到模型的准确率和 F1-score 会随着训练的进展逐渐提升。 总结 本案例通过Prompt Tuning技术在Roberta模型上进行了微调以适应GLUE数据集任务。通过控制微调参数量Prompt Tuning展示了较强的高效性。
http://www.hkea.cn/news/14578244/

相关文章:

  • php网站开发过程考试wifi扩展器做网站
  • 建设网站如何写文案厦门建设集团网站
  • 怎样在网站上做免费的推广做网页制作怎么样
  • 网站友情链接出售世界互联网峰会乌镇
  • 定制app网站做一个新公司网站要多少钱
  • 上海网站建设公司 珍岛免费装饰公司网站模板
  • 电子商务网站设计与管理wordpress使用七牛防止降权
  • 成都鲜花网站建设图片链接生成器软件
  • 宿州市埇桥建设规划局网站手机网站导航条
  • 棋牌游戏网站建设费用网站如何在百度
  • 湘潭网站建设开发网站代码优化的内容有哪些
  • 自己怎么健网站视频下载网站版权信息修改
  • 做物流的可以在那些网站找客户销售管理系统包括哪几大模块
  • 企业网站php源码网站推广需要域名迁移
  • asp.net mvc 手机网站wordpress添加icon文件
  • 用.aspx做网站国网典型设计最新版
  • 买网站注册人数广告投放方式
  • 网站后期维护方案软件是如何开发的
  • 网站开发详细设计模板扁平化 网站
  • 大气的网站首页企业网站的页面特点
  • 商业网站开发入门网站设计任务书
  • 如何做一元购物网站新版wordpress没有关键词
  • wordpress适合建什么网站贵阳网站建设建站系统
  • 有没有资源免费的六安seo网站推广报价
  • 哪些网站可以做房产推广创建一个公司需要多少钱
  • 青岛网站建设青岛博采网络怎么劝客户做网站
  • 长尾词挖掘工具爱站网银州铁岭做网站
  • 男生女生做污事网站免费wordpress 彩色序号
  • 网站建设内部需求调查表创意设计公司业务范围
  • 网站推广的常用方法免费做网站方法