当前位置：首页 > news >正文

营销网站深圳品牌建设表态发言

news 2026/4/16 2:26:56

营销网站深圳,品牌建设表态发言,网站建设开票规格明细单位怎么写,网站建设运营知乎1 什么是预训练模型#xff1f; 在自然语言处理#xff08;NLP#xff09;里#xff0c;训练一个好模型通常需要很多数据和计算资源。为了解决这个难题#xff0c;就出现了“预训练模型”。预训练模型是指我们先在海量文本#xff08;比如网络上爬到的大量文章、对话…1 什么是预训练模型在自然语言处理NLP里训练一个好模型通常需要很多数据和计算资源。为了解决这个难题就出现了“预训练模型”。预训练模型是指我们先在海量文本比如网络上爬到的大量文章、对话等上训练出一个“懂语言”的大模型。它已经学会了如何理解和使用语言的大部分规律。之后你只需要在自己的“小数据”上稍微训练一下叫“微调”就能让这个大模型学会完成具体的任务比如情感分析、文本分类等。打个比方预训练模型就好比一个学生先在“全国语文教材”上学习了超多词汇和语法。现在你只需要教他一些更专业的知识他就能快速上手不用从零开始。 2 代表性的预训练模型BERT、GPT、T5 说到预训练模型就不能不提到三个“明星选手” BERT 最擅长“理解”文本因为它可以同时看一个词左右两边的内容得到上下文信息。常常用于情感分析、阅读理解、问答、文本分类等。 GPT 最擅长“生成”文本因为它擅长猜测“下一个词”应该是什么。对话机器人、文本续写、智能写作等场景会经常用到它。 T5 强调“把各种NLP任务都当成文本输入和文本输出”的形式。可以做翻译、摘要、分类、问答等等一种方法适合很多任务。 3 使用 Hugging Face 加载 BERT 进行文本分类现在让我们用一个非常具体的小例子来看看如何利用Hugging Face这个流行的Python库去调用“预训练好的BERT模型”做文本分类比如判断一句评论是“正面”还是“负面”。 3.1 环境准备安装 transformerspip install transformers安装 PyTorch或 TensorFlow我们这里用 PyTorchpip install torch3.2 推理阶段从文本到结果下面的代码会演示加载分词器和模型把一句话变成“模型能看懂的数字”得到模型对这句话的情感判断结果 from transformers import AutoTokenizer, AutoModelForSequenceClassification import torch# 1. DistilBERT (已经在SST-2情感分析上微调好) model_name distilbert-base-uncased-finetuned-sst-2-english# 2. 加载分词器和模型 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForSequenceClassification.from_pretrained(model_name)# 3. 预测示例 text I really love this movie. The acting is wonderful! inputs tokenizer(text, return_tensorspt)with torch.no_grad():outputs model(**inputs)# 4. 返回分类结果 logits outputs.logits predicted_class_id torch.argmax(logits, dim1).item() print(Predicted Class ID:, predicted_class_id) 示例输出 Predicted Class ID: 1下面分别解释一下每一步加载分词器文字本质上是“字符串”而模型只能理解数字。分词器会把你的句子比如“love this movie”变成 [ 101, 2293, 2023, 3185, ... ] 这样的数字列表然后给出必要的格式信息attention_mask等。加载模型这里的模型是已经训练好的“DistilBERT情感分析模型”版本能直接判断文本的情感倾向。你不需要自己写BERT网络结构或训练逻辑Hugging Face直接帮你搞定了。输入文本并转换成PyTorch需要的张量 inputs 是一个字典里面包含了 input_ids、attention_mask 等是模型需要的输入格式。前向传播Forward Pass 就是把输入数据喂给模型模型内部做一系列计算后输出结果outputs。因为我们只是想要预测结果不需要计算梯度所以用 with torch.no_grad(): 能节省内存和加速。得到预测分类最后把模型的输出分数 (logits) 里最大的那一个类别当作预测结果。不同模型会给出不同类别数。 3.3 如果要训练或微调模型上面的代码只做了“推理”预测结果。要想“训练”或“微调Fine-tuning”这个模型就需要多几个步骤准备好训练数据比如有几千条电影评论每条都打上“正面/负面”标签。用 DataLoader 逐批读取如果你有1万条数据不可能一次全塞进模型里那会占用很多内存。 PyTorch 提供 DataLoader 帮你分批次读数据比如每次读32条。前向传播计算损失Loss 跟推理一样会得到 outputs但这回你要跟真实标签比对来算损失值看模型猜的对不对。反向传播更新模型参数通过 optimizer.step() 等操作根据损失值来调整模型的权重让它下次预测更准。如此循环多次直到训练结束。总结一下 “推理”只需要前向传播看结果就好不用算梯度“训练”还要加上计算损失值和反向传播的步骤。 4 为什么要用预训练模型应用场景是啥速度更快不用从头把模型训练到能理解语言的地步直接用已经“见多识广”的模型做少量微调就能用。效果更好模型看过的“大量文本”会帮它学到很多词汇和语法知识对小数据集很友好。适用面广几乎任何涉及文本的场景都能用上比如客服聊天机器人、舆情分析、文本审查、问答系统等等。 5 课后练习与思考自己尝试微调找到 IMDb 的电影评论数据练习用 BERT 做正面/负面分类。调整学习率、批大小等超参数看看对准确率有多大影响。比较 BERT 和 GPT GPT更擅长“生成文本”BERT更擅长“理解文本”。如果你只想做分类BERT常常更好如果你想写文章、做对话GPT是更好选手。不妨亲自试试感受一下它们的差异。试试 T5 把分类任务也当成“文本生成”输入“This is an awesome movie.”让模型输出“positive”。看看 T5 表现如何。总结在这章里我们了解了预训练模型的基本概念认识了BERT、GPT、T5这三位“明星”然后用一个小例子实际演示了如何用Hugging Face的工具快速完成“加载分词器—转成张量—前向传播—预测结果”这四步。我们还提到如果想“训练”或“微调”需要多加“计算损失”和“反向传播”这两个步骤。掌握了这些你就能灵活运用现有的大模型来完成各种NLP任务再也不用从零写代码、找海量数据、苦哈哈地训练啦这也是现在NLP最常见、最高效的做法。祝你学习愉快

查看全文

http://www.hkea.cn/news/14282251/