当前位置：首页 > news >正文

温州做网站推广ds2600ii色带

news 2026/5/6 8:50:17

温州做网站推广,ds2600ii色带,做外贸需要英文网站,哪个网站有做阿里巴巴流量背景： 我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。训练一个合适的tokenizer是训练大模型的基础，我们既…

背景：

我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础，我们既可以从头开始训练一个全新的tokenizer，也可以利用旧的tokenizer训练出一个新的来，今天就让我们看看如何来以旧换新。

第一步：数据准备

不管是训练大模型，还是训练tokenizer，首先都需要我们准备数据集：

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")#写一个迭代函数，分配加载数据，防止数据集太大导致内存溢出
def get_training_corpus():return (raw_datasets["train"][i : i + 1000]["whole_func_string"]for i in range(0, len(raw_datasets["train"]), 1000))training_corpus = get_training_corpus()

第二步：训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步：保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步：使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结：

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型，或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同，我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

查看全文

http://www.hkea.cn/news/310969/

自己做网站的服务器上海网站建设公司排名

跳蛋塞逼做多的视频网站百度广告联盟官网

房地产网站开发文档企业查询

做emu对网站有什么要求十大免费无代码开发软件

统一企业信息管理系统网站直通车怎么开效果最佳

国外比较好的资源网站电商运营推广是做什么的

同仁行业网站建设报价北京做的好的seo公司

陕西自助建站做网站郑州外语网站建站优化

小型企业网站系统cilimao磁力猫最新版地址

铁岭网站建设移动网站广东网站seo

网站模板插件sem和seo

用wordpress制作网站模板沈阳seo

优化一个网站多少钱宜昌网站seo

相关文章：