刚接触网站建设有哪些问题,ps扩展插件网站,做网站和app需要多久,服务器主机管理系统建好后如何用它搭建网站问题
最近遇到使用transformers的AutoTokenizer的时候#xff0c;修改vocab.txt中的[unused1]依然无法识别相应的new token。
实例#xff1a; 我将[unused1]修改为了[TRI]#xff0c;句子中的[TRI]并没有被整体识别#xff0c;而是识别为了[,T,RI,]。这明显是有问题的。…问题
最近遇到使用transformers的AutoTokenizer的时候修改vocab.txt中的[unused1]依然无法识别相应的new token。
实例 我将[unused1]修改为了[TRI]句子中的[TRI]并没有被整体识别而是识别为了[,T,RI,]。这明显是有问题的。
解决
若去掉[TRI]的方括号问题就消失了。 所以可以认定Bert对带有方括号的token统一按special token处理所以要使用
tokenizer.add_special_tokens({})来添加此类token。