做企业展示网站,怎么把自己做的网页生成链接,制作图片的软件哪个好用,google搜索关键词热度数据集构建_哔哩哔哩_bilibili
#xff08;b站上有一系列课#xff0c;从数据处理到模型构建和训练使用#xff09;
什么是batch#xff1f; 为什么一个batch内的句子要一样长#xff1f; 不同batch的长度可以不一样#xff0c;但是同一个batch内长度一样#xff01;…数据集构建_哔哩哔哩_bilibili
b站上有一系列课从数据处理到模型构建和训练使用
什么是batch 为什么一个batch内的句子要一样长 不同batch的长度可以不一样但是同一个batch内长度一样
可以使用预训练的embedding矩阵
如果使用相同的预训练embedding矩阵同样的词在不同的模型中应该对应相同的初始向量。没有微调embedding矩阵的情况下使用相同的词汇表即可。
mask的地方换成很大的负数使其在softmax里面变成0 一般有2类mask
1. 屏蔽后面信息的maskLook-ahead Mask / Causal Mask
这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型如语言模型中使用在生成某个词时只允许模型看到它之前的词。
2. 屏蔽padding的maskPadding Mask
这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度以便可以批处理。我们不希望模型在处理这些填充值时产生误导。