做自己个人网站,北京未来广告公司,建网站要多少钱一个,网页设计与制作实例教程第2版答案数据集构建_哔哩哔哩_bilibili
#xff08;b站上有一系列课#xff0c;从数据处理到模型构建和训练使用#xff09;
什么是batch#xff1f; 为什么一个batch内的句子要一样长#xff1f; 不同batch的长度可以不一样#xff0c;但是同一个batch内长度一样#xff01;…数据集构建_哔哩哔哩_bilibili
b站上有一系列课从数据处理到模型构建和训练使用
什么是batch 为什么一个batch内的句子要一样长 不同batch的长度可以不一样但是同一个batch内长度一样
可以使用预训练的embedding矩阵
如果使用相同的预训练embedding矩阵同样的词在不同的模型中应该对应相同的初始向量。没有微调embedding矩阵的情况下使用相同的词汇表即可。
mask的地方换成很大的负数使其在softmax里面变成0 一般有2类mask
1. 屏蔽后面信息的maskLook-ahead Mask / Causal Mask
这种mask用于防止模型在训练过程中看到未来的词汇。通常在自回归模型如语言模型中使用在生成某个词时只允许模型看到它之前的词。
2. 屏蔽padding的maskPadding Mask
这种mask用于在处理不定长序列时屏蔽填充的部分。填充通常是为了将所有序列扩展到相同长度以便可以批处理。我们不希望模型在处理这些填充值时产生误导。