免费网站空间哪个好,哪个网站做淘宝客最合适,旅游网站建设那家好,网站后台扁平化设计1.极大似然估计和交叉熵有什么关系 在分类问题中#xff0c;当我们使用softmax函数作为输出层时#xff0c;最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说#xff0c;在多分类情况下#xff0c;最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交…1.极大似然估计和交叉熵有什么关系 在分类问题中当我们使用softmax函数作为输出层时最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说在多分类情况下最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交叉熵损失本质上就是对数似然的负数形式使用交叉熵损失来进行优化时我们可以简化很多数学表达和推导步骤。
2.正则化
正则化Regularization是机器学习和深度学习中的一种技术用于防止模型过拟合overfitting。在训练模型时如果模型太复杂它可能会过度拟合训练数据中的噪声而不仅仅是学习到数据的潜在规律。正则化通过在模型的损失函数中增加一个惩罚项限制模型的复杂度从而提高模型的泛化能力使其在新的、未见过的数据上表现更好。
原理在损失函数上加上某些规则限制缩小解空间从而减少求出过拟合解的可能性 因此其实在机器学习中正则化往往是在损失函数上增加参数绝对值和L1正则化或增加参数平方和L2正则化。
将Loss拆分成两部分一部分是正常计算的损失值我们要寻找它的最小值是个凹函数。另一部分是个正则化项我们也要寻找它的最小值它也是个凹函数。
假设待优化的模型参数w只有两个维度可以看出来正则化项 z|w1||w2| 或zw1²w2²等如下所示 因为我们要寻找最终的最小值两个凹函数的相加的最小值往往是二者相切的点。 总结
L1 正则化Lasso适用于特征选择和当你认为数据中有冗余或不重要的特征时可以去除这些特征即产生稀疏模型。L2 正则化Ridge适用于当你希望模型平滑、避免过拟合并且不需要对特征进行选择时。它更适合特征之间有相关性的情况能够平衡每个特征的影响。
3.位置编码
3.1绝对位置编码 3.2旋转位置编码 4.LayerNorm和BatchNorm区别
RMSNormLLama