当前位置：首页 > news >正文

深圳网站建设外贸公司排名优化游戏的软件

news 2026/4/7 1:01:17

深圳网站建设外贸公司排名,优化游戏的软件,北京建设制作网站,重庆巴南区网站开发公司👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er 🌌上期文章：机器学习&&深度学习——softmax回归从零开始实现 📚订阅专栏：机器学习&&深度学习希望文章对你…

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er
🌌上期文章：机器学习&&深度学习——softmax回归从零开始实现
📚订阅专栏：机器学习&&深度学习
希望文章对你们有所帮助

继续使用Fashion-MNIST数据集，并保持批量大小为256：

import torch
from torch import nn
from d2l import torch as d2lbatch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

softmax回归的简洁实现

初始化模型参数
重新审视softmax的实现
- 数学推导
- 交叉熵函数
优化算法
训练

初始化模型参数

softmax的输出层是一个全连接层，因此，为了实现模型，我们只需要在Sequential中添加一个带有10个输出的全连接层。当然这里的Sequential并不是必要的，但是他是深度模型的基础。我们仍旧以均值为0，标准差为0.01来随机初始化权重。

# pytorch不会隐式地调整输入的形状
# 因此在线性层前就定义了展平层flatten，来调整网络输入的形状
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))def init_weights(m):if type(m) == nn.Linear:nn.init.normal_(m.weight, std=0.01)net.apply(init_weights)  # 给net每一层跑一次init_weights函数

重新审视softmax的实现

数学推导

在之前的例子里，我们计算了模型的输出，然后将此输出送入交叉熵损失。看似合理，但是指数级计算可能会造成数值的稳定性问题。
回想一下之前的softmax函数：
$\hat{y}_j=\frac{exp(o_j)}{\sum_kexp(o_k)}\\ 其中\hat{y}_j是预测的概率分布，o_j是未规范化的第j个元素$
由于o中的一些数值会非常大，所以可能会让其指数值上溢，使得分子或分母变成inf，最后得到的预测值可能变成的0、inf或者nan。此时我们无法得到一个明确的交叉熵值。
提出解决这个问题的一个技巧：在继续softmax计算之前，先从所有的o中减去max(o)，修改softmax函数的构造且不改变其返回值：
$\hat{y}_j=\frac{exp(o_j-max(o_k))exp(max(o_k))}{\sum_kexp(o_j-max(o_k))exp(max(o_k))}$
这样操作以后，可能会使得一些分子的exp(o-max(o))有接近0的值，即为下溢。这些值可能会四舍五入为0，这样就会使得预测值为0，那么此时要是取对数以后就会变为-inf。要是这样反向传播几步，我们可能会发现自己屏幕有一堆的nan。
尽管我们需要计算指数函数，但是我们最终会在计算交叉熵损失的时候会取他们的对数。尽管通过将softmax和交叉熵结合在一起，可以避免反向传播过程中可能会困扰我们的数值稳定性问题。如下面的式子：
$log(\hat{y}_j)=log(\frac{exp(o_j-max(o_k))}{\sum_kexp(o_k-max(o_k))})\\ =log(exp(o_j-max(o_k)))-log(\sum_kexp(o_k-max(o_k)))\\ =o_j-max(o_k)-log(\sum_kexp(o_k-max(o_k)))$
通过上式，我们避免了计算单独的exp(o-max(o))，而是直接使用o-max(o)。
因此，我们计算交叉熵函数的时候，传递的不是未规范化的预测o，而不是softmax。
但是我们也希望保留传统的softmax函数，以备我们要评估通过模型输出的概率。

交叉熵函数

在这里介绍一下交叉熵函数，以用于上面推导所需的需求：

torch.nn.CrossEntropyLoss(weight=None,ignore_index=-100,reduction='mean')

交叉熵函数是将LogSoftMax和NLLLoss集成到一个类中，通常用于多分类问题。其参数使用情况：

ignore_index：指定被忽略且对输入梯度没有贡献的目标值。
reduction：string类型的可选项，可在[none,mean,sum]中选。none表示不降维，返回和target一样的形状；mean表示对一个batch的损失求均值；sum表示对一个batch的损失求和。
weight：是一个一维的张量，包含n个元素，分别代表n类的权重，在训练样本不均衡时很有用，默认为None：
（1）当weight=None时，损失函数计算方式为
loss(x,class)=-log(exp(x[class])/Σexp(x[j]))=-x[class]+log(Σexp(x[j])
（2）当weight被指定时，损失函数计算方式为：
loss(x,class)=weight[class]×(-x[class]+log(Σexp(x[j]))

# 在交叉熵损失函数中传递未归一化的预测，并同时计算softmax及其导数
loss = nn.CrossEntropyLoss(reduction='none')

优化算法

# 优化算法
trainer = torch.optim.SGD(net.parameters(), lr=0.1)

训练

调用之前定义的训练函数来训练模型：

# 调用之前的训练函数来训练模型
num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
d2l.plt.show()

在这里插入图片描述

查看全文

http://www.hkea.cn/news/875974/

教育机构做网站素材长尾关键词爱站

做网站选什么系统企业网站seo推广

山东省南水北调建设管理局网站腾讯网qq网站

适合毕设做的简单网站初学seo网站推广需要怎么做

想把书放到二手网站如何做深圳seo关键词优化

合肥网站优化排名推广合理使用说明

如何网站专题策划互联网推广是什么

用hadoop做网站日志分析推广工作的流程及内容

凡科做网站技巧站长之家域名信息查询

网站建设国际深圳网络营销课程ppt

网站开发人员需要具备的能力电脑培训班多少费用

discuz集成wordpressseo的概念是什么

子网站如何做网站营销方案模板

dreamweaver做的网站电商培训班一般多少钱

国外做科研的网站东莞网站设计公司排名

亿唐网不做网站做品牌原因seo网站诊断报告

宝鸡网站建设东东怎么推广软件让别人下载

21dove谁做的的网站百度一下首页设为主页

猪八戒网站建设推广平台排名前十名

广西建设质监站官方网站站长工具seo综合查询可以访问

通用搭建网站教程优化营商环境的意义

网站中加入地图怎样优化网站排名