当前位置：首页 > news >正文

做的比较好看的网站免费申请网站空间及域名

news 2026/4/25 15:33:03

做的比较好看的网站,免费申请网站空间及域名,企业公众号开发,汇鑫网站建设便捷回忆线性回归 for continuous:y xwbfor probability output:yσ(xwb) σ:sigmoid or logistic 线性回归是简单的线性模型#xff0c;输入是x#xff0c;网络参数是w和b#xff0c;输出是连续的y的值如何把它转化为分类问题?加了sigmoid函数#xff0c;输出的值不再是…回忆线性回归 for continuous:y xwbfor probability output:yσ(xwb) σ:sigmoid or logistic 线性回归是简单的线性模型输入是x网络参数是w和b输出是连续的y的值如何把它转化为分类问题?加了sigmoid函数输出的值不再是一个连续的实数范围而是一个在[0,1]范围的值等效于probability,因此可以理解为分类问题二分类问题 interpret network as f : x → p ( y ∣ x ; θ ) f:x\to p(y|x; \theta) f:x→p(y∣x;θ)output∈[0,1]which is exactly what logistic function comes in! 首先之前的线性回归模型是x到一个y这样的映射即 f : x → y f:x\rightarrow y f:x→y 但是对于logistic regression逻辑回归是分类问题而言是给x求y1的这样的probabilityθ的参数就是等于[w,b]这样的参数所以输出的值就变成了0和1 两类问题的本质区别 For regression GoalpredyApproachminimize dist(pred,y) For classification: Goal:maximize benchmark,e.g. accuracyApproach1:minimize d i s t ( p θ ( y ∣ x ) , p r ( y ∣ x ) ) \mathrm{dist}(p_\theta(y|x),p_r(y|x)) dist(pθ(y∣x),pr(y∣x))Approach1:minimize d i v e r g e n c e ( p θ ( y ∣ x ) , p r ( y ∣ x ) ) divergence(p_{\theta}(y|x),p_{r}(y|x)) divergence(pθ(y∣x),pr(y∣x)) 对于regression问题预测值关注的是y目标是预测的值要与真实值非常接近方法也是minimize该差距对于classfication问题目标是accuracy或F1-score这种指标很高例如准确率做法并不需要直接优化accuracy这一点是classification问题与regression最本质的区别会用一个general proxy objective如两个分布的边界或差异这是一些数学的概念还可以用cross entropy 从概念上来说给出x对y的一个probabilityθ参数上给出一个probability和真实给定x得到y的probabilityr是real的意思就是真实的probability希望这两个分布越近越好即最终要测试的目标和训练的目标其实是不一样的为什么训练的目标和测试的目标的目标是不一样的也就是说为什么不能直接的maximize accuracy 直接maximize accuracy会有两个问题accuracy是预测对的数量 / 总的数量例如有5个数字预测对了3个accuracy就是3/560% 第一种情况一个二分类问题中模型权重调整对准确率没有影响的情况。让我们逐步分析这个问题阈值决策在二分类问题中模型的输出通常通过一个阈值来转换为类别标签。如果预测概率小于或等于0.5模型预测为类别0如果大于0.5预测为类别1。权重调整通过调整模型权重使得某个样本的预测概率从0.4增加到0.45。尽管预测概率更接近真实标签的概率但由于没有超过0.5的阈值最终的类别预测仍然是0。准确率不变由于预测结果没有改变即使概率更接近真实值准确率accuracy仍然保持不变。准确率是预测正确的样本数与总样本数的比例在这个例子中如果只有3个样本预测正确准确率就是60%。梯度为零在使用梯度下降算法优化模型时如果预测结果没有改变即模型输出对于权重的微小变化不敏感那么在权重附近的梯度可能是零。这意味着在这个点上权重的进一步调整不会影响预测结果因此模型不会更新这个权重。优化问题这个问题揭示了一个优化上的挑战即使模型的预测概率接近真实分布但如果不能越过决策阈值就无法反映在准确率上从而导致梯度为零模型学习停滞。此时x变了y没变 ∂ y ∂ x 0 \frac{\partial y}{\partial x}0 ∂x∂y0 第二种情况如果预测的是0.4999这里w只动一点点变成了0.501大于0.5了但是这个值本来是预测错的现在反而预测对了那accuracy就变成了4/580%w可能动了0.0001accurcacy增加了0.2这样0.2/0.0001就会出现不连续的情况就是x动一点点accuracy可能会发生一个巨大的变化会出现一个比较大的gradient 1.准确率的不连续性在二分类问题中准确率是衡量模型预测正确性的一种离散指标。当模型的预测概率非常接近决策阈值如0.5时即使是模型权重微小的调整也可能引起预测结果的突变。微小权重变化导致准确率的显著变化例如如果模型对某个样本的初始预测概率为0.4999权重的微小调整使其变为0.501超过了0.5的阈值。这导致该样本的预测结果从错误变为正确从而显著提高了准确率如从60%3/5增加到80%4/5。准确率的极端变化权重的微小变化引起准确率的显著增加这在数学上可以类比为梯度非常大。在这种情况下如果将准确率的变化率视为“梯度”那么这个“梯度”是非常大的因为准确率的变化0.2与权重变化0.0001的比值非常高。所以在优化的时候就会发现要么就是gradient不连续会造成一个梯度爆炸的情况要么就是training非常不稳定这也解释了为什么不能使用accuracy来训练要是用corss entropy来训练 logistic regression是用于classification问题的为什么叫regression 因为你的loss虽然用了softmax或者用了把probability变成了一个0到1的问题但是如果跟原来的1做一个均方差把这个作为loss去优化还是有regression的感觉就是希望probability跟1越近越好就是regression把probability看作一个连续的输出值因此如果使用MSE的话就把它叫做regression是因为当时没有使用cross entropy 如果loss使用的是cross entropy就可以理解为classification的问题会使得 p θ ( y ∣ x ) p_{\theta}(y|x) pθ(y∣x)~ p r ( y ∣ x ) p_{r}(y|x) pr(y∣x) 二分类做法多分类做法使用softmax来实现所有分类相加的概率为1

查看全文

http://www.hkea.cn/news/14409845/