当前位置：首页 > news >正文

做摄影网站的目的注册服务器网站哪个好

news 2026/4/21 9:30:40

做摄影网站的目的,注册服务器网站哪个好,学校网站管理系统 php,网站建设需要使用阿里云吗半监督学习 1. 引言应用场景#xff1a;存在少量的有标签样本和大量的无标签样本的场景。在此应用场景下#xff0c;通常标注数据是匮乏的#xff0c;成本高的#xff0c;难以获取的#xff0c;与之相对应的是却存在大量的无标注数据。半监督学习的假设#xff1a;决策…半监督学习 1. 引言应用场景存在少量的有标签样本和大量的无标签样本的场景。在此应用场景下通常标注数据是匮乏的成本高的难以获取的与之相对应的是却存在大量的无标注数据。半监督学习的假设决策边界应避开较高密度的区域。利用未有标记的样本来训练一个比仅使用有标记的样本可以获得的性能更好的模型 1.1 半监督学习方法半监督学习方法的分类一致性规范化/一致性训练对未标注数据进行扰动两者的预测不存在显著的差异。模型则对原数据和扰动数据进行一致性训练。有点像对比学习基于代理标签的方法这种方法利用标记集上的训练模型通过基于一些启发式方法标记未标记集的实例来产生额外的训练样本。这些方法也可以被称为自举[14]算法。这些方法中包含了自我训练、协同训练和多视角学习。生成式模型类似于监督设置在一个任务上学习到的特征可以转移到其他下游任务上。生成模型需要从原数据分布中学习可迁移特征用于监督任务。有点像上游代理任务下游监督微调基于图的方法标注数据和非标注数据点可以认为是图的节点通过计算标注节点 x i \ x_i xi和非标注节点 x j \ x_j xj之间的相似性来传递标记数据的标签到未标记数据。相当于通过样本之间的相似性来为未标注数据赋标签。 1.2 主要半监督学习假设平滑假设如果两个数据输入在原高维空间是相似的那么经过模型后的输出也应该相似。聚类假设如果点都在一个簇中则他们应属于同一类。流形假设高维数据大致位于一个低维流形上。 1.3 相关问题主动学习在主动学习[140,63]中该学习算法提供了大量的未标记数据点能够以交互式的方式请求从未标记的集合中标记任何给定的示例。迁移学习和领域适配迁移学习[116,162]是用来改进一个领域上的学习器称为目标领域通过转移从相关领域学习到的知识称为源领域。弱监督学习为了克服对大型手工标记和昂贵的训练集的需求大多数规模可观的深度学习系统都使用了某种形式的弱监督通过使用廉价的注释器[126]等策略构建的质量较低、但规模较大的训练集。在弱监督学习中目标与在监督学习中相同然而提供的不是一个地面真相标记的训练集而是一个或多个弱注释的训练集这可能来自人群工作人员是启发式规则的输出远程监督[106]的结果或其他分类器的输出伪标签。例如在弱监督语义分割中像素级标签的获取难度更大成本也更高于是使用其他不精确的注释例如图像标签[159,184,161,97,94]、点[9]、涂鸦[100]和边界框[144,31]。在这种情况下可以使用SSL方法来提高性能此外如果有有限数量的强标记的样本可用同时仍然利用弱标记的样本。有噪声标签学习由于标签噪声会对深度学习方法的性能产生负面影响因此如果噪声显著那么从噪声标签中学习[46,52]可能具有挑战性。 1.4 评估半监督学习的方式用给定的SSL方法训练一个深度学习模型性能测试结果在原始带标签的测试集上。这为对比和消融实验的设计起指导作用若要评估或者比较SSL的在真实数据中的性能需注意以下几点。共享实现若要比较不同SSL策略的性能则应该保证内部深度学习模型和超参应该一致。高质量的监督基线应该与使用有标签的监督训练结果进行比较类似于在保证其他情况不变的情况下一个是用了SSL策略一个是只用监督学习两者进行性能比较。与迁移学习进行比较另一个比较SSL方法的可靠基线则是可以通过在大型标记数据集上训练模型来获得然后在小的有标签数据集上微调。一个数据集到另一个数据集。考虑到类分布不匹配有标签样本和无标签样本之间可能存在标签类别分布不匹配的情况。同样这种不匹配在现实应用中仍然普遍存在在现实应用中未标记数据与标记数据可能有不同的类分布。为了更好地采用SSL需要解决这种差异的影响。改变已标记数据和未标记数据的数量这对消融实验有指导意义通过改变有标记样本的数量和无标记样本的数量进而研究模型所表现的性能变化。实际中较小的验证集在研究SSL的大多数情况下其实都是用的大型有标签的公开数据集这种数据集的验证集样本数量都会明显的大于SSL中所谓的标记样本集 D l \ D_l Dl也就是说验证集会大大多于训练集在这种设置下广泛的超参数调优可能会导致对验证集的过拟合。相比之下小的验证集限制了选择模型[20,45]的能力从而导致对SSL方法的性能进行了更现实的评估。——即降低验证集的样本量评估模型的性能。 2. 一致性正则化Consistency Regularization 目前许多研究的假设都是利用聚类假设而进行训练的这些方法都基于一个概念即如果给一个无标签样本增加扰动那么扰动数据的预测和原数据的预测不会有明显的改变在聚类假设下具有不同真实标签的数据点应当在低密度区域分隔开因此某样本在扰动后的预测结果发生类别变化的可能性也该很小。更正式地说通过一致性正则化我们倾向于对相似数据点给出一致预测的函数 f θ \ f_{\theta} fθ。因此与其最小化在输入空间的零维数据点上的分类成本正则化的模型使每个数据点周围的流形上的成本最小化使决策边界远离未标记的数据点并平滑数据所在的流形[193]。这意思就说扰动数据和原数据认为是“相似数据”。对于无标签数据 D u \ D_u Du一致性正则化的目的是最小化原数据和扰动数据输出之间的距离距离衡量指标有MSEKL散度JS散度。 3. 熵最小化Entropy Minimization 在上一节中在保持集群假设的设置中我们强制执行预测的一致性以将决策边界推到低密度区域来避免对来自具有不同类的同一聚类的样本进行分类这违反了聚类的假设。另一种执行这一点的方法是使网络做出置信度低熵预测对于未标记的数据而不管预测的类如何阻止决策边界通过数据点附近否则它将被迫产生低置信度的预测。这是通过添加一个损失项来实现的以最小化预测函数 f θ ( x ) \ f_{\theta}(x) fθ(x)的熵。在我看来就是在训练的时候同时输入有标签数据和无标签数据对模型进行训练两部分损失一部分就是常规的交叉熵损失一部分还是一致性准则扰动样本和原样本的输出距离应该近。 4. 代理标签方法代理标签方法是一类SSL算法它在未标记的数据上生成代理标签使用预测函数本身或它的某些变体而不需要任何监督。这些代理标签与标记数据一起用作目标提供一些额外的训练信息即使产生的标签往往是嘈杂的或弱的并不能反映地面的真相。这些方法主要可以分为2类这似乎就是伪标签的思路自训练即模型本身产生代理标签以及多视图学习其中代理标签是由根据不同的数据视图进行训练的模型产生的。 4.1 自训练Self-training 在自训练中1少量的标签数据 D l \ D_l Dl先被用来训练模型再用这个训练好的模型来给未标注数据 D u \ D_u Du指派伪标签。因此给定一个未标注数据 x \ x x用此模型先预测其在各类上的概率分布然后再成对添加数据和伪标签 ( x , arg ⁡ max ⁡ f θ ( x ) ) \ (x,\arg\max{f_\theta(x)}) (x,argmaxfθ(x))到训练集中这里有个前提就是最大概率值应该大于某个阈值 τ \ \tau τ。第二阶段是使用未标注数据集 D u \ D_u Du的增强数据训练模型并且利用这个模型又反过来标注未标注数据集 D u \ D_u Du这个过程需要不断的重复直至模型无法再标注出高置信度的样本。其他的启发式方法可以用来决定保留哪些代理标签的样本例如2使用相对置信度而不是绝对置信度其中在一个epoch中具有最高置信度的样本要进行排序选出其中前n个具有伪标签的样本到训练集 D l \ D_l Dl中。自训练Self-training与熵最小化Entropy Minimization相似。在这两种情况下网络都训练输出高置信度的预测。这种方法的主要缺点是模型无法纠正自己的错误任何偏差和错误的分类都可以迅速放大从而导致在未标记的数据点上产生置信度高但错误的代理标签。这个确实存在我在实验中似乎产生了大量的错误伪标签案例1: Billion-scale semi-supervised learning for image classifification 在少量标记数据集上训练一个teacher modelteacher model在无标记数据集上进行预测对softmax后最大概率进行排序找出top-k的样本出来制作伪标签用这个伪标签数据集训练student model最后用最初的少量标记数据对student model进行微调。案例2 Self-training with Noisy Student improves ImageNet classifification teacher和student的角色是迭代交互的第一步先用有标记的训练集训练一个teacher网络用teacher网络的预测造伪标签数据将伪标签数据和原先有标签数据集合并此时对数据注入噪声Dropout数据增强Stochastic depth同时换更大的模型可选然后训练出一个student网络用此student网络又来预测一波然后生成伪标签此时student的角色就变成了teacher。重复3-6. 先举着两个例子知道自训练是什么东西就行其他的改进方法就需要继续阅读文献找。 4.2 多视图训练Multi-view training 多视图训练在实际应用中是很常见的视图可以是来自原数据的不同观测手段比如图像的颜色信息纹理信息。多视图训练之目的在于学习一个不同的预测函数这个预测函数是对原数据的 x \ x x的某个视图 v i ( x ) \ v_i(x) vi(x)进行建模相当于说一个视图一个函数多个视图就有多个预测函数需要训练。然后对所有的预测函数进行联合优化最终增强模型的泛化能力。理想情况下各视图相互补充以便生成的模型可以协作以提高彼此的性能。协同训练协同训练要求原数据点 x \ x x可以用两种条件独立的视图进行表示并且两个视图各自可以充分地用于训练一个好的模型。在标记数据集 D l \ D_l Dl的特定视图上进行训练得到两个预测函数 f θ 1 f_{\theta_1} fθ1和 f θ 2 \ f_{\theta_2} fθ2后开始标注代理标签的进程。在每次迭代中若 f θ j \ f_{\theta_j} fθj对某未标注数据的预测输出所对应的概率值高于了某阈值 τ \ \tau τ那么这个未标注数据则被加入到 f θ i \ f_{\theta_i} fθi的的训练集中。所以说其中一个模型是拿来提供标注的另外一个是用这个伪标签数据监督训练的。像这种训练策略一般是用在多模态数据上比如RGB-D数据还有图像-文本数据他们各自就是不同的视图所以可以使用协同训练的策略。但是实际上图像分类这些任务只有一种数据视图所以在实践当中是用两种不同的分类器或者不同的参数配置。两个视图 v 1 ( x ) v_1(x) v1(x)和 v 2 ( x ) \ v_2(x) v2(x)可以通过注入噪声和应用不同的数据增强来生成。如对抗性扰动生成不同的视图Deep co-training for semi-supervised image recognition. 三级训练 Tri-Training 我觉得这部分叫“三个训练”比较合适这个训练策略的思路是应用三个不同的模型这三个模型首先都要在有标记训练集 D l \ D_l Dl上训练。然后再用这三个模型对未标记数据集进行预测。生成伪标签的策略是如果预测结果中有两个保持一致那么这个数据就加入到剩下那个模型的训练集中。如果没有任何数据点被添加到任何模型的训练集上那么训练就会停止。所以这看起来是造了三个数据集。这个方法的缺陷是计算占用的资源会特别大。多视图训练就差不多了解到这里。总结来看要么就是数据增强或者噪声形成多组增强数据用阈值造伪标签要么就是多整几个模型平行训练造伪标签。 5. 统一型方法 Holistic Methods 目前出现的工作多为统一型方法其目的在于将当前主要的SSL方法前面那些思路统一到一个框架中去以实现更好的性能。以下是Match系列MixMatch, ReMixMatch, FixMatch. MixMatch 数据增强对一个batch内有标签数据进行增强对无标签数据进行 K \ K K次叠加增强生成 K \ K K个无标签数据的增强样本序列。标签猜测给无标签数据造伪标签。还是用在有标签数据集上训练的网络进行预测只不过这里的预测是对 K \ K K个无标签数据增强的样本序列进行 K \ K K次预测。这 K \ K K个预测肯定都是一个关于各个类别概率的矢量然后再把这些取平均得到一个平均类别概率矢量通过这个平均预测得到伪标签从后面的叙述来看这里所谓的标签其实是一个概率分布所以这个伪标签的值就是所有 K \ K K个增强样本的伪标签。锐化Sharpening为了让模型可产生更高置信度的预测并且最小化输出分布的熵第二步产生的代理标签在C个类上的概率分布需要用类别分布的temperature进行锐化调整。 ( y ^ ) k ( y ^ ) k 1 T ∑ k 1 C ( y ^ ) k 1 T (\hat{y})_k\frac{(\hat{y})_k^{\frac{1}{T}}}{\sum_{k1}^{C}(\hat{y})_k^{\frac{1}{T}}} (y^)k∑k1C(y^)kT1(y^)kT1 这里面的 k \ k k是对应类别概率的下标锐化操作都是用在未标记数据集中。这个 T \ T T是放在了每个概率的右上角的所以这是一个非线性变换相当于自变量是 1 / T \ 1/T 1/T的对数函数了。 MixUp上述的操作最终会形成两个新的增强batch。其中一个batch是有标签样本的增强 L \ L L另外一个batch是无标签样本及其锐化后的概率分布标签 U \ U U。需要注意的是无标签batch里面的样本是有 K \ K K个增强样本的所以是原本体量的 K \ K K倍并且无标签样本集也用这些增强样本替换掉了。最后一步是混合这两个batch的中的样本形成一个新的batch W S h u f f l e ( C o n c a t ( L , U ) ) \ WShuffle(Concat(L,U)) WShuffle(Concat(L,U))。可以看到还用上了随机shuffle。在这之后还要再切成两截第一截 W 1 \ W_1 W1和 L \ L L一样长第二截 W 2 \ W_2 W2和 U \ U U一样长。然后再使用mixup函数这是一种数据增强的手段一开始我还以为我看错了这两个公式查了原文确实是这样mixup的当然数据和标签是同步mixup的可以查mixup的原文。 L ′ M i x U p ( L , W 1 ) LMixUp(L,W_1) L′MixUp(L,W1) U ′ M i x U p ( U , W 2 ) UMixUp(U,W_2) U′MixUp(U,W2) 构建好了连个数据集后对于 L ′ \ L L′数据集使用CE损失进行监督训练损失对于 U ′ \ U U′数据集则使用一致性损失MSE。因而损失占两部分 l o s s l o s s s w ⋅ l o s s u lossloss_sw\cdot loss_u losslosssw⋅lossu 生成式模型略

查看全文

http://www.hkea.cn/news/14352889/