如何做自己的网站商城,七牛云app,wordpress售后主题,百度搜索引擎营销一、终极结论#xff1a; 如果在足够多的数据上面去做预训练#xff0c;那么#xff0c;我们也可以不用 卷积神经网络#xff0c;而是直接用 自然语言处理那边搬过来的 Transformer#xff0c;也能够把视觉问题解决的很好
#xff08;tips#xff1a;paperswithcode.co…一、终极结论 如果在足够多的数据上面去做预训练那么我们也可以不用 卷积神经网络而是直接用 自然语言处理那边搬过来的 Transformer也能够把视觉问题解决的很好
tipspaperswithcode.com——查看各个机器学习领域的State of art
二、标题信息 一张图像 很多16*16大小的单词序列
三、摘要: 在NLP中无论是Bert,GPT还是T5,其中的transformer已经成为了标配但是计算机视觉中tranformer用得还有限即使是使用了transformer也只是在整个model的一个stage中用到了自注意力机制。而VIT会告诉你这些都不用直接照搬NLP的model就可以了 四、引言 首先transformer的应用使得GPT那些大模型还没有性能饱和 其次直接用原始像素的话太大了不可行而已有的工作呢比如有把网络中间的feature map作为transformer的输入的也有分横轴、纵轴作为transformer的输入的这个的硬件加速没有实现所以很难做大模型 之后就是VIT的工作就是将图像看作1个个16*16大小的“单词序列”直接输入到NLP的model中即可 最后结果显示只要预训练的数据够多就能够取得比原来卷积神经网络更好的效果 五、结论 反正就是这个VIT能够把分类任务做得很好然后在图像分割等视觉也应该能够做得很好挖坑并提出了一些展望什么的。 六、相关工作 和introduction中的前期工作相似多了一个利用图像生成imageGPT进行图像分类当时只是达到72%的正确率但是后来何凯明团队提出的MAE却能够利用图像生成在各个图像任务上面取得很好的效果 七、主题VIT模型的结构 主要就是这个patch embedding的部分整个transformer Encoder就是 重复了L次的上面右图的结构,同时这个视频也讲到整个 “前向流程”——包括1D的位置编码。。。参见视频即可需要用的时候再去了解
对了这里明白了一个新的点就是消融实验一般放到附录中有点像 单一变量原则 八、实验部分 就是 展示了这个VIT的正确率情况等等。。。反正就是表现得非常nice,还有它里面每一层特征学到的结果还有改用自监督的方式训练得到的结果正确率只有80%。。。