四川省建设科技协会网站,装修公司的口碑排名,网上做网站资金大概多少,asp网站转wap网站#x1f468;#x1f4bb;作者简介#xff1a; 大数据专业硕士在读#xff0c;CSDN人工智能领域博客专家#xff0c;阿里云专家博主#xff0c;专注大数据与人工智能知识分享#xff0c;公众号#xff1a;GoAI的学习小屋#xff0c;免费分享书籍、简历、导图等资料作者简介 大数据专业硕士在读CSDN人工智能领域博客专家阿里云专家博主专注大数据与人工智能知识分享公众号GoAI的学习小屋免费分享书籍、简历、导图等资料更有学习交流群分享AI和大数据资料加群方式加公众号回复“加群”即可。 专栏推荐 目前在写CV方向专栏更新不限于目标检测、OCR、图像分类、图像分割等方向目前活动仅19.9虽然付费但会长期更新感兴趣的小伙伴可以关注下➡️专栏地址 学习者福利 强烈推荐一个优秀AI学习网站包括机器学习、深度学习等理论与实战教程非常适合AI学习者。➡️网站链接。 技术控福利 程序员兼职社区招募技术范围广CV、NLP方向均可要求有一定基础最好是研究生及以上或有工作经验欢迎大佬加入群内Python、c、Matlab等各类编程语言单应有尽有, 资源靠谱、费用自谈有意向➡️访问。 导读本篇为注意力机制系列第三篇主要介绍注意力机制中的空间注意力机制对空间注意力机制方法进行详细讲解会对重点论文会进行标注 * 并配上论文地址和对应代码。 注意力机制详解系列目录 1️⃣注意力机制详解系列一注意力机制概述 2️⃣注意力机制详解系列二通道注意力机制 3️⃣注意力机制详解系列三空间注意力机制 4️⃣注意力机制详解系列四混合注意力机制 5️⃣注意力机制详解系列五分支与时间注意力机制 导读本篇为注意力机制系列第五篇主要介绍注意力机制中的分支与时间注意力机制对分支与时间注意力机制方法进行详细讲解会对重点论文会进行标注 * 并配上论文地址和对应代码。 Branch注意力机制 branch注意力机制主要是关注哪个图片的意思如一个branch中对不同图片以不同的权重如CondConv,Dynamic Conv 等或者在多个branch中对不同的branch不同的权重如Highway NetworkSKNet, ResNeSt等。
Highway Network
论文:https://arxiv.org/abs/1507.06228
github: https://github.com/jzilly/RecurrentHighwayNetworks
Highway Network基于门机制引入了transform gate T 和carry gate C 输出output是由tranform input和carry input组成和resnet的思想有点相似。 SKNet
论文:https://arxiv.org/pdf/1903.06586.pdf
github: https://github.com/implus/SKNet
SKNet 对不同输入使用的卷积核感受野不同,参数权重也不同,可以自适应的对输出进行处理与SENet有相同的地位 sknet模块主要由 Split、Fuse、Select 三部分组成。
这里的Split是指对输入特征进行不同卷积核大小的完整卷积操作(包括efficient grouped/depthwise convolutionsBatch NormalizationReLU function)。如结构图所示对特征图进行Kernel3×3和Kernel5×5的卷积操作得到两个输出这里为了进一步减少计算量会将5x5的卷积由两个3x3的卷积实现。在得到两个特征图后第二步为Fuse部分和SE模块相似先将两个特征图逐像素相加后使用全局平均池化GAP压缩成11c的特征图后先降维再升维经过两次全连接输出两个矩阵a和b,a和b各位置逐值相加和为1即a1-b。第三步为select部分区别SENet,这里使用a和b的权重矩阵分别对第一步输出的两个特征图加权最后求和得到最后的输出。
SKNet也是可直接嵌入网络的轻量级模块SKNet使用时涉及到了卷积核数量和大小的选择问题。直观来说SKNet相当于给网络融入了soft attention机制使网络可以获取不同感受野的信息这或许可以成为一种泛化能力更好的网络结构。至于为何将SKNet放在branch attention 下面可能是因为在第一步时使用了分组卷积吧。
ResNeSt
论文:https://hangzhang.org/files/resnest.pdf
github: https://github.com/zhanghang1989/ResNeSt
ResNeSt是基于SENet,SKNet和ResNext 把attention 做到group level。 CondConv
论文:https://arxiv.org/abs/1904.04971
github: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/condconv
作者提出一种条件参数卷积它可以为每个样例学习一个特定的卷积核参数通过替换标准卷积CondConv可以提升模型的尺寸与容量同时保持高效推理。 CondConv提出的方法与**混合专家方法Mixture of Experts**类似需要在执行卷积计算之前通过多个专家对输入样本计算加权卷积核。主要需要计算几个较为昂贵的依赖样本的routing函数Routing函数对应的模块与注意力模块类似包括平均池化全连接层和Sigmoid激活层。关键的是每个卷积核只需计算一次并作用于不同位置即可。这意味着通过提升专家数据量可达到提升网络容量的目的而代码仅仅是很小的推理耗时每个额外参数仅需一次乘加。如上图所示。
Dynamic Conv
论文:https://arxiv.org/pdf/1912.03458.pdf
github: https://github.com/kaijieshi7/Dynamic-convolution-Pytorch
文章提出的动态卷积能够根据输入动态地集成多个并行的卷据核为一个动态核可以提升模型表达能力而无需提升网络深度与宽度。通过简单替换成动态卷积。 动态卷积有K个kernel共享相同的kernel size和输入输出维度通过attention weight结合起来与SENet对卷积的通道加权不同动态卷积对卷积核加权。
时域注意力机制
时域注意力机制在cv领域主要考虑有时序信息的领域如视频领域中的动作识别方向其注意力机制主要是在时序列中关注某一时序即某一帧的信息。 TAM
paper: https://arxiv.org/abs/2005.06803v1
github: https://github.com/liu-zhy/temporal-adaptive-module
由于存在拍摄视角变化和摄像机运动等多个因素视频数据通常表现出较为复杂的时序动态特性不同视频在时序维度上呈出不同的运动模式。为了解决这个问题时序自适应模块TAM为每个视频生成特定的时序建模核。该算法针对不同视频片段灵活高效地生成动态时序核自适应地进行时序信息聚合。整体结构入下图所示 TAM将时序自适应核的学习过程分解为局部分支和全局分支。全局分支 G 基于全局时序信息生成视频自适应的动态卷积核以聚合时序信息这种方式的特点是对时序位置不敏感忽略了局部间的差异性。而局部分支L 使用带有局部时序视野的 1D 卷积学习视频的局部结构信息生成对时序位置敏感的重要性权重以弥补全局分支存在的不足。
GLTR
paper: https://arxiv.org/abs/1908.10049
github: https://github.com/ljn114514/GLTR
这是一篇用于行人ReID领域的一篇论文作者提出在短期建模基于当前帧的相邻几帧能加强当前帧人物在该时间段的外观和运动情况当任务发生遮挡时则需要使用长期建模增加时间跨度。所以论文在融合帧的特征时短期建模和长期建模一起用上 在短期建模时使用了空洞卷积增加感受野在这里则是增加对当前帧的相邻几帧一起进行卷积处理也就是综合相邻几帧的信息来增强当前帧的信息。在长期建模中则使用的是transformer中的self-attention 机制。transformer的attention计算是通过所有信息与当前信息的关系计算的也就是相当于基于当前帧与全部帧的关系将全部帧的信息选择性的给予到当前帧是一个长期建模的过程。也是变相的将注意力机制用在建模中。
分支注意力机制论文总结
Training very deep networks (NeurIPS 2015) pdf Selective kernel networks (CVPR 2019) pdf CondConv: Conditionally Parameterized Convolutions for Efficient Inference (NeurIPS 2019) pdfDynamic convolution: Attention over convolution kernels (CVPR 2020) pdfResNest: Split-attention networks (arXiv 2020) pdf
时间注意力机制论文总结
Jointly attentive spatial-temporal pooling networks for video-based person re-identification (ICCV 2017) pdf Video person reidentification with competitive snippet-similarity aggregation and co-attentive snippet embedding (CVPR 2018) pdfScan: Self-and-collaborative attention network for video person re-identification (TIP 2019) [pdf](