个人网站 域名,必应搜索推广,app界面设计风格,网站做中英版论文标题
RepViT: Revisiting Mobile CNN From ViT Perspective
论文链接#xff1a;
https://arxiv.org/abs/2307.09283
论文作者
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
内容简介
这篇论文探讨了在资源受限的移动设备上#xff0c;轻量级视觉变…
论文标题
RepViT: Revisiting Mobile CNN From ViT Perspective
论文链接
https://arxiv.org/abs/2307.09283
论文作者
Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
内容简介
这篇论文探讨了在资源受限的移动设备上轻量级视觉变换器ViTs与轻量级卷积神经网络CNNs的性能和延迟。作者发现尽管轻量级ViTs在性能上优于轻量级CNNs但在硬件和计算库支持方面存在实际挑战。因此研究团队重新审视了轻量级CNN的设计并强调了其在移动设备部署上的潜力。通过将轻量级ViTs的高效架构设计集成到标准轻量级CNNMobileNetV3中研究者们提出了一个新的轻量级CNN系列——RepViT。实验结果表明RepViT在各种视觉任务中超越了现有的轻量级ViTs并在延迟方面表现出优势。
方法
1.架构设计
研究者们从MobileNetV3-L开始逐步将其“现代化”通过整合轻量级ViTs的高效架构设计。这个过程包括将ViTs的MetaFormer结构和Reparameterization卷积整合到CNN中形成了新的RepViT块。
2.延迟度量
为了更准确地评估模型在移动设备上的性能研究者们使用实际设备iPhone 12上的延迟作为基准度量而不是依赖于FLOPs或模型大小等传统指标。
3.训练方案对齐
为了公平比较研究者们将MobileNetV3-L的训练方案与现有的轻量级ViTs对齐包括使用AdamW优化器、余弦学习率调度器、Mixup、自动增强和随机擦除等技术。
4.块设计
研究者们分离了token mixer和channel mixer并减少了扩张比同时增加了网络宽度以提高性能和减少延迟。 5.宏观设计
对网络的宏观架构进行了优化包括简化的stem、更深的下采样层和简化的分类器以及调整整体阶段比。 6.微观设计
关注于轻量级CNN的微观架构包括内核大小选择和squeeze-and-excitationSE层的放置。
7.网络架构
开发了多个RepViT变体包括RepViT-M0.9/M1.0/M1.1/M1.5/M2.3这些变体在通道数和每个阶段的块数上有所不同。 结论
RepViT作为一种新的轻量级CNN不仅在性能上超越了现有的轻量级ViTs和CNNs而且在延迟方面表现出色特别是在移动设备上。这项工作不仅为轻量级模型的研究提供了一个强有力的基线而且激发了对边缘部署轻量级模型的进一步研究。 CVPR2024论文合集链接
https://arxiv.org/abs/2307.09283
希望这些论文能帮到你如果觉得有用记得点赞关注哦~ 后续还会更新更多论文合集