当前位置：首页 > news >正文

可以做行程的网站seo工资待遇怎么样

news 2026/4/6 14:14:08

可以做行程的网站,seo工资待遇怎么样,网站布局案例,银川做网站写在前面，最近一阵在做视频分类相关的工作，趁有时间来记录一下。本文更注重项目实战与落地，而非重点探讨多模/视频模型结构的魔改零、背景目标：通过多模态内容理解技术，构建视频层级分类体系原技术方案&#xff1a…

写在前面，最近一阵在做视频分类相关的工作，趁有时间来记录一下。本文更注重项目实战与落地，而非重点探讨多模/视频模型结构的魔改

零、背景

目标：通过多模态内容理解技术，构建视频层级分类体系
原技术方案：
a. 分别用 inception-Resnetv2/bert/vggish处理视觉/文本/音频特征，再用 netvlad 处理时序特征，再用 AFM/self-attention融合各模态信息
b. 方案缺点很明显，1）模块太多，维护成本太高；2）各模块独立训练，用每个模块最优的模型组合起来未必效果最好，如何选择各合适的模块不好确定
新技术方案：
a. attenion 一把梭，各种模态的信息直接送入类 bert 去处理，利用对比学习模型 cn-clip 提升视觉与文本对齐能力，采用 mlm、itc 、itm、mmm等多种预训练任务增强模态间交互，结合 rdrop、fgm等训练算法提升泛化性能，使用知识蒸馏与难例挖掘等手段提升样本标出率，借助 class balance 与 label smoothing 改善类别不均衡问题
b. 新方案效果提升明显，模块也少，维护起来成本也低
c. 新方案为 2022 某视频分类比赛第 8 名

在这里插入图片描述

1）单流模型

2）双流模型：

结构：
1. 模型二：文本过bert，视频过clip，然后将视频向量和文本向量拼接起来，再过一个transformer，mean pooing后接分类层
2. 模型三，文本过bert，视频过clip，得到视频向量和文本向量，然后做cross attention,即对于视频向量，用文本向量作为Q进行注意力加权，而对于文本向量，用视频向量作为Q进行注意力加权，最后mean pooing后接分类层
优点：
1. 相当于一种后融合，先让每个模态单独学更好的特征，再去做融合，效果理论上也会更好

3）训练 tricks

训练手段

1）r-drop： acc 上升 71%—>71.7%

2）swa：平均最高 3 个 checkpoints权重，模型准确率略有提升（71.7%->71.8%）

4）ema：acc 71.879% -> 71.975%

5）fgm对抗训练，acc 71.975% -> 72.206%

6）word-base：acc 72.206% -> 72.4%

7）ensemble：model1（72.638%） + model2（72.785%）—> acc 73.601%

8）训练帧数增加：帧数从 10—>30，acc 67.308 -> 67.782

9）图片尺寸：resize224x224 —> centercrop，acc 72.4—>73
loss 改进
1. 类别不均衡问题：label smoothing 和 class balanced loss 融合，acc 71.750% -> 71.879%
2. 层级分类问题：细粒度分类+粗粒度分类、细粒度分类映射、hmc los

4）预训练

1）数据准备

2）数据清洗

3）伪数据构造