做网站联盟要多少钱,网络营销导向企业网站建设的一般原则,外资企业,域名服务器的正向解析论文出处
[2304.05277] Graph-based Topology Reasoning for Driving Scenes (arxiv.org)https://arxiv.org/abs/2304.05277
TopoNet
TopoNet的目标是从车辆上安装的多视角摄像头获取图像#xff0c;感知实体并推理出驾驶场景的拓扑关系#xff0c;实现端到端预测#xf…论文出处
[2304.05277] Graph-based Topology Reasoning for Driving Scenes (arxiv.org)https://arxiv.org/abs/2304.05277
TopoNet
TopoNet的目标是从车辆上安装的多视角摄像头获取图像感知实体并推理出驾驶场景的拓扑关系实现端到端预测下图是TopoNet的整体设计 模块解读 特征编码多视角图片作为输入特征提取器生成多尺度的图像特征单独提取前视图特征。然后通过view transformerm模块生成BEV特征。前视图特征和BEV特征在后面被分成两个分支来做处理因为在前视图中更容易学习到交通元素的特征在BEV中不容易学习而在BEV空间中更容易学习中心线的特征 可变注意力解码这里设计了是多层的解码器堆叠两个特征分别传入两个都是基于可变注意力的decoder前视图特征做Q查询是学习交通元素的信息而BEV特征Q查询是为了学习中心线的中心线。 SGNN模块 因为在透视图中的交通要素的位置特征很难利用但是语义特征很重要所以先利用嵌入网络来提取交通元素的语义信息然后转换为统一的特征空间和中心线匹配。 分别构建两个有向图来传播特征直接构建一个全连接图计算成本高会学习到非必要的信息一个用于车道图估计Gll一个代表交通要素分配Glt。分别对两个图做GNN学习。因为Ql和Qt代表不同的查询对象语义有差异引入适配器层组合信息增益R流程如下图。融合学习信息的操作生成下一级decoder的查询Q 在一个场景知识图中不同类别的交通要素的权重矩阵是独立的会为不同走向的车道带来不同的信息。所以接下来是用了一个改造过的图卷积网络GCN被拆分成了两块查询交通要素聚合信息。 这是一个在场景知识图上更新查询LC1的例子。计算过程中心线部分根据学习权重矩阵的情况结合前向和后向的权重去计算因为车道的结构是彼此依赖的车道位置信息可以很好指示邻居的信息每个节点的新特征都是受到它的邻居影响的。而交通要素之间的特征更新是特征查询和特征类别做矩阵乘法更新 检测头部分模型对应出三个检测头直接交通元素decoder产生的检测头做用于检测指示牌信号灯等而根据SGNN得到的检测头可分为拓扑关系检测头和中心线的洁厕头拓扑关系的检测头是交通元素和中心线共同作用的结果
损失函数
模型中用到了多种损失函数匈牙利算法生成真实值和预测值之间的匹配
交通要素Focal loss分类损失L1 loss回归损失 IOU loss位置损失
中心线Focal loss分类损失L1 loss回归损失
其他三种技术
STSU
论文出处
[2203.17270] BEVFormer: Learning Birds-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (arxiv.org)https://arxiv.org/abs/2203.17270
遵循 DETR 的做法使用稀疏查询进行对象检测。STSU也是使用两组查询向量一组用于中心线一组用于交通对象元素。他的transformer有两个分支车道分支和目标分支。
车道分支检测头预测是否存在由某个查询向量编码的车道控制头预测 R 贝塞尔曲线 控制点的位置关联头预测用于聚类的嵌入向量关联分类器判断关联性。贝塞尔曲线非常适合中心线可以使用固定数量的 2D 点对任意长度的曲线进行建模
目标分支处理transformer的提议包含检测头 MLP sigmoid 层后处理网络将实例转换为语义分割
VectorMapNet
论文出处[2206.08920] VectorMapNet: End-to-end Vectorized HD Map Learning (arxiv.org)https://arxiv.org/abs/2206.08920
用矢量来构建高精度语义地图设计思路是将该问题构建为稀疏点集预测问题每个语义元素由N_v个有序二维点列构成的折线表示。
主要由三部分组成BEV特征提取、地图元素检测利用transformer的decoderpolyline生成基于BEV特征。预测头是一个分类分支和一个回归分支。
MapTR
论文出处
[2208.14437] MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction (arxiv.org)https://arxiv.org/abs/2208.14437
MapTR是一个基于排列的HD Map构造方法它将每个地图元素视为有着一组等价排列方式的点集。封闭形状被描绘为多边形polygon开放形状被描绘为线段polyline通过这样的方式避免地图元素定义上的歧义。
具体工作流程是先做2D to BEV的encoder得到BEV特征然后用transformer的decoder其中query查询的就是点集特征最后是分类头和预测头输出。 TopoNet会表现出优势的原因
其实这些模型的构建思路都很相似区别在于他们对问题做了不同的抽象把模型学习特征要素的表示方式不一样STSU是贝塞尔曲线VectorMapNet是矢量集合来表示MapTR就更加精细一点提出了等价排列点集的思路。
TopoNet的优势在于作者思考后把问题转化到了图的拓扑关系问题。作者设计了模型专门学习图的拓扑关系利用了可变注意力和图神经网络区学习。学习到了节点之间的邻接关系中心线和交通要素间的关系。
还有就是对交通要素和中心线先是分别提取特征学习然后再融合更新查询矩阵Q这个思路和STSU相似看起来也很有效。交通要素头和中心线预测头都很好学习到了自身的特征。拓扑关系预测头则是两者的融合这个设计也很巧妙是前面分别做特征提取和decoder的思路延续。