当前位置: 首页 > news >正文

深圳坪山网站制作公司做网站建网站公司

深圳坪山网站制作公司,做网站建网站公司,自己用笔记本做网站,为什么只有建设网站打不开1. 研究背景 在现实世界中,人们寻找 3D 物体的行为往往基于特定意图,例如“我想要一个可以支撑我背部的东西”(即寻找枕头)。传统 3D 视觉定位(3D-VG)主要依赖人工提供的参照信息(如“沙发上的…

1. 研究背景

在现实世界中,人们寻找 3D 物体的行为往往基于特定意图,例如“我想要一个可以支撑我背部的东西”(即寻找枕头)。传统 3D 视觉定位(3D-VG)主要依赖人工提供的参照信息(如“沙发上的枕头”)。但该论文提出的3D 意图定位( 3D-IG)旨在让 AI 自动推理并检测目标物体,而无需用户明确指明物体的类别或位置


2. 主要贡献

(1) 新任务——3D-IG

  • 任务目标:给定 3D 场景(点云)和自由形式的意图文本,AI 模型需自动推理检测符合该意图的目标对象。
  • 该任务比 3D 视觉定位更具挑战性,因为它不依赖显式的物体类别或空间参照

(2) 新数据集——Intent3D

  • ScanNet 数据集(Dai et al., 2017)中提取 1,042 个 3D 场景,构建 Intent3D 数据集。
  • 包含 44,990 条人类意图文本,涉及 209 个细粒度类别的物体。
  • 通过 GPT-4 生成意图文本,并进行人工清理,确保数据质量。

(3) 新模型——IntentNet

  • 为解决 3D-IG 问题,论文提出 IntentNet,该模型主要由以下三部分组成:
    1. 意图理解(Verb-Object 对齐):首先识别动词,然后匹配相应的对象,提高模型对人类意图的理解能力。
    2. 候选框匹配(Candidate Box Matching):通过检测多个可能的目标,提高 3D 目标检测的准确性。
    3. 级联自适应学习(Cascaded Adaptive Learning):动态调整多个损失项的优化顺序,以增强学习效果。

3. 数据集构建

(1) 采集过程

场景构建 → 物体筛选 → 意图生成 → 数据清理

Intent3D 数据集的生成流程如下:

  1. 构建场景图:基于 ScanNet 3D 点云,整理场景类别、物体类别、实例数量、3D 边界框等信息。
  2. 选择目标物体
    • 常见物体:选择高频物体,排除结构性物体(如“墙”)。
    • 非显而易见的物体:排除场景中出现过多次的物体(如会议室里 10 把椅子)。
    • 无歧义的物体:过滤可能导致歧义的物体(如“垃圾桶” vs “垃圾箱”)。
  3. 生成意图文本
    • 通过 GPT-4 生成描述该物体用途的意图文本(如 “我想在办公桌上放点绿植”)。
    • 采用多轮 Prompt 设计,确保文本不包含明确的物体类别、位置等信息。
  4. 数据清理
    • 移除乱码、重复和含糊的意图文本,确保数据质量。

(2) 统计分析

  • 该数据集包含 63,451 个物体实例,平均每个物体有 6 条意图文本
  • 统计分析表明:
    • 使用了 1,568 个不同动词(表示意图),
    • 使用了 2,894 个不同名词(表示物体)。

4. 提出的模型——IntentNet

(1) 多模态特征提取(主干网络)

  • 3D 点云:采用 PointNet++ 提取点云特征。
  • 语言文本:采用 RoBERTa 对文本输入进行编码,能够理解文本语义。
  • 3D 目标检测(MLP):使用 GroupFree 3D 检测器 生成物体候选框。

🔹 编码器(Encoder)

多模态特征通过 Transformer 结构 进行融合:

  1. 点云注意力模块(Point Attention Block)
    • 对点云数据进行 自注意力跨模态注意力,让 3D 特征与文本对齐
  2. 候选框注意力模块(Box Attention Block)
    • 让候选 3D 物体的特征与文本进行交互
    • 目标:强化可能目标的语义匹配
  3. 文本注意力模块(Text Attention Block)
    • 让文本信息与 3D 物体信息交互,提高意图理解能力

🔹 解码器(Decoder)

  1. Top-K 物体候选框选择
    • 选出置信度最高的 Top-K 物体
    • 让模型关注最有可能满足意图的目标,生成查询提议(Query Proposal)
  2. 自注意力与交叉注意力机制
    • 让点云、候选框、文本进行深度融合,提高检测精度
  3. 最终目标检测
    • 预测 3D 目标物体的位置(Bounding Box)

(2) 关键模块

🔹候选框匹配(增强物体推理)(Candidate Box Matching)

  • 3D 场景中可能有多个物体符合同一意图(如“坐下”可以是椅子、沙发)
  • 需要让模型 自动筛选出最相关的目标

解决方案


🔹动词-物体对齐(提高意图理解)(Verb-Object Alignment)

  • AI 需要同时理解 “做什么” + “对什么物体”
  • 先识别意图句中的动词(如 “support”),再匹配其作用对象(如 “back”)。
  • 通过 对比学习(Contrastive Learning) 训练 AI 理解动词-对象关系。

解决方案


🔹 级联自适应优化(提升训练效率)(Cascaded Adaptive Learning)

  • 训练多个损失(意图理解、物体匹配、目标检测)很难优化
  • 需要让模型 先学会简单任务,再优化复杂任务
  • 由于 3D-IG 任务涉及多个学习目标(如意图理解、候选框匹配、目标检测),论文提出一种 自适应损失加权机制
    • 先优化高优先级任务(如动词识别),再逐步优化低优先级任务(如目标检测)。
    • 通过 Sigmoid 自适应因子 调整各损失项的影响,提升模型收敛速度。

解决方案


5. 实验结果

(1) 评价指标

  • Top-1 准确率(Top1-Acc@IoU):预测的最高置信度目标是否正确。
  • 平均精度(AP@IoU):在不同置信度阈值下的检测精度。

(2) 对比实验

模型Top1-Acc@0.25Top1-Acc@0.5AP@0.25AP@0.5
BUTD-DETR47.1224.5631.0513.05
EDA43.1118.9114.025.00
3D-VisTA(基础模型)42.7630.3736.119.93
Chat-3D-v2(LLM)36.7132.783.232.58
IntentNet(Ours)58.3440.8341.9025.36
  • IntentNet 超越所有基线模型,尤其在 AP 和 Top1-Acc 指标上显著提升。
  • LLM 模型 Chat-3D-v2 表现较差,表明现有 LLM 在 3D 任务上的适用性有限。
  • 基础模型 3D-VisTA 虽然有较好的对齐能力,但仍不及 IntentNet,因为 IntentNet 显式建模了意图推理能力

(3) 消融实验

  • 移除 动词对齐(Verb),Top1-Acc@0.25 下降 5.25%
  • 移除 候选框匹配(MatchBox),Top1-Acc@0.25 下降 2.09%
  • 移除 自适应学习(Adapt),Top1-Acc@0.25 下降 0.95%

6. 结论

该研究提出 3D 意图定位(3D-IG) 这一新任务,并构建 Intent3D 数据集,为 3D 目标检测提供新的方向。IntentNet 在意图推理、候选框匹配和级联优化方面展现了领先性能,优于现有 专家模型、基础模型和 LLM

http://www.hkea.cn/news/910444/

相关文章:

  • 携程网站建设进度及实施过程网络营销的缺点及建议
  • 石家庄网站建设哪家专业中国联通腾讯
  • 能访问各种网站的浏览器百度一下网页搜索
  • 自己做网站花多少钱雅虎搜索
  • 哈尔滨招标信息网网站推广优化排名教程
  • 个人可以建论坛网站吗福清网络营销
  • 济南做网站优化价格百度推广网站一年多少钱
  • 做网上商城网站哪家好杭州seo靠谱
  • 做营销网站制作关键词优化课程
  • 网站移动终端建设口碑营销成功案例
  • 美国做试管婴儿 网站推广普通话宣传语
  • 网站备案信息查询系统软文发布平台媒体
  • 泊头哪给做网站的好制作网页的教程
  • 漳州建设银行网站首页在百度上打广告找谁
  • 网站免费建站k网络营销策划方案书
  • 网站建设类公网店推广的作用
  • 安平做网站除了百度指数还有哪些指数
  • 做网站公司 蓝纤科技知乎怎么申请关键词推广
  • 临沂免费做网站发表文章的平台有哪些
  • 网站推广的方式包括哪些广西网站建设制作
  • 杭州营销网站建设东莞网站建设哪家公司好
  • 企业做营销型网站手机如何制作网页
  • 连云港网站关键词优化seo自学教程
  • 网站全站出售淘宝关键词排名怎么查询
  • 龙口市规划建设局网站查询收录
  • 学校网站建设注意什么东莞网站营销推广
  • 网站设计模板是什么百度网盘人工客服电话多少
  • wordpress文章收缩长春seo优化企业网络跃升
  • 网站地图调用希爱力双效片骗局
  • 珠海网站建设维护友情链接买卖代理