如何做网站直播入口,贵州省电力建设施工企业商会,论坛网站模板免费下载,教做粘土的网站只需2张图片#xff0c;无需测量任何额外数据——
当当#xff0c;一个完整的3D小熊就有了#xff1a; 这个名为DUSt3R的新工具#xff0c;火得一塌糊涂#xff0c;才上线没多久就登上GitHub热榜第二。 ▲image
有网友实测#xff0c;拍两张照片#xff0c;真的就重建…只需2张图片无需测量任何额外数据——
当当一个完整的3D小熊就有了 这个名为DUSt3R的新工具火得一塌糊涂才上线没多久就登上GitHub热榜第二。 ▲image
有网友实测拍两张照片真的就重建出了他家的厨房整个过程耗时不到2秒钟
除了3D图深度图、置信度图和点云图它都能一并给出 惊得这位朋友直呼 大伙先忘掉sora吧这才是我们真正看得见摸得着的东西。 ▲image
实验显示DUSt3R在单目/多视图深度估计以及相对位姿估计三个任务上均取得SOTA。
作者团队来自芬兰阿尔托大学NAVER LABS人工智能研究所欧洲分所的“宣语”也是气势满满 我们就是要让天下没有难搞的3D视觉任务。 所以它是如何做到
“all-in-one”
对于多视图立体重建MVS任务来说第一步就是估计相机参数包括内外参。
这个操作很枯燥也很麻烦但对于后续在三维空间中进行三角测量的像素不可或缺而这又是几乎所有性能比较好的MVS算法都离不开的一环。
在本文研究中作者团队引入的DUSt3R则完全采用了截然不同的方法。
它不需要任何相机校准或视点姿势的先验信息就可完成任意图像的密集或无约束3D重建。
在此团队将成对重建问题表述为点图回归统一单目和双目重建情况。
在提供超过两张输入图像的情况下通过一种简单而有效的全局对准策略将所有成对的点图表示为一个共同的参考框架。
如下图所示给定一组具有未知相机姿态和内在特征的照片DUSt3R输出对应的一组点图从中我们就可以直接恢复各种通常难以同时估计的几何量如相机参数、像素对应关系、深度图以及完全一致的3D重建效果。 ▲作者提示DUSt3R也适用于单张输入图像
具体网络架构方面DUSt3R基于的是标准Transformer编码器和解码器受到了CroCo通过跨视图完成3D视觉任务的自我监督预训练的一个研究的启发并采用简单的回归损失训练完成。
如下图所示场景的两个视图I1I2首先用共享的ViT编码器以连体Siamese方式进行编码。
所得到的token表示和随后被传递到两个Transformer解码器后者通过交叉注意力不断地交换信息。 ▲image
最后两个回归头输出两个对应的点图和相关的置信图。
重点是这两个点图都要在第一张图像的同一坐标系中进行表示。
多项任务获SOTA
实验首先在7Scenes7个室内场景和Cambridge Landmarks8个室外场景数据集上评估DUSt3R在绝对姿态估计任务上性能指标是平移误差和旋转误差值越小越好。
作者表示与现有其他特征匹配和端到端方法相比DUSt3R表现算可圈可点了。 ▲image
因为它一从未接受过任何视觉定位训练二是在训练过程中也没有遇到过查询图像和数据库图像。
其次是在10个随机帧上进行的多视图姿态回归任务。结果DUSt3R在两个数据集上都取得了最佳效果。 ▲image
而单目深度估计任务上DUSt3R也能很好地hold室内和室外场景性能优于自监督基线并与最先进的监督基线不相上下。 ▲image
在多视图深度估计上DUSt3R的表现也可谓亮眼。 ▲image
以下是两组官方给出的3D重建效果再给大伙感受一下都是仅输入两张图像
一 ▲image
二 网友实测两张图无重叠也行
有网友给了DUSt3R两张没有任何重叠内容的图像结果它也在几秒内输出了准确的3D视图 ▲image
图片是他的办公室所以肯定没在训练中见过 ▲image
对此有网友表示这意味着该方法不是在那进行“客观测量”而是表现得更像一个AI。 ▲image
除此之外还有人好奇当输入图像是两个不同的相机拍的时方法是否仍然有效
有网友还真试了答案是yes! 传送门
论文: https://arxiv.org/abs/2312.14132
代码: https://github.com/naver/dust3r