公司新闻

ICCV 2025完整的分数论文:一种对空间和积极探索

作者: bet356官网首页   点击次数:    发布时间: 2025-07-15 13:01

该文档的中央团队来自北京综合人工智能的学习研究所。团队负责人李·基约(Li Kiyo)博士致力于多模式理解,多模式代理,融合了情报和其他方向。主页:https://liqing.ioin近年来,人工智能已逐渐从互联网上的虚拟空间(网络空间)转移到真实的物理世界(物理空间)[1]。这种转变的主要挑战之一是如何使代理商能够理解三维空间[2]并实现其真实的物理环境和自然语言之间的一致性。现有的3D空间理解模型已在视觉感知和语言调整方面取得了重大进步,但通常基于静态世界观察和缺乏主动探索行为建模。为了回答这个问题,Tsinghua大学的研究团队进行了研究,北京理工学院和北京大学IJING共同提出了一种统一的空间理解和积极探索的新模型。这种方法使代理在动态研究中逐渐意识到其环境,从而实现了更有效的空间感知和自主导航,并为代理人在物理世界中执行任务的基础奠定了基础。 ICCV 2025接受了这项工作,所有审稿人都一致提供了完美的品牌。文档标题:移动以了解3D场景:高效和经过验证的导航纸链接:https://arxiv.org/abs/2507.04047项目主页:https://mtu3d.github.io代码链接:https://arxiv.org/abs/2507.04047 https://github.com/mtu3d/d/mtu3d/d/mtu3d/dmtu3d/dmtu3d/dmtu3d/dmtu3d/dmtu3d/dmtu3d/dmtu3d/dmtu3d/ DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D/DMTU3D。已包含在式内置的导航任务中的导航的“双面镜子” [3] requi根据人类指示,该目标位于复杂的物理空间中,也许是对任务的声明,摄影或描述。不仅有必要“理解任务”,还必须“知道要探索什么”。这是空间理解和化身智力的关键问题。如下图所示,导航过程是现实。在这种情况下,涉及两个重要步骤:面料。理解(地面连接):这意味着代理是指诸如“去餐桌”之类的指令必须找到一个与“餐桌”概念相吻合的空间的地方。探索:如果不完全理解环境,则代理必须积极移动,观察和发现目标要素或区域。这是一个在太空中航行的人。如果您想找到想要吃的东西,可以优先考虑去厨房或餐厅,这种“方向感”是基于对人们SPAC的理解e。要找到小吃,您必须在厨房里积极探索。这表明理解和探索不是两个独立的过程,而是促进和交替执行的。研究困难:表示形式,培训和数据收集目标的实时语义表示:我们如何更新在线3D语义图不仅可以包含精确的空间位置,还可以从RGB-D传输中连续处理数据?探索协作培训:在培训目标中统一研究策略和语义理解的方式优化并共同破坏方法straditional模块化中的两个分离问题?有效的数据收集:如何降低真实导航数据的汇编成本,并结合虚拟和真实环境以创建自动化和可扩展的数据收集过程?中心思想:探索和理解协作培训,如下图所示。作者Mo详细介绍了并入的导航,作为调节勘探和视觉地面连接的闭路过程。在调查阶段,通过RGB-D的持续感知,代理不断积累空间记忆,并积极寻求可能的客观位置。如果在空间内存中包含足够的视觉语义信息,则该模型按照语言的说明进入视觉着陆阶段,这与空间的候选区域相吻合,并移至最佳与语义相吻合的客观位置。这个整数Designra在封闭循环系统中3D视觉语言模型的增强学习方法和语义理解能力中的主动探索能力。探索促进了理解和理解的发生,从而导致更有效的探索,从而实现协作培训以及极端任务的执行。作者O提出的模型F模型设计和数据收集包括两个中央模块,主要是在线空间内存构建以及空间推理和决策。两者都可以在统一的训练框架下进行优化,以实现闭路探索和理解。第1部分:在线空间内存都在框架的每个表中构建,并且该模型接收本地RGB-D序列作为环境的入口。每个图像首先发送到编码Encoder2d [4]和3D编码器[5]的多模式函数。 2D编码器使用FastSAM [6]和Dino提取语义分割和视觉特征,而3D编码器根据分散水平在次级卷积水平上提取空间表示。这些多模式特征通过咨询解码器转化为结构化对象的一组表示,该解码器涵盖了每个对象的空间位置,音量大小,语义特征和信任信息ation [7,8]。同时,系统使用基于边界的探索方法[9]来识别未开发的空间限制并生成相应的边框画廊(表示为3D空间坐标点)。最后,以前的对象和限制信息是按时间写入的,并且连续的动态动态空间内存库为推理和后续决策提供结构空间知识。第2部分:空间推理阶段,系统在当前读取对象和空间内存的边界咨询,并执行任务和交叉合并的文本指令,以确定语言目的的最相关的候选区域。该模块具有两个响应机制:如果语义目标(例如“椅子”)已经具有与内存库一致的对象,则该模型将直接选择导航位置。如果没有目标,则系统为下一个Exploratio选择最佳边界区域n在未来观察中获得相关语义信息的步骤。从数据收集过程的角度来看,作者在视觉理解和模型探索功能方面具有不可或缺的改进。虚拟仿真和虚拟导航路径。具体而言,作者从扫描仪方案[10]和HM3D [11]构建数据。其中,皇家轨迹主要来自扫描方案的问题,答案和教学任务。这些数据包含许多视觉语言对齐信息,这有助于提高在复杂环境中实现模型的能力。同时,基于栖息地SIM引擎的大型模拟轨迹涵盖了更丰富的空间探索过程,可显着提高主动探索和模型战略学习能力。如下表所示,最终数据集涵盖了900,000多个导航轨道,数百万的语言描述和目标说明,并涵盖了宽阔的任务类型的范围,包括视觉取向(VG),行为倍率(EXP)和目标(目标)的定位。 (支持开放词汇的客观导航),Bench de Cabra [3](多模式长期导航),SG3D-NAV(多个任务导航)[13]和A-EQA(主动探索任务与问题和答案相结合)[14],以证明用于混凝土智能场景的模型的适应性。在山羊长凳的参考时期,三个资格组中的MTU3D成功率分别达到52.2%,48.4%和47.2%。该任务涵盖了各种说明,例如图像,文本,类别等,并要求代理具有长期内存功能,以同时完成10个以上的目标导航。实验结果表明,MTU3D在多模式理解和长期任务计划中表现出强大的概括能力和稳定的性能。以下桌子结果结果SG3D-SAV同步任务导航模型的评估s。与改进相比,通过学习方法(例如感觉-NN)和模块化方法(作为内置的视频代理),MTU3D在所有指标方面都取得了重大改进。在此任务中,代理可用于输入多个步骤语言指令。因此,必须按顺序完成多个子目标。这是一个全面的任务计划和长期内存能力。在A-EQA任务中,作者发现,通过改进的MTU3D问题和答案的性能生成的勘探路径,将GPT-4V的成功率从41.8%提高到44.2%。结果表明,MTU3D为大型多模式提供了高质量的感知票,并且对于制定已加入的问题和答案的任务很有用。在ABLAC实验中,作者发现,协作培训策略VLE VLE可为三个Naviga带来重大的绩效改进任务:对于Ovon,Cabras和SG3D任务,成功率分别增加了5.5%,13.9%和5.0%。该结果表明,VLE有效地促进了视觉理解和空间探索的协调,并显着提高了模型在多任务导航方案中的性能。模拟器结果表明,在几个任务中,该模型可以准确了解目标指令并成功完成复杂的任务,例如图像导航,语言定位和多个步骤操作。作者还进行了真实的实验实验,其中三个视频显示了现实世界中模型的能力。摘要:我们处于一个重要的阶段,即人工智能将屏幕上的“世界世界”移至“真实的物理世界”。 AI不仅可以理解图像和语言,而且还可以独立移动并了解真实空间中的完整说明和任务。这个wo的外观RK结合了“理解”和“探索”,以允许AI探索环境,同时了解指示,逐渐建立对我们周围世界的理解。通过结合真实和虚拟数据培训,MTU3D不仅可以在模拟器中运行良好,而且还可以为未来的机器人任务提供新的想法和想象力的空间,并在未来的导航中构建。