Meta 发布 Multi-SpatialMLLM：多模态 AI 突破空间理解瓶颈-文欢网

IT之家 5 月 29 日消息，科技媒体 marktechpost 昨日（5 月 28 日）发布博文，报道称 Meta 公司联合推出 Multi-SpatialMLLM 模型，整合深度感知、视觉对应和动态感知三大组件，突破单帧图像分析的局限。

多模态大语言模型（MLLMs）近年来在视觉任务处理上取得显著进展，但其作为独立数字实体的应用方式限制了实际影响力。

随着机器人和自动驾驶等领域的需求增长，MLLMs 需要具备复杂空间理解能力。然而，现有模型在基础空间推理任务中频频失误，例如无法准确区分左右。

过去的研究将问题归因于缺乏专门训练数据，并尝试通过单张图像的空间数据训练改进，但这种方法局限于静态视角分析，缺乏动态信息处理能力。

Meta 旗下的 FAIR 团队联合香港中文大学，为解决空间理解难题，推出 MultiSPA 数据集，涵盖超过 2700 万样本，涉及多样化的 3D 和 4D 场景。

该数据集结合了 Aria Digital Twin、Panoptic Studio 等高质量标注场景数据，并通过 GPT-4o 生成多样化任务模板。

研究还设计了五个训练任务，包括深度感知、相机移动感知和物体大小感知等，提升 Multi-SpatialMLLM 模型在多帧空间推理上的能力。

在 MultiSPA 基准测试中，Multi-SpatialMLLM 相比基础模型平均提升 36%，在定性任务上的准确率达到 80-90%，远超基础模型的 50%，甚至在预测相机移动向量等高难度任务上也取得 18% 的准确率。

在 BLINK 基准测试中，该模型准确率接近 90%，平均提升 26.4%，超越多个专有系统。此外，模型在标准视觉问答（VQA）测试中保持原有性能，显示出不依赖过度拟合空间推理任务的通用能力。

IT之家附上参考地址

本网通过AI自动登载内容，本文转载自MSN，【提供者：IT之家 | 作者：佚名】，仅代表原作者个人观点。本站旨在传播优质文章，无商业用途。如不想在本站展示可联系删除。

OpenAIChatGPT 优化多模态交互，AI 聊天合并支持语音与文本

IT之家11月26日消息，OpenAI昨日（11月25日）发布博文，宣布旗下ChatGPT正式合并将“语音模式”（VoiceMode）合并至主聊天界面。此次整......

访客

2025年11月26日

461 0 0

华硕 ROGXboxAlly 率先尝鲜：微软宣布推出“默认游戏配置”

IT之家11月26日消息，当地时间11月25日，微软与华硕宣布，针对ROGXboxAlly与ROGXboxAllyX掌机推出多项更新，其中最重要的......

欢乐

2025年11月26日

434 0 0

经典敞篷跑车迎来最后一舞，宝马确认 Z4 明年停产

IT之家11月26日消息，据外媒motor1今日报道，宝马经典跑车Z4的生命周期将于明年结束。为此，宝马以Z4M40i为基础推出数量极少的FinalEdi......

访客

2025年11月26日

431 0 0

iPhone17 系列立功，苹果 2025 年有望超三星成为全球最大手机商

IT之家11月26日消息，彭博社昨日（11月25日）发布博文，报道称得益于iPhone17系列（不含iPhoneAir）的强劲销售势头，苹果2025年的......

访客

2025年11月26日

469 0 0

苹果美国北卡园区项目获 4 年延期：最快 2026 年动工

IT之家11月26日消息，科技媒体Appleinsider昨日（11月25日）发布博文，报道称苹果公司延迟数年的北卡罗来纳州新园区项目迎来转机。北卡州政府已正式批......

访客

2025年11月26日

459 0 0

英伟达：我们为谷歌的成功而高兴，但现阶段我们领先同行一代

IT之家11月26日消息，英伟达今日通过官方新闻账号在X平台上发布声明，先是为谷歌的成功而感到高兴，随后突然话锋一转：“英伟达领先同行一代，是唯一能够在任何计算场景下运......

访客

2025年11月26日

404 0 0

Meta 发布 Multi-SpatialMLLM：多模态 AI 突破空间理解瓶颈

欢乐

RTX 5090 Ti要来了！NVIDIA正开发更高端GPU：就在今年

绍兴母女互动事件梳理：一杯水传递的简单快乐

特朗普与克林顿在爱泼斯坦案件解密文件中的出现情况汇总

莫斯科街头爆炸事件梳理：萨尔瓦罗夫中将遇刺相关情况汇总

中国内地新增70位亿万富豪所属行业情况梳理

欢迎使用Z-BlogPHP！

银龙鱼的寿命是多少年，我喜欢的观赏鱼，只剩几年寿命

建筑工程质量级别的划分标准是如何规定的

太守自谓也的谓怎么翻译？《醉翁亭记》文言常识拆解

海鸥卫浴怎么？产品最新报价

cpu风扇调速？CPU风扇的每根线都是什么意思？

委内瑞拉油轮贝拉1号发出75次求救信号事件情况汇总

去希腊旅游必打卡景点：虽破败不堪，却仍是希腊国宝

程朱理学的开创者朱熹的生平简介

始祖鸟是哪个国家的品牌

抖音朝鲜巴博斯是什么意思？解释抖音朝鲜巴博斯

联系我们

Meta 发布 Multi-SpatialMLLM：多模态 AI 突破空间理解瓶颈

相关推荐

欢迎使用Z-BlogPHP！

联系我们