英伟达 & 普渡大学用agent闭环实现文生3D

mynccs · 发表于 2026-5-13 09:59:32

大模型正在从 “会说会写” 走向 “会规划、会执行” 的 Agent 时代。对具身智能来说，这种变化尤其关键。因为真正限制机器人和智能体能力上限的，很多时候并不是算法本身，而是现实世界中过高的试错成本：一次抓取失败、一次路径规划失误，代价都远高于在虚拟环境中的反复迭代。也正因如此，一个物理合理、结构真实、能够支撑交互和仿真的 3D 世界，正变得越来越重要。

从一句文本描述直接生成一个真正 “能用” 的三维场景，远比生成几张好看的图片更难。一个场景是否可用，不仅取决于里面有没有桌子、椅子和书架，而且取决于这些物体之间的关系是否合理：杯子能不能真正放在桌面上，书能不能被摆进书架里，椅子是不是面向一个符合使用常识的位置，整个空间会不会出现穿插、漂浮和不稳定支撑。换句话说，3D 场景生成最难的地方，从来不是 “生成资产”，而是让空间关系看起来像真实世界，并且真的能够服务于交互、仿真和具身智能任务。

围绕这一问题，来自英伟达 Cosmos Lab 与普渡大学的研究者提出了 Scenethesis（ICLR 2026）。与其过拟合小样本的 3D 场景数据，他们换了一个思路：把语言、视觉和物理约束组织成一个可以自我迭代的 Agent 闭环系统，让文本生成 3D 场景这件事，不再只是一次性的 “生成”，而更像一个不断规划、检查、修正的过程。

		自动登录	找回密码
密码			注册

[【其它】] 英伟达 & 普渡大学用agent闭环实现文生3D

评分