找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 48|回复: 0

[【其它】] 英伟达 & 普渡大学用agent闭环实现文生3D

[复制链接]
发表于 2026-5-13 09:59:32 来自手机 | 显示全部楼层 |阅读模式
大模型正在从 “会说会写” 走向 “会规划、会执行” 的 Agent 时代。对具身智能来说,这种变化尤其关键。因为真正限制机器人和智能体能力上限的,很多时候并不是算法本身,而是现实世界中过高的试错成本:一次抓取失败、一次路径规划失误,代价都远高于在虚拟环境中的反复迭代。也正因如此,一个物理合理、结构真实、能够支撑交互和仿真的 3D 世界,正变得越来越重要。

从一句文本描述直接生成一个真正 “能用” 的三维场景,远比生成几张好看的图片更难。一个场景是否可用,不仅取决于里面有没有桌子、椅子和书架,而且取决于这些物体之间的关系是否合理:杯子能不能真正放在桌面上,书能不能被摆进书架里,椅子是不是面向一个符合使用常识的位置,整个空间会不会出现穿插、漂浮和不稳定支撑。换句话说,3D 场景生成最难的地方,从来不是 “生成资产”,而是让空间关系看起来像真实世界,并且真的能够服务于交互、仿真和具身智能任务。

围绕这一问题,来自英伟达 Cosmos Lab 与普渡大学的研究者提出了 Scenethesis(ICLR 2026)。与其过拟合小样本的 3D 场景数据,他们换了一个思路:把语言、视觉和物理约束组织成一个可以自我迭代的 Agent 闭环系统,让文本生成 3D 场景这件事,不再只是一次性的 “生成”,而更像一个不断规划、检查、修正的过程。

评分

2

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-5-31 07:55 , Processed in 0.091572 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表