找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 36|回复: 0

[【其它】] 滑铁卢大学联合可灵提出UniVideo:视频理解、生成、编辑多模态

[复制链接]
发表于 2026-3-5 17:23:29 来自手机 | 显示全部楼层 |阅读模式
滑铁卢大学与快手可灵团队提出 UniVideo,一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。

UniVideo 采用双流架构,将多模态大语言模型(MLLM)的指令理解与推理能力,与多模态扩散 Transformer(MM-DiT)的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法,UniVideo 能够理解多模态指令、区分不同任务类型,并在多项基准上取得接近或超过现有最优方法(SoTA)的性能。

更重要的是,UniVideo 无需额外的任务特定设计,即可泛化到未见过的任务及新的任务组合。这意味着,视频生成与编辑不必再被拆分为多个孤立模型,统一建模本身就带来了更强的扩展性。

目前,该工作已被 ICLR 2026 接收,代码已开源。

评分

1

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-3-14 14:59 , Processed in 0.090243 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表