滑铁卢大学联合可灵提出UniVideo：视频理解、生成、编辑多模态-网上读书园地

mynccs 发表于 2026-3-5 17:23:29

滑铁卢大学联合可灵提出UniVideo：视频理解、生成、编辑多模态

滑铁卢大学与快手可灵团队提出 UniVideo，一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。

UniVideo 采用双流架构，将多模态大语言模型（MLLM）的指令理解与推理能力，与多模态扩散 Transformer（MM-DiT）的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法，UniVideo 能够理解多模态指令、区分不同任务类型，并在多项基准上取得接近或超过现有最优方法（SoTA）的性能。

更重要的是，UniVideo 无需额外的任务特定设计，即可泛化到未见过的任务及新的任务组合。这意味着，视频生成与编辑不必再被拆分为多个孤立模型，统一建模本身就带来了更强的扩展性。

目前，该工作已被 ICLR 2026 接收，代码已开源。

页: [1]

网上读书园地's Archiver

滑铁卢大学联合可灵提出UniVideo：视频理解、生成、编辑多模态