滑铁卢大学联合可灵提出UniVideo:视频理解、生成、编辑多模态
滑铁卢大学与快手可灵团队提出 UniVideo,一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。UniVideo 采用双流架构,将多模态大语言模型(MLLM)的指令理解与推理能力,与多模态扩散 Transformer(MM-DiT)的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法,UniVideo 能够理解多模态指令、区分不同任务类型,并在多项基准上取得接近或超过现有最优方法(SoTA)的性能。
更重要的是,UniVideo 无需额外的任务特定设计,即可泛化到未见过的任务及新的任务组合。这意味着,视频生成与编辑不必再被拆分为多个孤立模型,统一建模本身就带来了更强的扩展性。
目前,该工作已被 ICLR 2026 接收,代码已开源。
页:
[1]