找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 32|回复: 0

[【其它】] 小红书Video-Thinker破解视频推理困局

[复制链接]
发表于 2026-1-4 20:36:35 来自手机 | 显示全部楼层 |阅读模式
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而是学会了主动定位与思考。

然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间序列的自主导航与深度理解能力,导致模型在处理长视频或复杂逻辑时显得捉襟见肘。

为攻克这一难题,来自小红书的研究团队提出了 Video-Thinker:一种全新的 “Thinking with Videos” 范式,旨在通过强化学习激发 MLLM 在视频推理中的内生智能。

与传统方法不同,Video-Thinker 不依赖构建和调用外部工具,而是将 “时序定位(Grounding)” 与 “视觉描述(Captioning)” 这两种核心能力内化在模型的思维链(CoT)中,使其能在推理过程中自主寻找关键帧并提取视觉线索。

团队精心构建了包含 10K 高质量样本的 Video-Thinker-10K 数据集,并采用 “监督微调 + 强化学习” 的两阶段训练策略。这一方法成功让模型在无外部辅助的情况下,实现了对视频内容的自主探索与自我修正。

评分

1

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-1-29 14:39 , Processed in 0.090571 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表