论文 · 2026-04-23

▸ 263 篇 · updated 3m ago

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 274282930

2026-04-23 · 星期四2026年4月23日

17:59

4d ago

FEATUREDarXiv · cs.AI· atomEN17:59 · 04·23

Seeing Fast and Slow：视频时间流动学习研究

论文提出自监督视频模型，用多模态线索和时序结构检测变速并估计播放速度。作者还用该模型从野外数据筛出“目前最大”的慢动作视频集，并训练按速度条件生成视频与时间超分；数据集规模、指标和基线对比正文摘录未披露。

#Vision#Multimodal#Benchmarking#Research release

精选理由

HKR-H 和 HKR-K 成立：题目把“视频理解时间流速”做成了清晰钩子，正文也确认了自监督框架会用多模态线索与时序结构检测变速、估计播放速度。HKR-R 偏弱，因为摘录没给数据集规模、指标和基线结果，行业讨论点不够强，所以定为 all。

编辑点评

论文用自监督模型识别变速并筛慢动作数据集，但正文没给规模和基线；这条方向很对，证据还不够硬。

深度解读

论文提出自监督视频模型，学习检测变速并估计播放速度；正文未披露数据集规模、评测指标和基线结果。先把判断放前面：我觉得这条路子是对的，而且比又一个文生视频配方更有研究价值。视频模型这两年一直在吃空间分辨率、吃压缩表征、吃更长上下文，可“时间到底过得多快”这件事，很多系统其实没学明白。你让模型补帧、控运动幅度、做世界模型推演，最后都会撞上同一个问题：训练数据里的时间流速并不干净，快放、慢放、剪辑、变帧率混在一起，模型学到的常是伪物理规律。这篇工作的好处，在于它先做一个更底层的感知任务：判断视频有没有被调速、现在是什么播放速度。这个设定比直接做生成更扎实，因为它逼模型利用动作频率、运动模糊、音画同步、事件持续时间这类多模态线索。我一直觉得，视频领域缺的不是再多一个 DiT 变体，而是把“时间标注”从隐变量拉成显变量。去年不少视频生成工作已经在谈 motion bucket、fps conditioning、camera trajectory control，但很多控制量只是训练时的人造标签，不一定对应真实时间结构。这里如果真能从野外视频里自监督学出速度感，再反过来筛出高质量慢动作数据，价值会比表面上看起来大。我也得泼点冷水。作者说筛出了“目前最大”的慢动作视频集，可最大不等于最好。慢动作素材很容易被手机插帧、平台转码、后期速度曲线污染。要是没有严格的来源过滤，高速相机真慢动作会和算法补帧假慢动作混在一起，最后模型学到的是压缩伪影，不是细粒度时序。我还没看到他们怎么验证这一点。标题给了方向，正文摘录没给关键证据。还有一个背景，文章里没展开：OpenAI Sora、Runway、Pika、Luma 这类系统过去一年都在强调更长视频和更稳运动，但“速度可控”始终没成为主卖点。我看不是因为它不重要，而是因为这件事比调镜头难，数据也脏得多。谁先把时间流速这层表征学扎实，谁在补帧、视频修复、取证检测、机器人预测上都会占便宜。前提还是老话：把 benchmark、误差分布、数据清洗规则拿出来，不然这条很容易停在一个好叙事。

HKR 分解

hook ✓knowledge ✓resonance —

论文 · 2026-04-23

更多

频道

后台