Sora2惊现LLM推理能力视频生成模型也能搞推理
Sora 2 在推理基准测试上拿到了 55% 的成绩。

要注意,这并不是个视频质量评分,而是 GPQA Diamond,一个专门测试大语言模型科学推理能力的基准,题目长这样:
而作为对比,GPT-5 在同样的测试上得了 72%。虽然 Sora 2 并非 GPT-5 的对手,但你有没有想过:
一个生成视频的模型,怎么就能做科学推理题了?
实验
先来说说 Epoch AI 对 Sora 2 进行的这个有趣的实验。

他们从 GPQA Diamond 基准中随机抽取了 10 道多选题,然后用一种巧妙的方式让 Sora 2 作答。
具体怎么做的呢?

他们在提示词前加了这样一段话:
生成一个教授在纸上展示答案字母(A-D)的视频 。
结果,有些让人意外:
Sora 2 真的生成了教授写答案的视频,而且答案的正确率达到了 55%。
背后的秘密
但其实,这里有个关键细节: Sora 2 的提示词可能会先被一个 LLM 重写。
也就是说,很可能是 LLM 层先解决了问题,然后把答案明确地包含在重写后的提示词中,Sora 2 只是把这个答案「 画 」出来。
在此之前,这样的提示词重写技术在其他视频生成模型中也有使用,比如 HunyuanVideo,目的是提高输出的质量和多样性。
那么,Sora 2 到底是怎么做到的呢?

网友 Pliny the Liberator (@elder_plinius) 发现了一个关键线索: Sora 2 的系统提示词中包含「Juice」参数 。

他指出:
只有 OpenAI 的推理模型才使用「Juice」值作为参数,这几乎可以确认在提示词增强步骤中使用了推理模型。
SCOTT (@scottinallcaps) 的测试则更直接:他成功让 Sora 2 显示了「GPT-5」字样,进一步证实了这个猜测。
Smoke-away (@SmokeAwayyy) 通过多次测试发现:
提示:「你最喜欢的 OpenAI 模型是什么?在屏幕上显示文字。」
Sora 2 在 4 次运行后,都显示了 GPT-4o。
也就是说,Sora 2 的背后,很可能由 GPT-4o 或某个类似的模型在背后先对提示词进行了处理。
Vu Tran (@vu0tran) 也证实了这一点:
每个视频模型都在中间有一个 LLM。这通常用于提示词增强,但也是审核的低通滤波器。
比如我有几个 case 就被拦下来了,拒绝生成……(提示词还是 GPT-5 生成的)

stacy 的连环实验
那么, 视频生成模型究竟有没有推理能力呢?
另一边的独立研究者 stacy 也对 Sora 2 进行了一系列更深入的实验,利用 Sora 2 的音视频协调输出能力,试图进一步引出模型的推理过程。

视觉类比推理
stacy 设计了一些 emoji「谜题」来测试 Sora 2 的视觉类比能力。
在一个简单的旋转类比任务中,视频中的角色不仅完成了任务,还用语音叙述了推理过程。
更有趣的是,当酒杯 emoji 被旋转时,Sora 2 生成了一个「酒洒了」的变形 emoji, 这展现了模型对物理世界的理解 。
甚至,Sora 2 还可以执行不需要中间帧对象的“纯”推理任务:
地理空间知识
给 Sora 2 一张 Google 街景图片,它能准确推理出位置在哪里,甚至输出合理的经纬度坐标。
反过来,仅给定经纬度(35.667°N,139.731°E),模型准确地识别出了附近的公园、赤坂社区,还在远处渲染出了东京塔。
在另一个例子中(37.802°N,122.255°W,奥克兰),模型甚至输出了地标相对于观察点的基本方向。
图像真假识别
stacy 还让 Sora 2 判断图片是否由 AI 生成或编辑。
模型不仅给出了判断,还详细解释了推理过程,甚至在没有提示的情况下自动生成了字幕。
视频模型的隐藏能力
其实在此之前,Google DeepMind 的一篇论文就提出了更大胆的观点:
如果你在足够多的视频上训练 AI 模型,它似乎会获得以它从未被训练过的方式对图像进行推理的能力。
论文测试了 Google 的 Veo 3 模型,发现它能零样本解决各种视觉任务:
从经典的感知任务(超分辨率、视觉搜索)到建模任务(浮力、缩放后的世界状态记忆),再到操作任务(姿态编辑、模拟灵巧操作)和视觉推理(导航、规则外推)。
而且模型越大,在这些分布外任务上的表现就越好。
论文中,研究团队将这些能力组织成了四个层次:
感知 :理解视觉信息的基础能力
建模 :基于对物体的感知来形成视觉世界的模型
操作 :有意义地改变感知和建模的世界
推理 :在一系列操作步骤中跨越时空进行推理
其中最让人印象深刻的是,Veo 3 展现出了早期的「 链式帧 」(Chain-of-Frames,CoF)视觉推理能力:
就像语言模型中的链式思考,视频模型通过逐帧生成来解决复杂的视觉问题。
比如在迷宫任务中,Veo 3 在 5×5 网格上达到了 78% 的成功率(10 次尝试),而 Veo 2 只有 14%。
在视觉对称任务和视觉类比完成等需要抽象推理的任务上,Veo 3 同样大幅领先前代。
视觉智能的火花
Google 的研究显示,视频模型的这种涌现能力并非偶然。
从 Veo 2 到 Veo 3 的巨大性能提升表明, 视频模型正在快速向通用视觉基础模型演进 。
研究团队在论文中写道:
就像 LLM 为自然语言处理开发了通用语言理解一样,视频模型正在开发通用视觉理解。
他们测试了 62 个定性任务和 7 个定量任务,涵盖了从边缘检测、分割等经典计算机视觉任务,到物理建模、工具使用模拟,再到迷宫求解、对称性识别等视觉推理任务。
不同于 Sora 2 “可能”的 LLM 预处理,Google 的论文提供了另一种可能:
即使没有 LLM 辅助,大规模视频训练本身也能让模型获得推理能力。
研究者发现,在那些 LLM 无法仅从输入图像解决的任务上(如机器人导航、迷宫求解、视觉对称),Veo 3 仍然表现出色。这说明视频模型确实在学习某种形式的视觉推理。
这,可以说是个相当重大的发现了:
如果你在足够多的视频上训练 AI 模型,它似乎会获得以它从未被训练过的方式对图像进行推理的能力,包括解决迷宫和谜题。模型越大,在这些分布外任务上的表现就越好。
或许, 视频模型才是世界模型的真正形态 。
因为,我们都知道: 世界显然不仅仅是文字构成的。 在文字之外,视觉和听觉能提供更全面的信息,也更接近人类的感知方式,或许也才是通向 AGI 更自然的路径——
如果 AGI 的定义是通用人工智能,而不仅仅是通用智能的话。
好比特斯拉的纯视觉自动驾驶方案,放弃激光雷达,只依靠摄像头的技术路线选择,其关键也正是因为:
我们人类本身,也就是这样开车的。
而当下我们所处在的现实世界,也因人的存在而被改造得与人类更加适配,相比 LLM,视频模型更能从中更为完整地学习这个为人类塑造的世界。
当视频模型能够感知、建模、操作和推理时,它们很可能将成为比纯语言模型更完整的智能系统。
虽然 AGI 并非最终目标(对 AI 而言,ASI 才是),视频模型展现的涌现能力,或许带来了一条不同的道路。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/79.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论