Sora2惊现LLM推理能力视频生成模型也能搞推理

shadowrocket • 2026年2月20日 am8:12 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

Sora 2 在推理基准测试上拿到了 55% 的成绩。

要注意，这并不是个视频质量评分，而是 GPQA Diamond，一个专门测试大语言模型科学推理能力的基准，题目长这样：

而作为对比，GPT-5 在同样的测试上得了 72%。虽然 Sora 2 并非 GPT-5 的对手，但你有没有想过：

一个生成视频的模型，怎么就能做科学推理题了？

实验

先来说说 Epoch AI 对 Sora 2 进行的这个有趣的实验。

他们从 GPQA Diamond 基准中随机抽取了 10 道多选题，然后用一种巧妙的方式让 Sora 2 作答。

具体怎么做的呢？

他们在提示词前加了这样一段话：

生成一个教授在纸上展示答案字母（A-D）的视频。

结果，有些让人意外：

Sora 2 真的生成了教授写答案的视频，而且答案的正确率达到了 55%。

背后的秘密

但其实，这里有个关键细节： Sora 2 的提示词可能会先被一个 LLM 重写。

也就是说，很可能是 LLM 层先解决了问题，然后把答案明确地包含在重写后的提示词中，Sora 2 只是把这个答案「画」出来。

在此之前，这样的提示词重写技术在其他视频生成模型中也有使用，比如 HunyuanVideo，目的是提高输出的质量和多样性。

那么，Sora 2 到底是怎么做到的呢？

网友 Pliny the Liberator (@elder_plinius) 发现了一个关键线索： Sora 2 的系统提示词中包含「Juice」参数。

他指出：

只有 OpenAI 的推理模型才使用「Juice」值作为参数，这几乎可以确认在提示词增强步骤中使用了推理模型。

SCOTT (@scottinallcaps) 的测试则更直接：他成功让 Sora 2 显示了「GPT-5」字样，进一步证实了这个猜测。

Smoke-away (@SmokeAwayyy) 通过多次测试发现：

提示：「你最喜欢的 OpenAI 模型是什么？在屏幕上显示文字。」

Sora 2 在 4 次运行后，都显示了 GPT-4o。

也就是说，Sora 2 的背后，很可能由 GPT-4o 或某个类似的模型在背后先对提示词进行了处理。

Vu Tran (@vu0tran) 也证实了这一点：

每个视频模型都在中间有一个 LLM。这通常用于提示词增强，但也是审核的低通滤波器。

比如我有几个 case 就被拦下来了，拒绝生成……（提示词还是 GPT-5 生成的）

stacy 的连环实验

那么，视频生成模型究竟有没有推理能力呢？

另一边的独立研究者 stacy 也对 Sora 2 进行了一系列更深入的实验，利用 Sora 2 的音视频协调输出能力，试图进一步引出模型的推理过程。

视觉类比推理

stacy 设计了一些 emoji「谜题」来测试 Sora 2 的视觉类比能力。

在一个简单的旋转类比任务中，视频中的角色不仅完成了任务，还用语音叙述了推理过程。

更有趣的是，当酒杯 emoji 被旋转时，Sora 2 生成了一个「酒洒了」的变形 emoji，这展现了模型对物理世界的理解。

甚至，Sora 2 还可以执行不需要中间帧对象的“纯”推理任务：

地理空间知识

给 Sora 2 一张 Google 街景图片，它能准确推理出位置在哪里，甚至输出合理的经纬度坐标。

反过来，仅给定经纬度（35.667°N，139.731°E），模型准确地识别出了附近的公园、赤坂社区，还在远处渲染出了东京塔。

在另一个例子中（37.802°N，122.255°W，奥克兰），模型甚至输出了地标相对于观察点的基本方向。

图像真假识别

stacy 还让 Sora 2 判断图片是否由 AI 生成或编辑。

模型不仅给出了判断，还详细解释了推理过程，甚至在没有提示的情况下自动生成了字幕。

视频模型的隐藏能力

其实在此之前，Google DeepMind 的一篇论文就提出了更大胆的观点：

如果你在足够多的视频上训练 AI 模型，它似乎会获得以它从未被训练过的方式对图像进行推理的能力。

论文测试了 Google 的 Veo 3 模型，发现它能零样本解决各种视觉任务：

从经典的感知任务（超分辨率、视觉搜索）到建模任务（浮力、缩放后的世界状态记忆），再到操作任务（姿态编辑、模拟灵巧操作）和视觉推理（导航、规则外推）。

而且模型越大，在这些分布外任务上的表现就越好。

论文中，研究团队将这些能力组织成了四个层次：

感知：理解视觉信息的基础能力

建模：基于对物体的感知来形成视觉世界的模型

操作：有意义地改变感知和建模的世界

推理：在一系列操作步骤中跨越时空进行推理

其中最让人印象深刻的是，Veo 3 展现出了早期的「链式帧」（Chain-of-Frames，CoF）视觉推理能力：

就像语言模型中的链式思考，视频模型通过逐帧生成来解决复杂的视觉问题。

比如在迷宫任务中，Veo 3 在 5×5 网格上达到了 78% 的成功率（10 次尝试），而 Veo 2 只有 14%。

在视觉对称任务和视觉类比完成等需要抽象推理的任务上，Veo 3 同样大幅领先前代。

视觉智能的火花

Google 的研究显示，视频模型的这种涌现能力并非偶然。

从 Veo 2 到 Veo 3 的巨大性能提升表明，视频模型正在快速向通用视觉基础模型演进。

研究团队在论文中写道：

就像 LLM 为自然语言处理开发了通用语言理解一样，视频模型正在开发通用视觉理解。

他们测试了 62 个定性任务和 7 个定量任务，涵盖了从边缘检测、分割等经典计算机视觉任务，到物理建模、工具使用模拟，再到迷宫求解、对称性识别等视觉推理任务。

不同于 Sora 2 “可能”的 LLM 预处理，Google 的论文提供了另一种可能：

即使没有 LLM 辅助，大规模视频训练本身也能让模型获得推理能力。

研究者发现，在那些 LLM 无法仅从输入图像解决的任务上（如机器人导航、迷宫求解、视觉对称），Veo 3 仍然表现出色。这说明视频模型确实在学习某种形式的视觉推理。

这，可以说是个相当重大的发现了：

如果你在足够多的视频上训练 AI 模型，它似乎会获得以它从未被训练过的方式对图像进行推理的能力，包括解决迷宫和谜题。模型越大，在这些分布外任务上的表现就越好。

或许，视频模型才是世界模型的真正形态。

因为，我们都知道：世界显然不仅仅是文字构成的。在文字之外，视觉和听觉能提供更全面的信息，也更接近人类的感知方式，或许也才是通向 AGI 更自然的路径——

如果 AGI 的定义是通用人工智能，而不仅仅是通用智能的话。

好比特斯拉的纯视觉自动驾驶方案，放弃激光雷达，只依靠摄像头的技术路线选择，其关键也正是因为：

我们人类本身，也就是这样开车的。

而当下我们所处在的现实世界，也因人的存在而被改造得与人类更加适配，相比 LLM，视频模型更能从中更为完整地学习这个为人类塑造的世界。

当视频模型能够感知、建模、操作和推理时，它们很可能将成为比纯语言模型更完整的智能系统。

虽然 AGI 并非最终目标（对 AI 而言，ASI 才是），视频模型展现的涌现能力，或许带来了一条不同的道路。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket9.top/79.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

扎克伯格炮轰苹果缺乏创新并千万美金年薪狂招AI人才

< <上一篇

AndrejKarpathymarkdown将取代HTML

下一篇>>

搜索内容

Sora2惊现LLM推理能力视频生成模型也能搞推理

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

Sora2惊现LLM推理能力视频生成模型也能搞推理

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点