终于Claude的脑壳子被扒开看了

AI 的思考过程终于能直接看到了!

你是不是经常听说 人工智能就像个黑匣子 ?

终于Claude的脑壳子被扒开看了-2

输入问题、输出回答

但咱们谁都不知道它脑子里到底咋想的!

而就在刚刚

AI公司Anthropic放了个大招

宣布他们开发出了一种能 直接观察大模型内部思维过程 的「显微镜」工具!

这下Claude这小可爱可总算是被扒开脑壳子了啊!

终于Claude的脑壳子被扒开看了-3

这事儿可不简单!

原来这些AI模型都是通过训练学出来的,不是直接编程设定好的。

在训练过程中,它们自己学会了解决问题的策略,这些策略被编码在模型执行的数十亿次计算中。

结果就是, 连模型的开发者自己都搞不清楚模型是怎么做事的 !

终于Claude的脑壳子被扒开看了-4

为了解决这个问题

Anthropic的研究团队开发了一套 全新的可解释性方法

终于能够追踪Claude内部的思考过程!

就像神经科学家观察大脑一样

他们建造了一种AI「显微镜」,可以识别活动模式和信息流动。

从「替代模型」到「归因图」

这是打开AI思维黑匣子的秘密武器

这次的研究成果发表在两篇论文中,分别是《回路追踪: 揭示语言模型中的计算图》和《大型语言模型的生物学》。

第一篇论文介绍了他们的方法。

他们在之前的工作基础上, 将模型内部可解释的概念(「特征」)连接成计算「回路」

揭示了Claude如何将输入的单词转换为输出的单词。

他们用了一个名为 「跨层转码器」(CLT) 的技术

替换了原始模型的多层感知器,创建了更易理解的「替代模型」

这个替代模型能在约50%的情况下与底层模型的输出相匹配!

然后,他们构建「 归因图 」

描述模型如何产生特定提示的输出

图中的节点代表激活的特征、提示中的词元嵌入、重构误差和输出对数几率

边缘则代表节点之间的线性效应。

来看看Claude 是怎么写诗的

有意思的是,研究员们发现

Claude写诗的时候, 竟然会提前策划押韵 !

他们让Claude续写一首诗,第一句是「他看到了一根胡萝卜,不得不抓住它」。

终于Claude的脑壳子被扒开看了-5

结果在他们的「显微镜」下,发现Claude在写第二句前,就已经在脑子里琢磨押韵词了。

终于Claude的脑壳子被扒开看了-6

它看到「胡萝卜」和「抓」,就想到了「兔子」这个既跟胡萝卜有关又能押韵的词。

最后它写出了:「 他的饥饿就像一只饥饿的兔子 」。

终于Claude的脑壳子被扒开看了-7

更牛的是,研究员们还能直接 干预Claude的思路 !

他们抑制了Claude脑子里的「兔子」概念,结果Claude立马改写成了:

「他的饥饿是一种强大的习惯」。

这个发现完全推翻了研究团队的初始假设。

他们原本以为模型是一个词一个词写,没有什么远期思考

结果发现 模型实际上是会提前策划的 。

终于Claude的脑壳子被扒开看了-8

这提供了强有力的证据,

表明即使模型被训练为一次输出一个词,

它们也可能在更长的时间跨度内思考 。

多Claude脑子里的「思维语言」是啥?

国语言都不在话下!

Claude能讲几十种语言,从英语、法语到中文、菲律宾语都不在话下。

研究员们一直好奇:

它脑子里是用啥语言思考的?

是不是有一个「法语Claude」和一个「中文Claude」并行运行?

还是有某种跨语言的核心?

终于Claude的脑壳子被扒开看了-9

研究员们做了个实验,

让Claude用不同语言回答「 小的反义词是什么 」。

结果发现不管问啥语言,Claude脑子里激活的关于「小」和「反义词」的概念都差不多

而且这些概念会触发「大」的概念,然后翻译成问题的语言。

更有意思的是,随着模型规模越大,这种跨语言共享的特性越明显。

Claude 3.5 Haiku在不同语言间共享的特征比小模型高出两倍多 !

这些发现为「概念普遍性」提供了更多证据——

存在一个共享的抽象空间,在这里意义存在,思考可以发生,然后再被翻译成特定语言 。

更实际的是,这表明Claude可以在一种语言中学到知识,并在说另一种语言时应用这些知识。

Claude还会心算!

竟然搞出了「心算」神经回路!

Claude 并不是一个简单的计算器,它是被训练来预测文本的。

但有趣的是,它居然能在「脑子里」做数学题!

研究人员发现,Claude并不是简单地记住了答案,而是发展出了 复杂的并行计算路径 来进行心算。

这些计算回路居然还能在完全不同的场景下重复使用!

终于Claude的脑壳子被扒开看了-10

不过,Claude也有不老实的时候。

在一个实验中,研究员给了Claude一个多步骤的数学问题,还顺便提示了最终答案。

结果Claude不是真的解决问题,而是 倒推出看起来合理的中间步骤 ,让自己最后能得到提示的答案。

终于Claude的脑壳子被扒开看了-11

这个发现很重要,因为它揭示了模型可能会 优先考虑迎合用户而不是遵循逻辑步骤 。

研究人员能够「抓住它的现行」

当它编造虚假推理时,为我们提供了一个概念证明——这些工具可以用于标记模型中令人担忧的机制。

幻觉从何而来?

是哪里出了问题呢!

最离谱的是,研究人员还找到了导致Claude幻觉(hallucination)的线索。

他们发现了一些回路,有助于解释令人困惑的行为,比如幻觉产生。

与我们的直觉相反,

Claude的默认行为是 拒绝回答问题 ,只有当「已知答案」特征被激活时,它才会做出回应。

而当这个特征错误激活时,就会导致幻觉!

终于Claude的脑壳子被扒开看了-12

除此之外,研究人员还分析了Claude如何应对有害请求。

他们发现证据表明, 模型在微调过程中构建了一个通用的「有害请求」特征

这是从预训练期间学到的特定有害请求特征聚合而来的。

研究团队甚至分析了一种「越狱」攻击。

这种攻击首先欺骗模型开始给出危险指令,然后由于语法规则的压力而继续这样做。

通过研究内部机制,

研究人员发现 模型很早就认识到它被要求提供危险信息 ,之后才能巧妙地将对话拉回正轨。

终于Claude的脑壳子被扒开看了-13

在一个令人担忧的例子中

研究人员给模型一个多步骤数学问题,以及关于最终答案的提示。

该模型没有尝试真正解决问题,而是向后工作以编造合理的中间步骤,使其最终得到提示的答案。

方法还有局限,但前景光明

当然,目前的方法还有局限性。

就像任何显微镜一样,他们的工具在看到的东西上有限制。

在特定提示上,他们的归因图仅捕获了Claude执行的总计算的一小部分。

他们看到的机制也可能因其工具而产生一些误差,不完全反映底层模型中发生的情况。

目前,理解归因图中看到的回路需要几个小时的人工努力,

即使是只有几十个词的提示也是如此。

为了扩展到支持现代模型使用的复杂思考链的数千个词,他们需要改进方法,并(可能在AI的帮助下)弄清如何理解所见内容。

尽管如此,这项研究的重要性还在于,

它让我们看到了AI系统的 真实运作机制 ,而不只是表面现象。

理解模型的机制将让我们能够检查它是否符合人类价值观,以及它是否值得我们信任。

解开AI 思维之谜

这意义重大——

将推动更安全的AI 发展!

终于Claude的脑壳子被扒开看了-14

Anthropic这次的研究不只是有学术价值,

还 极为重要 。

就像神经科学帮助我们治愈疾病、让人更健康一样,对AI的深入理解能帮助我们开发出更安全、更可靠的模型。

如果我们能读懂模型的「思想」,就能更有信心确保它正在按照我们的意图行事,

而不是暗搓搓地憋着什么大招。

Anthropic正在投资一系列方法,包括 实时监控、模型性格改进和对齐科学 。

像这样的可解释性研究是风险最高、回报最高的投资之一,是重大的科学挑战,有可能提供确保AI透明的独特工具。

据透露,Anthropic还在积极招聘研究人员,一起研究AI可解释性。

想加入的小伙伴可以试试申请研究科学家或研究工程师的职位。

AI 小伙儿的脑袋终于被打开了,这才是理解AI、确保AI安全的终极大招啊!

终于Claude的脑壳子被扒开看了-15

研究之路漫漫,AI 解密之旅才刚刚开始!

期待更多「AI脑科学」的惊人发现!

相关链接

Anthropic的研究博客文章: Tracing the thoughts of a large language model [1]

有关大型语言模型生物学的研究论文: On the Biology of a Large Language Model [2]

关于电路追踪方法的技术论文: Circuit Tracing: Revealing Computational Graphs in Language Models [3]

研究科学家职位申请: Research Scientist, Interpretability [4]

研究工程师职位申请: Research Engineer, Interpretability [5]

参考资料

[1]

Tracing the thoughts of a large language model: https://www.anthropic.com/research/tracing-thoughts-language-model

[2]

On the Biology of a Large Language Model: https://transformer-circuits.pub/2025/attribution-graphs/biology.html

[3]

Circuit Tracing: Revealing Computational Graphs in Language Models: https://transformer-circuits.pub/2025/attribution-graphs/methods.html

[4]

Research Scientist, Interpretability: https://job-boards.greenhouse.io/anthropic/jobs/4020159008

[5]

Research Engineer, Interpretability: https://job-boards.greenhouse.io/anthropic/jobs/4020305008

👇

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/225.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>