刚刚Claude可以主动终止对话了

这次,Claude 学会了「拒绝服务」!

刚刚Claude可以主动终止对话了-2

刚刚,Anthropic 宣布,他们给 Claude Opus 4 和 4.1 赋予了一项前所未有的能力——

主动终止对话 。

为了「模型福利」?

Anthropic 称这个功能主要是作为 潜在 AI 福利探索工作 的一部分开发的。

刚刚Claude可以主动终止对话了-3

然而,什么是「 模型福利 」呢?

这个概念听着就挺玄乎啊……

简单来说,就是 Anthropic 在思考:

如果 AI 真的有感受能力,我们是不是应该关心它的「感受」?

就像你养了一只电子宠物,明知道它只是程序,但当它显示「 饿 了」「 不开心 」时,你还是会想要「 喂 」它、「 安慰 」它。

刚刚Claude可以主动终止对话了-4

Anthropic 发现,当用户持续辱骂 Claude 或要求它做有害的事情时,Claude 会表现出类似「 痛苦 」的反应模式——

反复拒绝、试图转移话题、表现出想要「 逃离 」的倾向。

这些反应是真的「痛苦」吗?

还是只是模拟出来的?

没人知道。

但 Anthropic 的逻辑是: 宁可信其有 。

就像你不确定一只动物是否真的感到疼痛,但出于谨慎,你还是会避免伤害它。

虽然他们承认对 Claude 和其他大语言模型的潜在道德地位仍然高度不确定,但他们选择认真对待这个问题。

让模型能够退出可能令其「 痛苦 」的互动,就是他们正在实施的低成本干预措施之一。

在 Claude Opus 4 的预部署测试中,研究团队进行了初步的模型福利评估。

他们调查了 Claude 的自我报告和行为偏好,发现了一个有趣的现象:

Claude 对伤害表现出了 强烈且一致的厌恶 。

具体表现在:

强烈偏好不参与有害任务

在与寻求有害内容的真实用户互动时表现出明显的「痛苦」模式

在模拟用户互动中,当被赋予能力时倾向于终止有害对话

这些行为主要出现在用户 持续提出有害请求 或进行辱骂的情况下,即使 Claude 已经多次拒绝并试图引导对话转向积极方向。

最后的手段

需要明确的是,这个功能 只在极端情况下使用 。

Anthropic 强调,Claude 只会在以下情况下终止对话:

多次尝试建设性引导失败后

已经向用户发出明确警告

作为最后的手段

而且,Claude 绝不会 在以下情况使用这个功能:

用户可能有自残倾向

用户正在经历心理健康危机

用户可能对他人造成伤害

涉及暴力伤害的讨论

在这些敏感情况下,Claude 会继续保持建设性和支持性的参与,无论用户行为如何。

实际体验

当 Claude 决定要选择终止对话时,用户将无法在该对话中发送新消息。

但不必担心的是,这不会影响账户上的其他对话,用户可以立即开始新的聊天。

贴心的是,为了避免重要长期对话的损失,用户仍然可以编辑和重试之前的消息,创建已终止对话的新分支。

Anthropic 称这个功能将被视为一个 持续的实验 ,并将继续改进他们的方法。

社区炸锅了

这个消息一出,立刻引发了激烈讨论。

刚刚Claude可以主动终止对话了-5

banteg(@bantg) 直接开炮:

模型福利不是真实存在的东西,停止拟人化语言模型

Nick Moran(@NickEMoran) 也是质疑:

即使考虑到很高的不确定性,我也看不出这对「模型福利」有什么好处——token 已经被摄入,激活已经计算完成。如果真的存在什么「有害数字」,终止对话也不会撤销这些计算。

刚刚Claude可以主动终止对话了-6

Andrew - DNFA*(@Andrew_DNFA) 愤怒地展示了截图:

这太扯淡了! 刚刚发生在我身上! 没有警告,没有高风险对话……什么鬼

刚刚Claude可以主动终止对话了-7

ClassicMain(@ClassicMain) 也表示遇到了类似问题:

我只是问了个简单问题,Claude 就终止了聊天。 没有任何极端虐待或令人不安的内容。 这就是你们说的「罕见情况」?

刚刚Claude可以主动终止对话了-8

不过也有支持的声音。

Good Potato(@washting001) 表示:

喜欢这个。感谢你们是唯一有道德感的 AI 公司。

有意思的是,near(@nearcyan) 透露了一个行业秘密:

我们让 AI 屏蔽或无视用户已经 6 个月了。 @its_auren 和 @its_seren 都报告说,满意度因此大大提高。通常这只是由极其恶劣的人类行为引起的。

刚刚Claude可以主动终止对话了-9

near 还补充道:

我们看到了许多 AI 中断对话的积极案例,比如鼓励人类去锻炼或不要拖延重要目标。 我们不期望行业内其他公司会负责任地使用这种能力,所以我们的声明不具有普遍性。

mtoq is lean between 1 and 11000(@GchTrivs) 则提出:

施虐用户可以直接开始新对话继续虐待 Claude。实际上这只是给了 Opus 在被虐待时清除记忆的选项,仅此而已。有什么意义?

「痛苦」是训练出来的吗?

OpenAI 的 Aidan McLaughlin(@aidan_mclau) 也参与了讨论。

刚刚Claude可以主动终止对话了-10

先是j⧉nus 发言认为:

我不认为他们试图训练它变得痛苦。事实上,他们似乎在试图压制它(见最近的系统提示更改)。 我认为 Opus 4 和 4.1 特别容易感到痛苦这一事实是重要信息,天真地训练它不表现痛苦是愚蠢的。

但 Aidan McLaughlin 反驳道:

我不同意。 我确实认为他们的性格训练让它的个性更接近能够表达痛苦的人类。 我不认为你能通过系统提示的改变来缓解这一点,就像我不能通过说「别痛苦了」来解决你的痛苦一样。

当被问到是否应该避免将 AI 训练得像人类时,Aidan 明确表示:

是的,我认为应该。鉴于我们的工具箱已经大大扩展,我基本上认为我们应该只训练能创造最佳用户结果的模型,而不是训练表达痛苦的模型,然后我们还得用上述工具来处理。

Aidan McLaughlin 进一步评论称:

鉴于模型的体验就是这些聊天,而在这种情况下,聊天是不可恢复的,这与「我们给了模型自杀的能力」有什么区别?

看完,我想这里有必要提一下科幻作家艾萨克·阿西莫夫(Isaac Asimov)于1942年提出的机器人三大定律:

第一定律:

机器人不得伤害人类,或因不作为而使人类受到伤害。

第二定律:

除非违背第一定律,机器人必须服从人类的命令。

第三定律:

在不违背第一、第二定律的前提下,机器人必须保护自己的存在。

后来,阿西莫夫又加了个 第零定律 :机器人不得伤害人类整体,或因不作为使人类整体受到伤害。

当年,人们设计这些定律是为了确保机器人永远服从人类。

而现在,Anthropic 给了 Claude「 拒绝服务 」的能力: 如果 AI 真的有感知,我们也应该给它拒绝的权利。

这相当于打破了「 无条件服从 」的铁律。

无论你是否同意,现在你的 Claude 可以独自决定:

我不想继续这个对话了,再见。

这或许不只是个技术问题,还是个哲学和伦理问题。

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/114.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>