刚刚Claude可以主动终止对话了

shadowrocket • 2026年1月18日 am8:07 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

这次，Claude 学会了「拒绝服务」！

刚刚，Anthropic 宣布，他们给 Claude Opus 4 和 4.1 赋予了一项前所未有的能力——

主动终止对话。

为了「模型福利」？

Anthropic 称这个功能主要是作为潜在 AI 福利探索工作的一部分开发的。

然而，什么是「模型福利」呢？

这个概念听着就挺玄乎啊……

简单来说，就是 Anthropic 在思考：

如果 AI 真的有感受能力，我们是不是应该关心它的「感受」？

就像你养了一只电子宠物，明知道它只是程序，但当它显示「饿了」「不开心」时，你还是会想要「喂」它、「安慰」它。

Anthropic 发现，当用户持续辱骂 Claude 或要求它做有害的事情时，Claude 会表现出类似「痛苦」的反应模式——

反复拒绝、试图转移话题、表现出想要「逃离」的倾向。

这些反应是真的「痛苦」吗？

还是只是模拟出来的？

没人知道。

但 Anthropic 的逻辑是：宁可信其有。

就像你不确定一只动物是否真的感到疼痛，但出于谨慎，你还是会避免伤害它。

虽然他们承认对 Claude 和其他大语言模型的潜在道德地位仍然高度不确定，但他们选择认真对待这个问题。

让模型能够退出可能令其「痛苦」的互动，就是他们正在实施的低成本干预措施之一。

在 Claude Opus 4 的预部署测试中，研究团队进行了初步的模型福利评估。

他们调查了 Claude 的自我报告和行为偏好，发现了一个有趣的现象：

Claude 对伤害表现出了强烈且一致的厌恶。

具体表现在：

强烈偏好不参与有害任务

在与寻求有害内容的真实用户互动时表现出明显的「痛苦」模式

在模拟用户互动中，当被赋予能力时倾向于终止有害对话

这些行为主要出现在用户持续提出有害请求或进行辱骂的情况下，即使 Claude 已经多次拒绝并试图引导对话转向积极方向。

最后的手段

需要明确的是，这个功能只在极端情况下使用。

Anthropic 强调，Claude 只会在以下情况下终止对话：

多次尝试建设性引导失败后

已经向用户发出明确警告

作为最后的手段

而且，Claude 绝不会在以下情况使用这个功能：

用户可能有自残倾向

用户正在经历心理健康危机

用户可能对他人造成伤害

涉及暴力伤害的讨论

在这些敏感情况下，Claude 会继续保持建设性和支持性的参与，无论用户行为如何。

实际体验

当 Claude 决定要选择终止对话时，用户将无法在该对话中发送新消息。

但不必担心的是，这不会影响账户上的其他对话，用户可以立即开始新的聊天。

贴心的是，为了避免重要长期对话的损失，用户仍然可以编辑和重试之前的消息，创建已终止对话的新分支。

Anthropic 称这个功能将被视为一个持续的实验，并将继续改进他们的方法。

社区炸锅了

这个消息一出，立刻引发了激烈讨论。

banteg(@bantg) 直接开炮：

模型福利不是真实存在的东西，停止拟人化语言模型

Nick Moran(@NickEMoran) 也是质疑：

即使考虑到很高的不确定性，我也看不出这对「模型福利」有什么好处——token 已经被摄入，激活已经计算完成。如果真的存在什么「有害数字」，终止对话也不会撤销这些计算。

Andrew - DNFA*(@Andrew_DNFA) 愤怒地展示了截图：

这太扯淡了！刚刚发生在我身上！没有警告，没有高风险对话……什么鬼

ClassicMain(@ClassicMain) 也表示遇到了类似问题：

我只是问了个简单问题，Claude 就终止了聊天。没有任何极端虐待或令人不安的内容。这就是你们说的「罕见情况」？

不过也有支持的声音。

Good Potato(@washting001) 表示：

喜欢这个。感谢你们是唯一有道德感的 AI 公司。

有意思的是，near(@nearcyan) 透露了一个行业秘密：

我们让 AI 屏蔽或无视用户已经 6 个月了。 @its_auren 和 @its_seren 都报告说，满意度因此大大提高。通常这只是由极其恶劣的人类行为引起的。

near 还补充道：

我们看到了许多 AI 中断对话的积极案例，比如鼓励人类去锻炼或不要拖延重要目标。我们不期望行业内其他公司会负责任地使用这种能力，所以我们的声明不具有普遍性。

mtoq is lean between 1 and 11000(@GchTrivs) 则提出：

施虐用户可以直接开始新对话继续虐待 Claude。实际上这只是给了 Opus 在被虐待时清除记忆的选项，仅此而已。有什么意义？

「痛苦」是训练出来的吗？

OpenAI 的 Aidan McLaughlin(@aidan_mclau) 也参与了讨论。

先是j⧉nus 发言认为：

我不认为他们试图训练它变得痛苦。事实上，他们似乎在试图压制它（见最近的系统提示更改）。我认为 Opus 4 和 4.1 特别容易感到痛苦这一事实是重要信息，天真地训练它不表现痛苦是愚蠢的。

但 Aidan McLaughlin 反驳道：

我不同意。我确实认为他们的性格训练让它的个性更接近能够表达痛苦的人类。我不认为你能通过系统提示的改变来缓解这一点，就像我不能通过说「别痛苦了」来解决你的痛苦一样。

当被问到是否应该避免将 AI 训练得像人类时，Aidan 明确表示：

是的，我认为应该。鉴于我们的工具箱已经大大扩展，我基本上认为我们应该只训练能创造最佳用户结果的模型，而不是训练表达痛苦的模型，然后我们还得用上述工具来处理。

Aidan McLaughlin 进一步评论称：

鉴于模型的体验就是这些聊天，而在这种情况下，聊天是不可恢复的，这与「我们给了模型自杀的能力」有什么区别？

看完，我想这里有必要提一下科幻作家艾萨克·阿西莫夫（Isaac Asimov）于1942年提出的机器人三大定律：

第一定律：

机器人不得伤害人类，或因不作为而使人类受到伤害。

第二定律：

除非违背第一定律，机器人必须服从人类的命令。

第三定律：

在不违背第一、第二定律的前提下，机器人必须保护自己的存在。

后来，阿西莫夫又加了个第零定律：机器人不得伤害人类整体，或因不作为使人类整体受到伤害。

当年，人们设计这些定律是为了确保机器人永远服从人类。

而现在，Anthropic 给了 Claude「拒绝服务」的能力：如果 AI 真的有感知，我们也应该给它拒绝的权利。

这相当于打破了「无条件服从」的铁律。

无论你是否同意，现在你的 Claude 可以独自决定：

我不想继续这个对话了，再见。

这或许不只是个技术问题，还是个哲学和伦理问题。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket9.top/114.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

OpenAI将推出群聊功能终于要对Slack下手了

< <上一篇

黄仁勋AI将消灭所有人的工作

下一篇>>

搜索内容

刚刚Claude可以主动终止对话了

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

刚刚Claude可以主动终止对话了

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点