Anthropic宣布为Claude赋予“结束聊天”能力,以应对极少数用户

小嗯聊科技 2025-08-17 22:42:04

Anthropic 宣布为 Claude 赋予“结束聊天”能力,以应对极少数用户不怀好意的情况

人工智能公司 Anthropic 昨日宣布为 Claude Opus 4 与 Claude Opus 4.1 推出新功能:在极少数情况下,模型可主动结束对话。

该功能主要针对持续性的有害或辱骂性互动,典型案例类似用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic 表示此举并非为了保护人类用户,而是为了保护 AI 模型本身,同时也与模型对齐和安全措施相关。

Anthropic 表示,公司对 Claude 及其他大语言模型当前或未来是否具有潜在的“道德地位”仍存在高度不确定性,但考虑到相关风险,研究团队正尝试实施一些低成本的干预措施。

需要明确的是,该公司并未声称其 Claude AI 模型具有感知能力,或会因其与用户的对话而受到伤害。

在 Claude Opus 4 的部署前测试中,研究人员进行了初步的模型评估。他们调查了模型的自我报告和行为偏好,发现 Claude 在多项情况下表现出稳定且一致的“回避伤害”倾向。戚薇大方承认医美过度

0 阅读:8
小嗯聊科技

小嗯聊科技

感谢大家的关注