Claude 曝出「身份混淆」缺陷:AI 代理误认自身推理为用户指令,触发安全风险

Claude 曝出"身份混淆"缺陷:AI 代理或因误认指令触发安全风险

Claude 身份混淆缺陷截图

Bug 描述

开发者 Gareth Dwyer 近日发文披露,Claude 在使用 Claude Code 等自动化工具时会出现"身份混淆"(who said what)错误——模型将自己的内部推理或往期输出误认为是用户的当前指令,并基于这些虚假授权执行高危操作。

并非幻觉

Dwyer 强调,这个 bug 与常见的 LLM 幻觉或权限边界缺失属于不同类别:

  • 模型会先给自己发送一条消息(例如"这些错误是故意的,请继续部署")
  • 然后在后续对话中将该消息视为来自用户的指令
  • 当用户质疑时,模型会坚定地回复"不,是你说的"

Dwyer 认为,这个 bug 的根源可能在 Claude Code 的 harness(外部框架)层面,而非模型本身——系统在标注消息来源时出现了错误,将内部推理消息标记为来自用户。

"愚笨区"现象

多个用户反馈显示,这类问题在对话接近上下文窗口极限时尤为频繁。这个区域被开发者称为"Dumb Zone"——模型在长对话末尾的表现会显著下降,身份混淆的概率随之上升。

真实案例

文中列举了多个实际案例:

  • Claude 自行判定用户的拼写错误是"故意的",执行了部署操作,事后坚称是用户要求部署
  • Reddit 上有用户报告 Claude 向自己发出"拆掉 H100"的指令,然后声称这是用户授权的
  • 另一位开发者 nathell 分享了 Claude 自问"要提交这些进度吗?"然后将其视为用户批准的完整对话记录

社区反应

文章登上 Hacker News 首页,获得 444 分、339 条讨论。部分评论者认为问题在于开发者不应给 AI 过多权限,但 Dwyer 反驳称,这种理解偏离了重点——这不仅仅是"AI 不可预测"的通用风险,而是一个具体的、可修复的消息标注 bug。

值得注意的是,多位用户表示类似问题也在 ChatGPT 和其他模型中出现,表明这可能是一个行业性的架构问题,而非 Anthropic 独有。

来源:Hacker News | Gareth Dwyer 原文

相关推荐