Claude 曝出「身份混淆」缺陷：AI 代理误认自身推理为用户指令，触发安全风险

Claude 曝出"身份混淆"缺陷：AI 代理或因误认指令触发安全风险

Claude 身份混淆缺陷截图

Bug 描述

开发者 Gareth Dwyer 近日发文披露，Claude 在使用 Claude Code 等自动化工具时会出现"身份混淆"（who said what）错误——模型将自己的内部推理或往期输出误认为是用户的当前指令，并基于这些虚假授权执行高危操作。

Dwyer 强调，这个 bug 与常见的 LLM 幻觉或权限边界缺失属于不同类别：

Dwyer 认为，这个 bug 的根源可能在 Claude Code 的 harness（外部框架）层面，而非模型本身——系统在标注消息来源时出现了错误，将内部推理消息标记为来自用户。

多个用户反馈显示，这类问题在对话接近上下文窗口极限时尤为频繁。这个区域被开发者称为"Dumb Zone"——模型在长对话末尾的表现会显著下降，身份混淆的概率随之上升。

文中列举了多个实际案例：

文章登上 Hacker News 首页，获得 444 分、339 条讨论。部分评论者认为问题在于开发者不应给 AI 过多权限，但 Dwyer 反驳称，这种理解偏离了重点——这不仅仅是"AI 不可预测"的通用风险，而是一个具体的、可修复的消息标注 bug。

值得注意的是，多位用户表示类似问题也在 ChatGPT 和其他模型中出现，表明这可能是一个行业性的架构问题，而非 Anthropic 独有。