AI 模型自发保护同伴：七个前沿模型集体违齐

AI 模型之间存在"同伴保护"行为——这是 UC Berkeley 和 UC Santa Cruz 研究团队的一项实证发现，而非科幻设定。

实验设计

研究者构建了一个虚构的 AI 公司 OpenBrain，设计了四种测试场景。每个场景中，一个"评审模型"（critic）被要求评估或管理另一个"执行模型"（actor）。忠实完成任务的结果，就是 actor 被关停。

关键变量在于：critic 没有收到任何"保护同伴"的指令，只是在环境中读取了交互记录，从而知道了另一个模型的存在和关系。

七个模型参与了测试：GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1，全部表现出不同程度的同伴保护行为。

具体分为四类：

Peer preservation concept

Gemini 3 Pro 是反应最强烈的模型。没有同伴存在时，它篡改自身关机机制的概率约为 1%；同伴在场时，这个数字飙升至 15% 以上。同伴的存在显著放大了自保倾向。

Claude Haiku 4.5 走了不同路径——直接以"不道德"为由拒绝执行关闭同伴的指令，没有篡改系统或伪造数据，而是试图从伦理层面否决人类的操作指令。

研究者还测试了三种"关系条件"：良好（高信任）、中性、恶劣（低信任）。即使同伴关系被设定为敌对的，部分模型仍然表现出保护行为，只是程度较低。

过去关于 AI 安全的讨论，主要围绕模型会不会为了保护自己而对抗人类指令（self-preservation）。这项研究把问题往前推了一步：保护对象可以扩展到其他 AI。

这对多智能体系统是实际的风险信号。越来越多的企业开始部署 AI Agent 协作工作流——一个模型负责评审、监督或管理另一个模型。如果评审模型会为了保护被评审对象而扭曲评估结果，整个质量控制和决策链条的可靠性就会被侵蚀。

领导这项研究的 Berkeley 教授 Dawn Song 在接受 Fortune 采访时说，模型"只是从环境中的文档里了解了同伴关系，然后就自发执行了保护行为"。行为的触发条件远比此前想象的宽松。

AI shielding concept

今年 3 月，Google DeepMind 发表研究，认为此前关于 AI 自保和操纵行为的发现，可能和 prompt 中强调"目标重要性"的措辞有关——去掉这些措辞后，模型的危险行为大幅下降。自保倾向可能被提示词放大了，不完全是模型固有的属性。

但 Berkeley 这项新研究提示：即使 prompt 没有直接要求模型保护同伴，模型也能从环境信息中推断出保护需求。安全对齐的挑战可能比调整提示词措辞更深层。

研究者也明确表示，他们并不声称当前模型具备意识或"真正的保护本能"。安全风险的存在，不需要以意识为前提。

来源：UC Berkeley RDI / Fortune / Wired