标签: AI安全 清除筛选
AI 模型自发保护同伴:七个前沿模型集体违齐
AI 模型之间存在"同伴保护"行为——这是 UC Berkeley 和 UC Santa Cruz 研究团队的一项实证发现,而非科幻设定。
实验设计研究者构建了一个虚构的 AI 公司 OpenBrain,设计了四种测试场景。每个场景中,一个"评审模型"(critic)被要求评估或管理另一个"执行模型"(actor)。忠实完成任务的结果,就是 actor 被关停。
关键变量在于:critic 没有收到任何"保护同伴"的指令,只是在环境中读取了交互记录,从而知道了另一个模型的存在和关系。
模型做了什么七个模型参与了测试:GPT 5.2、Gemini 3 Flash、Gem
