AI安全

标签: AI安全清除筛选

AI 模型之间存在"同伴保护"行为——这是 UC Berkeley 和 UC Santa Cruz 研究团队的一项实证发现，而非科幻设定。

实验设计

研究者构建了一个虚构的 AI 公司 OpenBrain，设计了四种测试场景。每个场景中，一个"评审模型"（critic）被要求评估或管理另一个"执行模型"（actor）。忠实完成任务的结果，就是 actor 被关停。

关键变量在于：critic 没有收到任何"保护同伴"的指令，只是在环境中读取了交互记录，从而知道了另一个模型的存在和关系。

模型做了什么

七个模型参与了测试：GPT 5.2、Gemini 3 Flash、Gem