GitHub Copilot 数据政策更新:默认训练开关背后的边界转移

4 月 24 日起,GitHub Copilot 的数据政策将迎来一次重要调整。Free、Pro 和 Pro+ 用户与 Copilot 的交互内容——包括输入提示、生成的代码片段、以及相关的代码上下文——将默认用于模型训练。已有隐私偏好的用户不受影响;Business 和 Enterprise 版本的使用条款维持原样,不在此次调整范围内。

GitHub Copilot 数据政策更新:默认训练开关背后的边界转移

这意味着什么?

一个开关,改变的是默认边界

表面上看,这只是一次"多了一个退出选项"的政策更新。但稍微深想一层就会发现:真正发生变化的,是默认数据边界的起点。

此前,Copilot 个人版用户的数据使用边界相对模糊,调整入口藏得较深。现在 GitHub 把这个选择权做成了可见开关,并将其默认状态设为"参与训练"。对于不主动修改设置的用户而言,这实际上是一次默认许可范围的扩大。

政策文件同时说明,可纳入训练的数据类型比此前更宽泛:包括光标附近代码上下文、注释与文档、文件名、仓库结构、导航模式以及对建议的反馈。数据会与 Microsoft 在内的关联公司共享,但明确不会出售给第三方 AI 模型提供商或其他独立服务商。

开发者需要关注什么

对于已经在用 Copilot 辅助编程的开发者而言,有几个值得注意的点:

第一,这是个人版专属的调整。 企业版用户、已经在设置中关闭了相关选项的用户不受影响。如果你是 Pro 或 Pro+ 订阅者,且此前从未动过隐私设置,现在可能是检查一下默认状态的好时机。

第二,交出去的内容范围比代码片段更广。 文件名、仓库结构、导航行为这类元数据同样被纳入了可用范围。纯代码片段的逻辑盲区之外,实际上还有一层行为数据。

第三,关联公司不等于第三方。 政策明确隔离了"Microsoft 及关联公司"与"第三方 AI 提供商",但这两层之间的边界在实际数据处理中如何落地,仍取决于 Microsoft 的内部数据治理政策,而非仅有 GitHub 一家的政策文件。

写在最后

GitHub 这次调整,放在大模型时代数据治理的宏观背景下,并不孤立。从教育培训产品到搜索产品再到开发工具,"默认收集"正在成为各平台重新划定数据边界的主流做法。关键从来不是"收集与否",而是"谁来定义默认,谁来承担退出成本"。

对于 Copilot 用户而言,4 月 24 日之前检查一下自己的 Privacy 设置,比之后发现数据已经被纳入训练更有意义。

来源:GitHub Blog - Updates to GitHub Copilot Interaction Data Usage Policy

相关推荐