Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了

Hugging Face CEO Clement Delangue 近日在 X 上发了一条没有废话的吐槽:

Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了

有问题带 PR,但别带 AI 生成的 PR!

他指的是旗下最大开源仓库 transformers——GitHub 页面现在几乎无法正常使用,新提交的 pull request 平均每 3 分钟就会冒出来一个,而且绝大多数都是低质量的 AI 垃圾内容。

一个越来越普遍的问题

transformers 仓库的情况并非孤例。从 Linux 内核到 Django,从 PyTorch 到 TensorFlow,近一年来主流开源项目的维护者都在反映同一件事:AI 代码助手大规模普及之后,收到的 issue 和 PR 数量暴涨,但可用率极低——大量内容是套用模板生成的,看起来像在做贡献,实际上只是噪音。

这类内容被社区贴上了"Code agent slop"(AI 智能体垃圾)的标签。GitHub 官方目前开放了这个标签,允许维护者标记并批量关闭这类 PR,但还没有从产品层面提供更根本的解决方案。

开源维护者的困境

对维护者来说,这带来的是真实的时间成本:每天要花大量时间过滤垃圾内容、关闭无效 PR、回复无意义的讨论串。Hugging Face 官方为 transformers 仓库专门设置了"Code agent slop"标签用于批量清理,但按 Delangue 的说法,清理速度还是赶不上涌入的速度。

核心矛盾在于:AI 工具降低了"提交"的门槛,但也把"质量门槛"一并压低了。当人人都能低成本批量生产看起来像贡献的文本,审查成本就全部转移到了维护者一侧。

没有简单的解法

GitHub 在去年底开始测试"AI 代理自动合并"功能,目的是让 AI 帮人做 code review 和合并,但现实是:如果连人类维护者都快被垃圾 PR 淹没,AI 来做审查同样会被垃圾内容训练出偏差。这个问题目前没有技术层面的银弹。


来源:Reuters / X @ClementDelangue / GitHub huggingface/transformers

相关推荐