GitHub 就近期故障致歉并披露 30 倍扩容计划

GitHub CTO Vlad Fedorov 发文就 4 月发生的两起故障致歉,并详细披露了正在执行的 30 倍扩容计划。这是一次罕见的架构级坦白——GitHub 承认其基础设施已经跟不上 AI 驱动的增长速度。

30x 从何而来

2025 年 10 月,GitHub 启动了 10 倍容量扩容计划。到 2026 年 2 月,内部建模显示实际需求是 30 倍。核心驱动力是 AI 智能体工作流自 2025 年 12 月起的爆发式增长:

  • 月活峰值:9000 万 PR 合并、14 亿 commits、2000 万新仓库
  • 一个 PR 可能同时涉及 Git 存储、合并检查、分支保护、Actions、搜索、通知、权限、webhook、API、后台任务、缓存和数据库
  • 大 monorepo 的增长进一步放大了压力

技术路线

GitHub 明确了优先级重排:可用性第一,容量第二,新功能第三。

  • Ruby → Go:将性能敏感路径从 Ruby 单体架构迁移到 Go
  • 去 MySQL 化:将 webhook 等高负载从 MySQL 移出,使用专门的后端
  • 自建 → Azure + 多云:从自定义数据中心向 Azure 迁移,并规划多云架构以降低单点故障风险。目前 12.5% 流量由 Azure 提供,计划 7 月达到 50%
  • 服务隔离:将 Git 和 GitHub Actions 等关键服务从其他工作负载中隔离,限制故障爆炸半径
  • 大型 monorepo 优化:优化 merge queue 操作和 PR 体验,新 API 设计即将公布

两起故障详情

4 月 23 日:合并队列故障

影响 658 个仓库。Squash 合并产生错误提交并意外还原代码,无数据丢失。

4 月 27 日:搜索故障

Elasticsearch 集群疑似因攻击过载,UI 无法返回搜索结果。Git 核心操作(push/pull/clone)未受影响。

可用性现状

据第三方统计,GitHub 4 月可用性已跌破 85%。HashiCorp 联合创始人 Mitchell Hashimoto 公开表示 GitHub "不再是严肃工作的平台",并宣布将 Ghostty 终端模拟器项目迁往别处。

GitHub 状态页已加入可用性指标,并承诺对所有规模的故障进行公示。

来源:GitHub Blog | The Register

相关推荐