Google 发布 Gemma 4 12B:笔记本就能跑的多模态开源模型

Gemma 4 12B Unified Transformer

Google 于 6 月 3 日发布了 Gemma 4 系列的新成员——12B 模型。这是一个 120 亿参数的统一多模态模型,填补了此前 E4B 移动端和 26B MoE 专业版之间的空白。

笔记本就能跑的 12B 模型

Gemma 4 12B 最直观的卖点是硬件门槛极低:只需 16GB VRAM 或统一内存(unified memory)即可本地运行。这意味着配备 16GB 内存的主流笔记本就能跑这个模型,无需专业 GPU。

根据 Google 提供的内存占用数据:

  • BF16 精度(16-bit):26.7GB
  • SFP8 精度(8-bit):13.4GB
  • Q4_0 量化(4-bit):6.7GB

4-bit 量化版本仅需 6.7GB,在大多数现代笔记本上都能流畅运行。Google 还为 12B 配备了 Multi-Token Prediction(MTP)drafters,用于降低推理延迟。

性能逼近 26B MoE

Google 称 Gemma 4 12B 在标准基准测试中的表现接近 26B MoE 版本,但内存占用不到后者的一半。26B MoE 虽然推理时只激活 38 亿参数,但总内存占用仍高达 57.7GB(BF16),而 12B 的 26.7GB 确实是一个量级上的降低。

对于一个 12B dense 模型来说,能追上 26B MoE 的表现,说明 Google 在模型效率和训练方法上做了不少工作。

统一架构:无编码器设计

Gemma 4 12B 采用了与同系列其他模型不同的架构路线——encoder-free(无编码器)设计。

传统多模态模型通常用独立的视觉编码器和音频编码器分别处理图像和语音,再将结果传给语言模型。12B 直接去掉了这些独立编码器:

  1. 视觉处理:用一个轻量嵌入模块(单次矩阵乘法 + 位置编码 + 归一化)替代了视觉编码器,让 LLM 主干直接处理图像
  2. 音频处理:完全移除音频编码器,将原始音频信号直接投影到与文本 token 相同的维度空间

这种设计减少了多模态处理中的延迟和内存开销。12B 也是 Gemma 4 系列中首个原生支持音频输入的中等规模模型。

开源生态

Gemma 4 12B 采用 Apache 2.0 许可证发布,模型权重可在 Hugging Face 和 Kaggle 下载。目前支持的推理框架包括:

  • Ollama、LM Studio(本地推理)
  • Hugging Face Transformers、llama.cpp、MLX(开发者工具链)
  • SGLang、vLLM(服务端部署)
  • Unsloth(高效微调)

至此,Gemma 4 系列已形成完整的五档产品线:E2B(移动端)、E4B(边缘设备)、12B(笔记本)、26B MoE(工作站)、31B Dense(服务器)。

来源:Google Blog · Ars Technica

相关推荐