Anthropic tokenizer 对非英语语言收取隐性 token 税

6/5/2026AILLMToken

OpenAI vs Anthropic 各语言 token 消耗对比

AI 研究员 Aran Komatsuzaki 做了一组实验:将 Rich Sutton 的经典文章《The Bitter Lesson》翻译成 9 种语言,分别用 6 个主流模型的 tokenizer 统计 token 消耗量,以 OpenAI 英文版为 1.0x 基准,衡量不同语言在各模型上的 token 效率。

结果差异显著。OpenAI 各语言的 token 倍率控制在 1.0x-1.4x 范围内,而 Anthropic 的差距极大。

OpenAI vs Anthropic:七语言对比

语言OpenAIAnthropic
English1.00x1.04x
Spanish1.18x1.62x
French1.30x1.79x
Chinese1.15x1.71x
Russian1.31x2.04x
Arabic1.31x2.86x
Hindi1.37x3.24x

中文在 Anthropic 上的 token 消耗是 OpenAI 的 1.71 倍,意味着同样的内容用 Claude 处理中文,token 成本高出约 65%。印地语差距最大,3.24 倍。

Komatsuzaki 本人的评价:

I didn't expect Claude to be this bad and unbalanced.

六模型非英语平均倍率排名

Komatsuzaki 的第二篇帖子扩展了对比范围,加入了 Gemini 3.1、Qwen 3、DeepSeek V4、Kimi K2.6 等模型,给出了六模型的非英语平均倍率:

  • Gemini 3.1:1.22x(对非英语最友好)
  • Qwen 3:中文 0.85x
  • OpenAI:1.33x
  • DeepSeek V4:1.49x
  • Kimi K2.6:1.76x
  • Anthropic:2.07x(最不友好)

中国模型处理中文反而更省

一个值得注意的数据点:中国模型处理中文的 token 倍率低于英语基准——Kimi K2.6 中文倍率 0.81x,Qwen 3 为 0.85x,DeepSeek V4 为 0.87x。用这些模型写中文,比写英文还省 token。

这说明 token 效率的差异不是语言本身的特性,而是 tokenizer 对特定语言优化程度的结果。

根因

tokenizer 的训练语料中英文占比远高于其他语言。英文常用词被高效压缩成单个 token,而非英语文字经常被切碎成更多小 token,同样的语义就要消耗更多 token 数。

对用户的影响

三方面直接影响:

  1. API 成本:同样的对话内容,Claude 处理中文比 OpenAI 多花约 65%,处理印地语则超过 3 倍
  2. 响应速度:更多 token 意味着更长的推理时间
  3. 上下文窗口:token 消耗更快,长对话中能容纳的有效信息变少

来源:Aran Komatsuzaki @arankomatsuzaki

相关推荐