Anthropic tokenizer 对非英语语言收取隐性 token 税

6/5/2026AI LLM Token

OpenAI vs Anthropic 各语言 token 消耗对比

AI 研究员 Aran Komatsuzaki 做了一组实验：将 Rich Sutton 的经典文章《The Bitter Lesson》翻译成 9 种语言，分别用 6 个主流模型的 tokenizer 统计 token 消耗量，以 OpenAI 英文版为 1.0x 基准，衡量不同语言在各模型上的 token 效率。

结果差异显著。OpenAI 各语言的 token 倍率控制在 1.0x-1.4x 范围内，而 Anthropic 的差距极大。

OpenAI vs Anthropic：七语言对比

语言	OpenAI	Anthropic
English	1.00x	1.04x
Spanish	1.18x	1.62x
French	1.30x	1.79x
Chinese	1.15x	1.71x
Russian	1.31x	2.04x
Arabic	1.31x	2.86x
Hindi	1.37x	3.24x

中文在 Anthropic 上的 token 消耗是 OpenAI 的 1.71 倍，意味着同样的内容用 Claude 处理中文，token 成本高出约 65%。印地语差距最大，3.24 倍。

Komatsuzaki 本人的评价：

I didn't expect Claude to be this bad and unbalanced.

六模型非英语平均倍率排名

Komatsuzaki 的第二篇帖子扩展了对比范围，加入了 Gemini 3.1、Qwen 3、DeepSeek V4、Kimi K2.6 等模型，给出了六模型的非英语平均倍率：

Gemini 3.1：1.22x（对非英语最友好）
Qwen 3：中文 0.85x
OpenAI：1.33x
DeepSeek V4：1.49x
Kimi K2.6：1.76x
Anthropic：2.07x（最不友好）

中国模型处理中文反而更省

一个值得注意的数据点：中国模型处理中文的 token 倍率低于英语基准——Kimi K2.6 中文倍率 0.81x，Qwen 3 为 0.85x，DeepSeek V4 为 0.87x。用这些模型写中文，比写英文还省 token。

这说明 token 效率的差异不是语言本身的特性，而是 tokenizer 对特定语言优化程度的结果。

根因

tokenizer 的训练语料中英文占比远高于其他语言。英文常用词被高效压缩成单个 token，而非英语文字经常被切碎成更多小 token，同样的语义就要消耗更多 token 数。

对用户的影响

三方面直接影响：

API 成本：同样的对话内容，Claude 处理中文比 OpenAI 多花约 65%，处理印地语则超过 3 倍
响应速度：更多 token 意味着更长的推理时间
上下文窗口：token 消耗更快，长对话中能容纳的有效信息变少

来源：Aran Komatsuzaki @arankomatsuzaki