乐天开放 Rakuten AI 3.0：日语成绩单很亮眼，DeepSeek V3 架构标签也把争议一起带了出来

3/17/2026大模型乐天 DeepSeek 日本AI

乐天正式开放了日语大模型 Rakuten AI 3.0。按官方说法，这是一款作为日本经济产业省与 NEDO 推动的 GENIAC 项目成果之一、面向日语优化的超大规模模型，并且在多项日语基准上跑出了高于 gpt-4o 的成绩。

但这条消息真正引发讨论的，不只是成绩表本身。模型刚上 Hugging Face，就有人注意到公开配置里直接出现了 DeepseekV3ForCausalLM 以及 model_type: deepseek_v3。围绕它的讨论很快从“日语能力强不强”，转向了另一个问题：Rakuten AI 3.0 到底是在多大程度上基于 DeepSeek V3 架构继续做出来的？

官方叙事：日本语优化、7000 亿参数、基准分数压过 gpt-4o

根据乐天 3 月 17 日官方新闻稿，Rakuten AI 3.0 是一款约 7000 亿参数、采用 MoE 架构、面向日语优化的模型，已经以 Apache 2.0 协议开放下载。Hugging Face 模型卡给出的更细信息是：671B 总参数、37B 激活参数、128K 上下文。

在官方给出的对比表里，Rakuten AI 3.0 在多项日语评测上都压过了 gpt-4o，包括：

JamC-QA：76.9 vs 74.7
MMLU-ProX（日语）：71.7 vs 64.9
MATH-100（日语）：86.9 vs 75.8
M-IFEval（日语）：72.1 vs 67.3

如果只看这部分信息，乐天想传达的结论很明确：日本公司也能做出大体量、并且在日语任务上有竞争力的开源旗舰模型。

争议来自公开配置，而不是纯粹的社区猜测

Hugging Face 模型页和公开的 config.json 也给出了另一层信息。当前公开配置中，可以直接看到：

architectures 中写的是 DeepseekV3ForCausalLM
model_type 写的是 deepseek_v3
页面标签里也同时挂着 deepseek_v3 和 DeepSeek-V3

这意味着，至少从公开仓库配置层面看，Rakuten AI 3.0 与 DeepSeek V3 架构之间并不是网友臆测出来的联系，而是模型发布者自己留在公开文件里的明确信号。

当然，这并不自动等于“只是换壳”。乐天官方在新闻稿和 Hugging Face 模型卡里都强调，这款模型是基于开源社区的优秀模型，再叠加乐天自有的高质量双语数据、工程能力与研究成果开发出来的。

真正的看点，是“本土模型”叙事开始碰到透明度门槛

这次争议的核心，不在于能不能基于开源架构继续做模型。今天的大模型世界里，建立在现有开源底座上做再训练、蒸馏、指令微调和数据增强，本来就是常态。

真正会被追问的，是当一家公司把模型包装成某种国家级、本土化、代表性成果时，外界自然会关心：底座来自哪里，新增价值到底在哪里，性能提升主要来自数据、训练和工程，还是主要继承自原始架构。

对乐天来说，Rakuten AI 3.0 的意义依然成立。它确实把一款大体量、面向日语优化的开源模型推到了台前，也给日本企业和开发者提供了一个本土可用的新选项。但社区已经不太会满足于“日本最大规模”这种口号式表达了。

接下来更重要的，反而是乐天是否愿意把技术说明继续讲清：例如训练流程、数据增量、相对基础模型的改动范围，以及它究竟在哪些环节形成了真正可归属到乐天自己的竞争力。

来源：Rakuten 官方新闻稿、Hugging Face 模型页与 config.json、Impress Watch、X 公开讨论