乐天开放 Rakuten AI 3.0:日语成绩单很亮眼,DeepSeek V3 架构标签也把争议一起带了出来

乐天正式开放了日语大模型 Rakuten AI 3.0。按官方说法,这是一款作为日本经济产业省与 NEDO 推动的 GENIAC 项目成果之一、面向日语优化的超大规模模型,并且在多项日语基准上跑出了高于 gpt-4o 的成绩。

乐天开放 Rakuten AI 3.0:日语成绩单很亮眼,DeepSeek V3 架构标签也把争议一起带了出来

但这条消息真正引发讨论的,不只是成绩表本身。模型刚上 Hugging Face,就有人注意到公开配置里直接出现了 DeepseekV3ForCausalLM 以及 model_type: deepseek_v3。围绕它的讨论很快从“日语能力强不强”,转向了另一个问题:Rakuten AI 3.0 到底是在多大程度上基于 DeepSeek V3 架构继续做出来的?

官方叙事:日本语优化、7000 亿参数、基准分数压过 gpt-4o

根据乐天 3 月 17 日官方新闻稿,Rakuten AI 3.0 是一款约 7000 亿参数、采用 MoE 架构、面向日语优化的模型,已经以 Apache 2.0 协议开放下载。Hugging Face 模型卡给出的更细信息是:671B 总参数、37B 激活参数、128K 上下文

在官方给出的对比表里,Rakuten AI 3.0 在多项日语评测上都压过了 gpt-4o,包括:

  • JamC-QA:76.9 vs 74.7
  • MMLU-ProX(日语):71.7 vs 64.9
  • MATH-100(日语):86.9 vs 75.8
  • M-IFEval(日语):72.1 vs 67.3

如果只看这部分信息,乐天想传达的结论很明确:日本公司也能做出大体量、并且在日语任务上有竞争力的开源旗舰模型。

争议来自公开配置,而不是纯粹的社区猜测

Hugging Face 模型页和公开的 config.json 也给出了另一层信息。当前公开配置中,可以直接看到:

  • architectures 中写的是 DeepseekV3ForCausalLM
  • model_type 写的是 deepseek_v3
  • 页面标签里也同时挂着 deepseek_v3DeepSeek-V3

这意味着,至少从公开仓库配置层面看,Rakuten AI 3.0 与 DeepSeek V3 架构之间并不是网友臆测出来的联系,而是模型发布者自己留在公开文件里的明确信号。

当然,这并不自动等于“只是换壳”。乐天官方在新闻稿和 Hugging Face 模型卡里都强调,这款模型是基于开源社区的优秀模型,再叠加乐天自有的高质量双语数据、工程能力与研究成果开发出来的。

真正的看点,是“本土模型”叙事开始碰到透明度门槛

这次争议的核心,不在于能不能基于开源架构继续做模型。今天的大模型世界里,建立在现有开源底座上做再训练、蒸馏、指令微调和数据增强,本来就是常态。

真正会被追问的,是当一家公司把模型包装成某种国家级、本土化、代表性成果时,外界自然会关心:底座来自哪里,新增价值到底在哪里,性能提升主要来自数据、训练和工程,还是主要继承自原始架构。

对乐天来说,Rakuten AI 3.0 的意义依然成立。它确实把一款大体量、面向日语优化的开源模型推到了台前,也给日本企业和开发者提供了一个本土可用的新选项。但社区已经不太会满足于“日本最大规模”这种口号式表达了。

接下来更重要的,反而是乐天是否愿意把技术说明继续讲清:例如训练流程、数据增量、相对基础模型的改动范围,以及它究竟在哪些环节形成了真正可归属到乐天自己的竞争力。

来源:Rakuten 官方新闻稿、Hugging Face 模型页与 config.json、Impress Watch、X 公开讨论