苹果研究团队提出 LaDiR 框架,并行扩散推理提升 LLM 数学与代码生成表现

苹果与 UCSD 研究团队提出 LaDiR 框架,将扩散模型引入 LLM 推理阶段,通过并行探索多条推理路径来提升数学、代码生成和复杂规划任务的准确率。

核心思路

LaDiR(Latent Diffusion enhances Reasoning)的切入点在于推理阶段而非训练阶段。它在已有的 LLM 基础上,于推理时用扩散过程并行生成多条候选推理路径——每条路径从随机噪声出发,经过多步去噪逐步精炼为完整的推理步骤链,最后由模型自回归生成最终答案。

LaDiR 框架结构

这种设计内置了多样性机制,通过控制扩散过程中的噪声来避免多条路径过早收敛到相似方向。LaDiR 可以叠加在 LLaMA、Qwen 等已有开源模型上使用,无需训练新模型。

实验结果

数学推理:基于 LLaMA 3.1 8B 的实验中,LaDiR 在分布外(out-of-distribution)数学任务上的准确率优于现有推理增强方法。

数学推理实验结果

代码生成:基于 Qwen3-8B-Base 的实验中,LaDiR 在 HumanEval 等代码基准上的表现明显优于标准微调方案。

代码生成实验结果

复杂规划:在 Countdown 谜题(用一组数字和四则运算得到目标数字)中,LaDiR 能探索更广的解空间,找到正确解的可靠性高于所有通用基线方法。不过单次准确率仍不及专门针对这类任务优化的模型。

谜题规划实验结果

适用场景与局限

LaDiR 适合需要多步推理、有多个可行解法的场景——数学证明、代码生成、策略规划等。它的优势在于并行探索能力带来的鲁棒性提升,而非单次推理的速度或效率。对于已经有高度优化专用方案的单一任务,LaDiR 的通用性优势就不那么明显了。

论文:arXiv:2504.05572

来源:9to5Mac

相关推荐