月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
IT之家 2 月 24 日讯,月之暗面 Kimi 今日推出了关于“Muon 可扩展 LLM 训练”的新技术报告,并正式发布了“Moonlight”:这是一款基于 Muon 训练的混合专家模型(MoE),参数量达到 30 亿 / 160 亿。该型号运用了 5.7 万亿个 token,并在低浮点运算次数(FLOPs)下显著优化了性能,进一步推动了帕累托效率的边界。
月之暗面团队指出,Muon 优化器的扩展能力得益于应用权重衰减和精细调整每个参数的更新幅度等技术手段,其特点如下:
这些创新技术让 Muon 在进行大规模训练时,可以做到即插即用,省去了超参数调优的需求。相关实验表明,Muon 在计算效率上达到了约 2 倍,较之计算最优训练的 AdamW 更加高效。
本次论文研究所采用的模型为 Moonlight-16B-A3B,全部参数量为 15.29B,激活参数为 2.24B,使用 Muon 优化器,在 5.7T Tokens 训练数据的支撑下取得了优异成绩。
我们的模型不仅在现有的 Pareto 前沿上实现了突破,同时在所需 FLOP 数量显著降低的情况下,性能也超越了过去的模型。
我们已开放一个分布式版本的 Muon 实现,优化了内存使用和通信效率。同时,我们还发布了预训练模型、经过指令调优的模型及中间训练检查点,旨在为后续研究提供坚实支持。
IT之家提供更多相关链接:
广告声明:文中所含外部链接(包括但不限于超链接、二维码、口令等),旨在提供更多信息,便于读者快速获取,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。