开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载
算力需求比 AdamW 直降 48%,OpenAI 手艺东谈主员冷落的西席优化算法 Muon开云kaiyun,被月之暗面团队又鼓动了一步! 团队发现了 Muon 智商的 Scaling Law,作念出转变并讲解了 Muon 对更大的模子雷同适用。 在参数目最高 1.5B 的不同 Llama 架构模子上,转变后的 Muon 算力需求仅为 AdamW 的 52%。 同期团队还基于 DeepSeek 架构西席出了一个 16B 的 MoE 模子,与转变后的优化算法一同开源。 Muon 手艺博客发布那时