你的位置:开元ky888网址进入下载 > 新闻中心 > 开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载

开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载

时间:2025-03-05 08:40 点击:187 次

开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载

算力需求比 AdamW 直降 48%,OpenAI 手艺东谈主员冷落的西席优化算法 Muon开云kaiyun,被月之暗面团队又鼓动了一步!

团队发现了 Muon 智商的 Scaling Law,作念出转变并讲解了 Muon 对更大的模子雷同适用。

在参数目最高 1.5B 的不同 Llama 架构模子上,转变后的 Muon 算力需求仅为 AdamW 的 52%。

同期团队还基于 DeepSeek 架构西席出了一个 16B 的 MoE 模子,与转变后的优化算法一同开源。

Muon 手艺博客发布那时主要适用于较小的模子和数据集,作家留住了三个悬而未决的问题:

Muon 能否用于更大范畴的西席?

Muon 能否在更大范畴的 GPU 集群上使用?

Muon 是否雷同适用于微和谐强化学习?

现时月暗团队用实践给出了回复——一王人都是 Yes。

音问一出,那时 Muon 的作家也都很振作,主要作家Keller Jordan暗示这是 Muon 范畴化的首个得手汇报,为团队奉上了祝愿。

另又名孝顺者,那时肃穆 Muon 范畴化实践的 Hyperbolic Labs 联创兼 CTO Yuchen Jin也暗示,月暗团队的这项效用,是 Muon 的一次获胜。

将 AdamW 特色引入 Muon

在先容月暗团队的使命之前,先来了解一下 Muon 是个什么样的手艺。

这是一种神经会聚掩饰层的 2D 参数优化器,主要作家是 OpenAI 深度学习团队的 Keller Jordan。

这项效用发表于客岁的 12 月 8 日,而 Keller 亦然客岁 12 月加入的 OpenAI。

Muon 的中枢念念想是通过正交化梯度更新矩阵,幸免参数更新堕入局部极小,使模子好像学习到愈加万般化的特征暗示。

在 94% 的精度下,Muon 把 CIFAR-10 在 A100 上的西席时候从 3.3 秒镌汰至 2.6 秒。

不外那时 Muon 团队只讲解了其在袖珍模子和数据集上的可行性,关于较大的模子能否适用则是个未知数。

现时经过月暗团队的转变之后,Muon被讲解关于更大的模子和数据集雷同适用。

针对模子自己,团队招揽了 AdamW 中的一些特色,移植到了 Muon 当中,具体包括两个方面。

一是引入了权重衰减机制,在权重更新公式中添加了一个带有衰减统统的项。

这么作念的原因是作家发现径直将 Muon 哄骗到大范畴西席时,模子权重和层输出的幅度会抓续增长,最终超出 bf16 的高精度暗示边界,毁伤模子性能。

在西席一个 8 亿参数模子至 100B tokens(约 5 倍野心预算最优)的历程中,团队对比了 AdamW、无权重衰减的 Muon 和带权重衰减的 Muon。

收尾显露,带权重衰减的 Muon 在过拟合阶段获得了最好效果,考证了权重衰减的必要性。

第二项转变,是调治了 Muon 的参数更新设施,使不同步地矩阵参数的更新幅度保抓一致,并与 AdamW 的更新幅度匹配。

Muon 的一个特色是,关于步地为 [ A,B ] 的矩阵参数,其表面更新幅度为 sqrt ( 1/max ( A,B ) ) 。

这导致不同步地矩阵参数的更新幅度互异很大,比如关于 MLP 这种宽矩阵,更新会过小,而将每个 head 看作独处矩阵时,更新又会过大。

此外,这个幅度也与 AdamW 不一致,给超参数的设立带来费劲。

为了让不同矩阵参数的更新幅度匹配,并与 AdamW 保抓一致,作家尝试了几种转变有计算,最终聘用径直基于步地调治每个参数的学习率。

其中 0.2 是通过实践详情的一个常数,用于将 Muon 的更新设施与 AdamW 对王人。

除了对 Muon 自己的转变,要想将 Muon 用于更大范畴的西席,还需要将其彭胀到辞别式西席环境中。

由于 Muon 需要完满的梯度矩阵来野心正交化的更新量,而现存的辞别式西席框架(如 ZeRO-1、Megatron-LM 等)都假定优化器景色不错独当场按元素切分到不同设立上,是以它们无法径直复旧 Muon。

为了措置这个问题,论文作家冷落了辞别式 Muon 的并行化战略。

它在 ZeRO-1 的基础上引入了两个罕见的操作 :

一是在每个数据并行组内作念梯度团员通讯,将辞别的梯度切片归拢成完满的矩阵;

二是基于团员后的梯度矩阵并行野心正交化的更新量,然后只保留与腹地参数对应的那一部分。

这种完了情势在最小化内存占用和通讯支拨的同期,最大截止地保留了原始 Muon 算法的数学性质。

讲解 Muon 彭胀可行性

基于上述 Muon 转变 , 作家获得了以下效用,作家在 Llama 架构的一系列闹热模子上,进行了 Muon 和 AdamW 的模子缩放对比实践。

收尾标明 , 在野心预算最优的情况下,Muon 的样本效用是 AdamW 的 1.92 倍,即西席 FLOPS 只需 AdamW 的 52%,就能达到十分的性能。

这一发现阐明了 Muon 在大范畴西席中的效用上风。

在此基础之上,作家以 DeepSeek-V3-Small 架构当作基础,用转变的 Muon 西席了Moonlight模子。

Moonlight 是一个 MoE 模子,具有 15.29B 的总参数和 2.24B 激活参数,西席 token 量为 5.7T。

与换取范畴和数据量的模子比较,Moonlight 在英语理会与推理(MMLU、TriviaQA、BBH)、代码生成(HumanEval、MBPP)、数学推理(GSM8K、MATH、CMATH)、汉文理会(C-Eval、CMMLU)等各种任务上都获得了昭彰更好的性能。

即使与使用更大数据集西席的闹热模子比较,Moonlight 也展现了极强的竞争力。

与多个闻名言语模子的对比标明,Moonlight在性能 - 西席预算平面上鼓动了帕累托前沿(Pareto Frontier)。

(注:帕累托前沿是一个经济学和照顾学中的观点,描述的是在多宗旨决策问题中扫数可能的最优解的聚会,这些解在多个宗旨之间获得了最好均衡。在帕累托前沿上的每一个点,都意味着一个宗旨的改善势必以糟跶另一个宗旨为代价,因此它代表了在多个宗旨之间完了的最好量度。)

为了进一步分析 Muon 更新矩阵参数的内在机制,作家对比了 Muon 和 AdamW 西席得到的模子在不同西席阶段的参数矩阵奇异值谱。

收尾发现,Muon 优化的矩阵在各层各种参数上,老是比 AdamW 有更高的奇异值熵。这从教训上考证了 Muon 通过正交化来学习更万般化暗示的直观。

临了,在 Moonlight 模子的基础上,作家还探索了 Muon 在指令微调阶段的效果,收尾标明,在预西席和微调阶段均使用 Muon 的效果是最好的。

手艺汇报:

https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

Code:

https://github.com/MoonshotAI/Moonlight

Moonlight 模子:

https://huggingface.co/moonshotai/Moonlight-16B-A3B开云kaiyun

最新内容
开云kaiyun.com累计净值为1.3396元-开元ky888网址进入下载
本站音讯开云kaiyun.com,11月25日,博时裕创纯债债券A最新单元净值为1.0246元,累计净值为1.3396元,较前一往翌日高潮0.02%。历史数据露馅该基金近1个月高潮0.35%,近3个月高潮0.45%,近6个月高潮1.13%,近1年高潮3.76%。该基金近6个月的累计收益率走势如下图: 博时裕创纯债债券A为债券型-长债基金,字据最新一期基金季报露馅,该基金金钱建立:无股票类金钱,债券占净值比99.6%,现款占净值比0.46%。 该基金的基金司理为李汉楠,李汉楠于2022年2月17
开云kaiyun近1年高潮3.25%-开元ky888网址进入下载
本站讯息,11月25日,中信建投景信债券A最新单元净值为1.0323元,累计净值为1.0567元,较前一交游日高潮0.0%。历史数据泄漏该基金近1个月高潮0.42%,近3个月高潮0.61%,近6个月高潮1.59%,近1年高潮3.25%。该基金近6个月的累计收益率走势如下图: 中信建投景信债券A为债券型-长债基金,凭证最新一期基金季报泄漏,该基金钞票竖立:无股票类钞票,债券占净值比118.54%,现款占净值比0.14%。 该基金的基金司理为杨龙龙,杨龙龙于2023年11月27日起任职本基金基金司
开云kaiyun.com该基金金钱设立:无股票类金钱-开元ky888网址进入下载
本站音书,11月25日,广发汇达3个月按时通达债券最新单元净值为1.0185元,累计净值为1.143元,较前一往昔时飞腾0.12%。历史数据暴露该基金近1个月飞腾0.51%,近3个月飞腾0.61%,近6个月飞腾1.86%,近1年飞腾4.23%。该基金近6个月的累计收益率走势如下图: 广发汇达3个月按时通达债券为债券型-长债基金,证明最新一期基金季报暴露,该基金金钱设立:无股票类金钱,债券占净值比151.98%,现款占净值比1.19%。 该基金的基金司理为郎振东,郎振东于2024年4月25日起任
www.hzypro.com
官方网站
关注我们
新闻中心国际科技园1336号
公司地址

Powered by 开元ky888网址进入下载 RSS地图 HTML地图


开元ky888网址进入下载-开云kaiyunMuon 的中枢念念想是通过正交化梯度更新矩阵-开元ky888网址进入下载