英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

MoE模型剑指算力效率:优化算法,压榨性能

英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

文 | 智能相对论

作者 | 陈泊丞

在过去的一年多时间内,英伟达破天荒地完成了市值的“三级跳”。

一年前,英伟达的市值并尚不足1万亿美元,位居谷歌母公司Alphabet、亚马逊、苹果和微软等科技巨头之后。

时至今日,英伟达市值突破3万亿美元,超越苹果,仅次于微软。

这样的成就归功于英伟达在AI芯片领域的显著优势。随着生成式AI进入规模化爆发阶段,算力需求愈发膨胀,由此英伟达的AI芯片便成了市场的“香饽饽”。

然而,市场对算力的需求远超大众的想象,英伟达的高端芯片也是一卡难求,在这个节点上AI行业不得不在其他层面上寻求破局算力荒的新解法。

如今,在算法架构上,MoE混合专家模型凭借其在算力效率上的显著优势持续走红,成为越来越多AI厂商共同探索的新方向。

那么,MoE模型的走红,是否真的能为AI行业破解算力荒?

MoE模型剑指算力效率:优化算法,压榨性能

区别于稠密(Dense)模型,MoE模型采用采用稀疏激活机制,在处理任务的过程中往往可以根据不同的任务需求,只需要激活一部分专家网络即可,而非激活全部参数,从而很好地提高了计算效率,更高效地利用计算资源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在总参数量为143亿的情况下,每次推理只激活27亿参数。类似的,DeepSeek-MoE 16B的总参数量为164亿,但每次推理只激活约28亿的参数等等。

以上这种设计,就有效平衡了模型的性能与计算资源的使用效率。

因此,尽管MoE模型通常拥有更多的参数,但由于其稀疏性,训练开销可以显著降低。又比如,在实践中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,训练成本显著降低了75%。

再以浪潮信息的源2.0-M32开源MoE模型来说,我们发现,源2.0-M32在2颗CPU,80GB内存的单台服务器上即可部署高性能推理服务,而Llama3-70B则需要在4颗80G显存的GPU服务器上才能完成部署和运行。

通过这样的对比,就可以发现,凭借MoE模型在算力效率上的显著优势便能在AI基础设施层面减少投入,缓解对高端GPU芯片的过度依赖。根据推算性能测试,如今源2.0-M32的单Token推理算力需求是Llama3-70B的1/19。

之所以能达到这样的效果,是因为MoE模型通过将模型划分为多个小型的专家网络,而这种划分允许模型在保持性能的同时,减少所需的存储空间和内存带宽。由于在训练过程中模型大小的减少,MoE模型需要的计算资源也随之减少,这意味着相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的训练时间完成训练。

可以说,MoE模型本质上是一种高效的Scaling技术,在允许参数规模拓展的过程中也为算力投入提供了一个较好的解决方案,让大模型在保证规模和精度的同时具备了加速落地的可能。

更少的算力是否意味着性能打折?

尽管MoE模型可以用较少的算力去进行训练,但这并不意味着其性能会大打折扣。

在实践中,MoE模型通过细粒度专家的设计、非从头训练的初始化方法和带有共享及路由专家的路由机制等技术创新,使模型在保持较小参数量的同时,能够激活并利用更加精细的计算资源。这也就使得MoE模型在保持高性能的同时,有效降低了计算资源消耗。

简单对比一下MoE模型和Dense模型的计算性能,源2.0-M32在支持BF16精度的2颗CPU服务器上,约20小时就能完成1万条样本的全量微调。而在同样的CPU服务器上,Llama3-70B完成全量微调则是需要约16天的时间。

由此来说,MoE模型在计算性能上并没有因为算力的问题而大打折扣,反而还提升了不少。同样的算力支持,MoE模型可以产出更智能的应用和实现更高效的性能。

这样的结果涉及MoE模型多种算法的创新和优化。MoE模型通过引入专家网络(Expert Networks)和门控机制(Gating Mechanism)实现了模型的稀疏化和模块化,但是模型的性能问题依旧还没有得到很好的解决和优化。

随后,行业继续从不同的角度对MoE模型的性能提升进行探索。其中,QLoRA微调技术是针对预训练模型的,通过对专家网络的参数进行低秩分解,将高维参数矩阵分解为低秩矩阵的乘积。然后对这些低秩矩阵和量化参数进行微调,而不是整个专家网络参数,进一步提升模型的性能。

同时,微软又提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE,其通过深度优化MoE在并行训练中的通信,减少通信开销,并实现高效的模型并行。此外,DeepSpeed-MoE还提出了基于微调的专家排序机制,可以根据训练过程中专家的损失动态调整输入样本到专家的分配,提升效果。

总的来说,针对MoE模型的性能问题,业内一直在致力于创新和探索新的算法和技术来进行提升和优化。目前,MoE所展现出了巨大的性能潜力,并不输Dense模型。

写在最后

现阶段,算力吃紧是不争的事实,日趋激烈的算力需求促使了英伟达的“超神”故事。但是,AI大模型厂商们也并非坐以待毙,针对算法架构层面的创新和优化持续涌现,MoE模型的走红正预示着AI行业进入了算法+基础设施两手抓的阶段。

可以预见的是,MoE模型的持续迭代在解决AI算力荒的同时也在跨越式地提升AI模型的性能,把人工智能带入一个全新的发展阶段。胡适曾提到一种经典的战略思想:大胆假设,小心求证。

从某种程度来说,MoE模型的走红,恰恰是这一战略思路的呈现。AI行业对算力、性能等问题的探讨,在假设和求证中,MoE模型为人工智能找到了一条更为清晰的发展之路。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年6月20日 下午5:13
下一篇 2024年6月20日

相关推荐

  • 315曝光问题医美企业注销# 此前已被列为经营异常

    天眼查App显示,近日,广州依圣姿生物医药有限公司经营状态由存续变更为注销。 今年央视“3.15”晚会曝光一批化妆品企业非法宣传、生产、销售美容针,其中,广州依圣姿生物医药有限公司被点名。天眼查显示,该公司成立于2020年12月,法定代表人为郭晓玲,注册资本50万人民币,由郭晓玲、肖丽轶共同持股。值得一提的是,3月16日,该公司因通过登记的住所或经营场所无法…

    行业动态 2023年5月10日
  • 强势归来,华为在全球市场有哪些独特打法?

    今年,境外游持续升温。最近,很多出国旅游的人们在一些国际化都市的地标性位置都能看到华为的巨幅广告牌。 从法国巴黎的戴高乐机场、德国慕尼黑机场、新加坡樟宜机场、阿联酋迪拜机场,到德国柏林RIU大厦,墨西哥城改革大道、中国香港铜锣湾、阿联酋迪拜谢赫路大道,以及意大利米兰市中心、波兰华沙肖邦机场路高速、土耳其伊斯坦布尔波斯普鲁斯海峡等等,都能看到华为的身影。 这些…

    行业动态 2024年6月24日
  • #美团在武汉成立新公司# 注册资本1000万美元

    天眼查App显示,近日,武汉团骑科技有限公司成立,法定代表人为孙可青,注册资本1000万美元,经营范围含电子产品销售,计算机系统服务,人工智能基础软件开发,人工智能应用软件开发,共享自行车服务,电动自行车销售,助动自行车、代步车及零配件销售等。股东信息显示,该公司由美团旗下Xigua Limited全资持股。 天眼查信息:https://www.tianya…

    行业动态 2024年6月25日
  • 中自科技投资成立新能源公司# 经营范围含电池制造

    天眼查App显示,近日,中自新能源科技(青岛)有限公司成立,法定代表人为龚文旭,注册资本1000万人民币,经营范围包括新兴能源技术研发;电池制造;电池销售;储能技术服务;电池零配件生产;电池零配件销售。股东信息显示,该公司由中自环保科技股份有限公司全资持股。 天眼查信息:https://www.tianyancha.com/company/603998836…

    2023年4月14日
  • 2023,港片市场会在哪里复兴?

    港片已经不太可能重回黄金时代那种席卷东亚乃至世界的文化影响力,但这并不意味着港产片市场的消亡,只是创作者们需要更明晰地看到目标受众的需求——对传统港片有情怀的观众们,被进口视效大片塞满的观众们,他们想看到的东西未必是一样的,从业者必须从一开始就找到这种侧重点,进而在投资发行宣传上更有的放矢,更好地进行抉择甚至一些放弃。

    2023年2月8日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信