点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:2千亿稀疏大模型天工Skywork-MoE开源助力模型训练
首页> IT频道> 今日头条 > 正文

2千亿稀疏大模型天工Skywork-MoE开源助力模型训练

来源:光明网2024-06-04 15:13

  6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。

  基于目前各大主流模型评测榜单进行评测,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

  为了解决MoE模型训练困难,泛化性能差的问题,Skywork-MoE设计了两种训练优化算法。Skywork-MoE模型在GatingLayer的token分发逻辑处新增了一个normalization操作,使得GatingLayer的参数学习更加趋向于被选中的top-2experts,增加MoE模型对于top-2的置信度。其次,有别于传统的固定系数(固定超参)的auxloss,Skywork-MoE模型在MoE训练的不同阶段让模型自适应地选择合适的auxloss超参系数,提升模型整体的性能和泛化水平。

  同时,在MoE模型高效地进行大规模分布式训练方面,Skywork-MoE提出了两个重要的并行优化设计,在千卡集群上实现了MFU38%的训练吞吐。首先,Skywork-MoE提出了一种称之为“ExpertDataParallel”的并行设计方案。这种并行方案可以在Expert数量较小时仍能高效的切分模型,对Expert引入的all2all通信也可以最大程度的优化和掩盖。相较于EP对GPU数量的限制和ETP在千卡集群上的低效,EDP可以较好的解决大规模分布式训练MoE的并行痛点。同时,EDP的设计简单、鲁棒、易扩展,可以较快的实现和验证。

  其次,针对流水并行下均匀切分Layer时的各stage计算负载和显存负载的不均衡情况,Skywork-MoE提出了非均匀的流水并行切分和重计算Layer分配方式,使得总体的计算/显存负载更均衡,约有10%的端到端训练吞吐提升。

  此外,Skywork-MoE还通过一系列基于ScalingLaws的实验,探究哪些约束会影响Upcycling和FromScratch训练MoE模型的好坏。Skywork-MoE认为,如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,那么选择fromScratch训练MoE会更好,否则的话,选择Upcycling训练MoE可以明显减少训练成本。

  本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。天工3.0还训练了75B(Skywork-MoE-Small)和400B(Skywork-MoE-Large)两档MoE模型,并不在此次开源之列。

  开源的Skywork-MoE模型、技术报告和相关的实验结果可以给开源社区贡献更多的MoE训练经验和Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面,探索用更低的训练推理成本训练更大更强的模型,在通往AGI的道路上贡献一点力量。(李记)

阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 习近平出席金砖国家领导人第十六次会晤

  • 习近平会见印度总理莫迪

独家策划

推荐阅读
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了延安新材料产业园,亲身体验石墨烯发热背心,感受科技的温暖拥抱。
2024-10-24 11:18
近期,延安市薛张小流域水土保持项目碳汇交易成功!这不仅是一次生态保护与经济发展的双赢,更为延安乡村振兴注入了新的活力!
2024-10-24 11:16
《再回延安》以延安革命历史为背景,带我们穿越回那个爬雪山过草地的红色年代。演出利用声光电并模拟真实风雪真实场景,通过“一间记忆的博物馆”、“一簇燎原的星火”、“一条漫漫的长征路”、“一面不朽的旗枳”四个篇章,带我们行进式沉浸其中,重温那段艰苦岁月……
2024-10-24 11:14
10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团来到了位于延安市安塞区南沟村的苹果基地,在这里记者们亲身体验苹果采摘,倾听果农的心声。同时,记者团还开展了一场特别的直播带货活动,助力果农销售苹果。此次活动不仅展现了果农的辛勤付出,也让更多人了解到延安苹果的魅力,为乡村振兴贡献了一份力量。
2024-10-24 11:07
10月23日,“弘扬延安精神 奋进伟大时代”网上主题宣传“逐梦之路”媒体采访团走进延安宜川县,追寻“悬崖造林队”的故事。
2024-10-24 10:27
陕北说书最近火爆出圈,董宇辉在直播中表示向往陕北文化,想成为一个陕北说书人。这一段陕北说书,带你行走在延安的绿水青山间。
2024-10-24 10:21
近日,在陕西延安举行的“弘扬延安精神,奋进伟大时代” 网上主题宣传系列访谈中,延安数据(集团)有限责任公司董事长高延宏介绍,延安的地域特点适宜建立算力中心,要把平台搭建好,把更多的企业引到延安,建立归属在延安的算力中心,更好的服务延安、服务陕西。
2024-10-24 10:18
“圣地蓝”成延安靓丽新名片!近年来,延安出台多项措施积极推进环境治理,有效减少空气污染源,空气质量优良天数逐年增加,2023年达到323天,让蓝天白云常驻延安上空。
2024-10-24 10:07
如今,延安子午岭林区有目前已知的国内最大野生华北豹种群。随着延安生态环境的持续改善,其种群栖息地向北扩散近五十公里!
2024-10-24 10:05
10月22日,在南泥湾,“弘扬延安精神 奋进伟大时代”网上主题宣传媒体团采访南泥湾,齐声合唱经典曲目《南泥湾》,在歌声中,我们仿佛看到了昔日的开荒景象,感受到了那份自力更生的坚韧精神。一曲《南泥湾》,唱出了对美好生活的向往。
2024-10-23 17:03
入驻延安新材料产业园的延安市圣烯科技股份有限公司,研发的这款马甲借助石墨烯良好的热传导性能,只要插上充电宝就能实现发热取暖。入驻延安新材料产业园的延安市圣烯科技股份有限公司,研发的这款马甲借助石墨烯良好的热传导性能,只要插上充电宝就能实现发热取暖。
2024-10-23 16:55
“这么小个头的苹果树竟然能长出那么大的苹果!”10月22日,“弘扬延安精神 奋进伟大时代”网上主题宣传走进延安市安塞区南沟村,调研采访南沟村的苹果产业现代化发展之路,有记者在看到矮砧密植的苹果树后,直呼意外。
2024-10-23 16:47
土生土长的延安娃陈凯凯,在他的不懈努力下蜕变为“菇”勇者,小小香菇带着周围的村民们走出延安,产品走出国门,奔向新生活。
2024-10-23 16:44
当秋天降临延安,山川绚丽多彩。甘泉县的延安劳山国家森林公园宛如一幅绝美的秋之画卷。这里有丰富的野生植物和野生动物,是“植物王国”和“天然氧吧”。快来邂逅秋日美景!
2024-10-23 16:39
在历史的长河中,陕西延安富县藏着一条古人的“高速路”——秦直道。它承载着千年的沧桑与辉煌,见证了无数的风云变幻。千里秦直道,最美在富县,让我们一同踏上这片古老的土地,追寻历史的足迹,感受那穿越时空的魅力。
2024-10-23 16:36
一块面团,一双巧手,几经揉捏,几笔勾画,上锅蒸熟后,面团变成了花卉、动物的样式。黄陵面花在黄陵延续了上千年的历史,体现了当地人对美好生活的向往。
2024-10-23 16:33
延安小杂粮种植面积达 40.65 万亩,预估产值 52 亿元,从业人口 10.7 万人,“延安小米”品牌价值达 27.69 亿元。昔日滋养革命的小杂粮,如今正引领着延安乡村振兴之路越走越宽,持续哺育着延安的振兴发展。
2024-10-23 16:29
“荒山秃岭都不见,疑似置身在江南。只缘退耕还林好,一路青山到延安。”这首流传在百姓间的打油诗,描述着今日的延安景色。在延安市吴起县南沟村,抬头看,满目青山,低头看,碧水汪汪,很难想象这是坐落在陕北的小山村。在过去的近30年里,这个小山村实现了从“一棵树”到“一片林”的蜕变。荒山披上“绿衣”,怎么做到的呢?
2024-10-23 16:25
延安精神,是我们党宝贵的精神财富,是激励我们不断前进的强大动力。
2024-10-19 16:29
近日,何超琼在参加“弘扬延安精神 奋进伟大时代”网上主题宣传访谈时表示,自己期待有一天能够走进延安,感受“绿满山川成锦绣”,聆听历史的回声,见证时代的发展,汲取前行的力量。
2024-10-19 16:33
加载更多