点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:2千亿稀疏大模型天工Skywork-MoE开源助力模型训练
首页> IT频道> 今日头条 > 正文

2千亿稀疏大模型天工Skywork-MoE开源助力模型训练

来源:光明网2024-06-04 15:13

  6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。

  基于目前各大主流模型评测榜单进行评测,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

  为了解决MoE模型训练困难,泛化性能差的问题,Skywork-MoE设计了两种训练优化算法。Skywork-MoE模型在GatingLayer的token分发逻辑处新增了一个normalization操作,使得GatingLayer的参数学习更加趋向于被选中的top-2experts,增加MoE模型对于top-2的置信度。其次,有别于传统的固定系数(固定超参)的auxloss,Skywork-MoE模型在MoE训练的不同阶段让模型自适应地选择合适的auxloss超参系数,提升模型整体的性能和泛化水平。

  同时,在MoE模型高效地进行大规模分布式训练方面,Skywork-MoE提出了两个重要的并行优化设计,在千卡集群上实现了MFU38%的训练吞吐。首先,Skywork-MoE提出了一种称之为“ExpertDataParallel”的并行设计方案。这种并行方案可以在Expert数量较小时仍能高效的切分模型,对Expert引入的all2all通信也可以最大程度的优化和掩盖。相较于EP对GPU数量的限制和ETP在千卡集群上的低效,EDP可以较好的解决大规模分布式训练MoE的并行痛点。同时,EDP的设计简单、鲁棒、易扩展,可以较快的实现和验证。

  其次,针对流水并行下均匀切分Layer时的各stage计算负载和显存负载的不均衡情况,Skywork-MoE提出了非均匀的流水并行切分和重计算Layer分配方式,使得总体的计算/显存负载更均衡,约有10%的端到端训练吞吐提升。

  此外,Skywork-MoE还通过一系列基于ScalingLaws的实验,探究哪些约束会影响Upcycling和FromScratch训练MoE模型的好坏。Skywork-MoE认为,如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,那么选择fromScratch训练MoE会更好,否则的话,选择Upcycling训练MoE可以明显减少训练成本。

  本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。天工3.0还训练了75B(Skywork-MoE-Small)和400B(Skywork-MoE-Large)两档MoE模型,并不在此次开源之列。

  开源的Skywork-MoE模型、技术报告和相关的实验结果可以给开源社区贡献更多的MoE训练经验和Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面,探索用更低的训练推理成本训练更大更强的模型,在通往AGI的道路上贡献一点力量。(李记)

阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 我国成功发射卫星互联网低轨卫星

  • 走进第八届数字中国建设峰会现场体验区

独家策划

推荐阅读
2025年4月10日,安徽省芜湖市无为市昆山镇三公山茶叶种植基地,千亩高山野生杜鹃在翠绿的茶园之间绚丽绽放,美轮美奂,美不胜收
2025-04-10 15:13
近年来,江苏省泰州市姜堰区以科技创新赋能产业发展、以产业创新带动技术突破,持续优化营商环境,迭代升级“堰商汇”数智亲商服务平台,厚植民营经济发展沃土,以高质量服务促进民营企业高质量发展。
2025-04-06 18:06
2025年4月1日,北京怀柔慕田峪长城内外山花盛开,美丽的春花把古长城打扮的多姿多娇,犹如春天里一幅壮美的风景画
2025-04-02 15:44
2025年4月1日,船舶航行在安徽省合肥市庐江县境内的引江济淮航道上,标志着菜子湖湿地候鸟越冬季禁航结束,菜(子湖)巢(湖)线恢复通航
2025-04-01 15:40
2025年3月31日,江苏苏州吴中区光福镇,太湖之滨,桃花、樱花、油菜花等竞相绽放,生态优美,春景如画
2025-04-01 15:31
用镜头记录城市更新 青岛首届“百家媒体看改变”活动圆满闭幕
2025-03-20 10:14
"昭君杯"首届全国老年合唱大赛在北京国家大剧院正式启动
2025-03-19 16:10
2025年2月25日,云南省昭通市绥江县,新市金沙江特大桥施工现场,工人正加紧施工。
2025-02-26 15:41
2025年2月7日,重庆市巫山县曲尺乡月明村一大片梅花竞相开放、灿若红霞,游客和市民前来游玩打卡,尽享春日的快乐和惬意
2025-02-08 14:52
2025年2月5日,福建省福清市石竹山风景区,一场非遗英歌舞、建瓯挑幡等非遗表演正在进行,让游客感受中华优秀传统文化魅力,丰富景区文化内涵和游览品质
2025-02-06 15:55
2025年1月20日,江西省赣州市章贡区城市中央公园内,游船与湖水、植被、高楼相互映衬,呈现出一幅冬日多彩美丽生态画卷
2025-01-20 15:30
2025年1月16日,受低温天气影响,山西省运城盐湖出现冬季独特的“硝花”景观,水面上的硝花形态各异晶莹剔透,美不胜收。
2025-01-16 15:56
一位“行者”行走在广袤的沙漠中,遮掩着绝世的面庞,一面“古镜”掩埋于厚重的沙下,刻满了时间的裂痕。
2025-01-13 17:25
2025年1月9日,重庆市酉阳土家族苗族自治县桃花源国家森林公园白雪皑皑,雪景如画
2025-01-09 15:24
关爱卡寒假公益行 助力云南各族青少年儿童梦想起航
2025-01-08 14:42
2025年1月5日,在山西太原南站开往呼和浩特东站的D4022次列车前,游客自拍合影。
2025-01-06 16:01
2024年12月8日,广西梧州岑溪市岑城镇木榔村,生态田园中阡陌纵横线条分明,冬韵如画。
2024-12-10 16:48
2024年12月10日,贵州省黔西市绿化白族彝族乡大海子村,青山环绕树木葱茏,构成一幅美丽的生态画卷。
2024-12-10 16:40
2024年12月6日,古城苏州街头,成片的银杏、红枫等树木色彩斑斓满目缤纷,成为一道迷人的风景。
2024-12-06 15:48
2024年12月6日,初冬时节,山东省青岛市即墨区灵山街道花卉种植基地的大棚里一片繁忙,种植户忙着管护花卉。
2024-12-06 15:48
加载更多