昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE 性能强劲成本更低

2024-07-04 04:58:40 分类：业界阅读(4299)

CSS站长资源（ChinaZ.com）6月4日消息:在大模型技术迅速发展的昆仑开源背景下，昆仑万维公司开源了一个具有里程碑意义的宣布稀疏型SE性稀疏大型语言模型Skywork-MoE。这个模型不仅在性能上表现出色，千亿而且还大幅降低了推理成本，大模低为应对大规模密集型LLM带来的劲成挑战提供了有效的解决方案。

Skywork-MoE模型特点:

开源和免费商用:Skywork-MoE的本更模型权重、技术报告完全开源，昆仑开源且免费商用，宣布稀疏型SE性无需申请。千亿
推理成本降低:该模型在保持性能强劲的大模低同时，大幅降低了推理成本。劲成
稀疏模型:Skywork-MoE是本更一个专家混合模型（MoE），通过将计算分配给专门的昆仑开源子模型或“专家”，提供了一种经济上更可行的宣布稀疏型SE性替代方案。
支持单台4090服务器推理:是千亿首个支持用单台4090服务器推理的开源千亿MoE大模型。

技术细节:

模型权重和开源仓库:模型权重可在Hugging Face上下载，开源仓库位于GitHub。
推理代码:提供了支持8x4090服务器上8bit量化加载推理的代码。
性能:在8x4090服务器上，使用昆仑万维团队首创的非均匀Tensor Parallel并行推理方式，Skywork-MoE可以达到2200tokens/s的吞吐量。

模型性能和技术创新:

参数量:Skywork-MoE的总参数量为146B，激活参数量22B，共有16个Expert，每个Expert大小为13B。
性能对比:在相同的激活参数量下，Skywork-MoE的能力在行业前列，接近70B的Dense模型，推理成本有近3倍的下降。
训练优化算法:Skywork-MoE设计了两种训练优化算法，包括Gating Logits归一化操作和自适应的Aux Loss，以解决MoE模型训练困难和泛化性能差的问题。

大规模分布式训练: