日前,浪潮信息发布“源2.0-M32”开源大模型。据悉“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。
今年以来,已有多个大模型厂商完成架构升级,并发布了基于MoE架构的大模型,从测试数据来看,新架构下的大模型性能有了明显提升。
“当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。”浪潮信息人工智能首席科学家吴韶华表示,源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,源2.0-M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。
其中,在算法层面,浪潮信息提出的新算法结构——基于注意力机制的门控网络(Attention Router),会关注专家模型之间的协同性度量,通过为每个专家提供三个特征向量来构建专家之间的关系,解决了传统的门控机制中,选择两个或多个专家参与计算时关联性缺失的问题,从而使得专家之间协同处理数据的水平大为提升。
在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。
在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。
吴韶华表示,浪潮信息希望在有限的算力和训练Token资源条件下,寻找到一条更可行的路径,从而实现能耗更低、推理和训练效果更优的大模型开发。基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。
源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。其中,源2.0-M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。
事实上,在大模型落地的起步阶段,市场需要的不仅仅是模型能力,更需要性价比。“大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。源2.0-M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。”吴韶华表示。