几乎是一夜之间,AI 服务器价格在国内市场中飙升。
智东西从一位服务器渠道销售人员处得知,搭载英伟达 A800 GPU 的热门 AI 服务器型号的价格已达 140~150 万元 / 台,比今年 6 月上涨超 40%;搭载 8 颗英伟达 H800 GPU 的 AI 服务器价格上涨则更离谱,几天内涨了大几十万,逼近 280 万元 / 台,涨幅超 10%。
自 " 百模大战 " 打响以来,国内 AI 服务器产业可谓冰火两重天。
一边,大模型浪潮带来了 AI 服务器需求暴增。互联网云大厂、AI 大模型企业以及行业公司需纷纷砸钱投入。不仅中国电信这样的 ICT 龙头近期定下超 80 亿元的 AI 算力服务器采购项⽬,就连 " 味精大王 " 莲花健康这样的跨界玩家也横插一脚,近日刚刚豪掷 7 亿元购入 GPU 服务器。
另一边,海量需求难敌供给不足。热门 AI 服务器型号售价翻数倍,近 300 万一台却有价无市。包括浪潮信息、新华三、宁畅、联想、工业富联等多家头部厂商推出了大模型新机,但什么时候能排上单?随着美国加紧对英伟达 GPU 及国产 AI 芯片的限制,这个问题恐怕要打上一个大大的问号。
AI 服务器对大模型的重要性不言而喻。如果把大模型比作一个需要靠吃大量数据长大的孩子,那 AI 服务器就是决定孩子能不能吃好的大厨。" 百模大战 " 本质上也是一场 AI 服务器之争。
作为上接芯片大厂、下连大模型企业的承上启下角色,中国服务器厂商如何破局?这也成为我国大模型产业的发展的一个重要议题。
一、大模型浪潮下的 AI 服务器生意:价格飞涨、红海在望、客户破圈
" 之前是服务器不好卖,现在反过来是客户求着买!" 一位头部服务器厂商代理销售员告诉智东西," 涨价倒是次要的,很多客户已经不在意多个几万,现在是明显的卖方市场,签单后不完全保证交货是时间点,但也不会承诺违约金。"
AI 服务器是异构服务器,其核心的芯片可有不同的组合方式,包括 CPU+GPU、CPU+TPU、CPU+ 其他加速卡等。相比于通用服务器,AI 服务器更适应 AI 训练和推理的大算力、高并发、大数据流转等需求,已经成为大模型时代的 " 香饽饽 "。
以热门 AI 服务器型号浪潮 NF5688M6 服务器为例,某代理商在电商平台上挂出 125 万元的价格,这款搭载 8 颗 A800 GPU 的服务器今年 5 月时还是 105 万元,但即便是这个高出近 20% 的价格,也是缺货状态。另一家有货的网店 NF5688M6 标价则逼近 160 万元,销售人员告诉智东西,现货 145 万元能拿到,但目前手上只有 2 台,更多则需要搭配选择宁畅、超微等其他品牌机器。
▲ NF5688M6 服务器在京东上的销售页面截图
店家告诉智东西,基于 H800 GPU 的 AI 服务器有一批新货,但我们当一问价格,店家都直呼离谱,几天里涨了大几十万。前段时间价格再高也不过 250 万元,现在得 280 万元才能拿下。反应慢点的销售渠道,则是一夜间改口,直线涨价 30 万元。
对于今年的行情,服务器厂家、代理渠道颇有受宠若惊的感觉,一位服务器厂家人员对智东西感叹:" 每一次以为算力要成「红海」了,它又出现无限的「蓝海」。"
这片「蓝海」基本得到了高层的 " 盖章 "。10 月 8 日,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,计划提出,到 2025 年我国算力规模超过 300EFLOPS(300 百亿亿次浮点运算 / 秒),智能算力占比达到 35%。而对比中国信通院数据,截至今年 6 月底我国算力规模达 197EFLOPS,其中智能算力占比达 25%。
这意味着,智能算力量化指标提升超 110%,预计将会有约 56EFLOPS 的智能算力增量市场。
服务器龙头企业浪潮信息的相关负责人告诉智东西:" 以大模型为代表的 AIGC 技术加速发展,给 AI 计算带来空前机遇。丰富的应用场景和对技术创新迭代的热忱,让中国市场对于 AI 服务器的关注度和需求量均明显增长,并可能在未来几年继续保持高速增长。"
根据知名行研机构 IDC 此前的报告,2023 年上半年加速服务器市场规模达到 31 亿美元,同比 2022 年上半年增长 54%;中国加速服务器到 2027 年市场规模将达到 164 亿美元(约合 1198.84 亿元人民币)。
布局智能算力「蓝海」,汇聚 AI 服务器集群的智算中心是一大抓手。如下图所示,在 2023 年 3 月 -10 月,全国已有超 10 座超大型智算中心已开工或启用,均衡分布在全国各地。大部分已启用的智算中心正在边用边扩容,都将扩大对 AI 服务器的需求。
▲国内部分智算中心项目建设启用情况
究其背后的推进者,互联网云大厂、运营商、AI 大模型企业以及行业龙头也都卷进来了,向服务器厂商接连抛出亿级订单。
头部服务器厂家新华三的相关负责人告诉智东西:"「百模大战」深入推进,使得越来越多的企业、研究机构和开发者开始使用深度学习技术,推动了对 AI 服务器的需求。训练和推理阶段对于深度学习任务需要大量的计算资源,而 AI 服务器能够提供高性能的异构计算能力,满足这样的需求。"
近日,中国电信 AI 算力服务器(2023-2024 年)集中采购项⽬已完成对投标⽂件的评审,合计采购 4175 台训练服务器,总额约 84.63 亿元,超聚变、浪潮信息、新华三、宁畅、中兴、烽火、联想以及几家华为代理商等厂商都入围了。
巨浪之下,就连 " 味精大王 " 莲花健康这样的跨界选手也在大购 AI 服务器。根据其 9 月 28 日一笔采购合同,新华三将向莲花科创交付 330 台英伟达 H800 GPU 系列算力服务器(每台服务器含 8 块 GPU),合同总价为 6.93 亿元。
可以看到,无论是动辄几十 P 级别的智算中心,还是一出手就是数亿、数十亿的订单,都让服务器产业的生意人不再愁卖货。大模型浪潮下 AI 服务器生意价格飞涨、红海在望、客户破圈,将 AI 服务器厂商推向一片掘金地带。
二、服务器厂家扎堆发大模型新品,单接不过来、排产到明年
" 有一半单子都是 AI 服务器,是传统服务器的两倍不止。" 一位头部服务器厂商的人士告诉智东西,"AI 服务器还会紧俏很一阵子,推理机的需求还没真正释放,不少客户今年买推理机也是试试水,明年可能会更大力投入。"
看准大模型这一长期赛道,反应较快的服务器厂商都已经面向大模型推出了硬件新品。
▲部分厂商面向大模型推出的服务器新品情况
与此前的专用小模型相比,大模型训练对服务器提出了众多新需求。这不仅包括高性能算力、大数据存储、更多框架适配,还包括更高的数据传输效率、更优的断点修复力、AI 算力集群的调度管理能力等,这都促进服务器厂商推出大模型训练和推理新机器。
1、大模型推动服务器设计创新,头部玩家抢滩
" 深度学习模型逐渐变得庞大而复杂,需要更高的计算能力,推动 AI 服务器不断提高性能,采用强劲的 AI 加速卡,以及更高的带宽和更大的容量。"新华三相关负责人告诉智东西," 为了满足深度学习任务的需求,AI 服务器推动了许多设计创新。例如,为了提高服务器的计算密度和效能,AI 服务器的散热和功耗管理,以及绿色数据中心的构建也成为设计的重要考虑因素。"
新华三于今年 6 月就推出了面向大模型的 AI 服务器 H3C UniServer R5500 G6,据称相较上一代产品算力提升 3 倍,对于 GPT-4 大模型训练场景训练时间缩短 70%。
作为 AI 服务器市场份额连续五年第一的行业龙头,浪潮信息也于 9 月 21 日升级推出最新 NF5468 系列 AI 服务器,大幅提升了 Llama 等大模型的微调训练性能;为了实现全局最优性能、能效或 TCO,需要产业链需协同。浪潮信息自 2019 年起主导 OAM(开放计算项目加速器模块)标准制定并与芯片厂加速适配,最近则发布了新一代的 OAM 服务器 NF5698G7,全 PCIE Gen5 链路,H2D 互联能力提升 4 倍。
浪潮信息相关负责人说,大模型对 AI 服务器的性能和功能提出更高的要求,考量的不仅仅是单一芯片或单一服务器,绝大多数情况最终部署的形式是包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等在内的一体化高集成度的智算集群。
以联想为代表的老牌服务器厂商,更是举全公司战略布局 AI 大模型时代。今年 8 月,联想推出两款全新 AI 服务器产品——联想问天 WA7780 G3 AI 大模型训练服务器、联想问天 WA5480 G3 AI 训推一体服务器;与此同时,联想首次对外发布 " 普慧 "AI 算力战略,提出将 100% 算力基础设施产品支持 AI,50% 基础设施研发投入在 AI 领域等战略举措,并推出了联想智算中心解决方案和服务核心产品。
▲联想两款服务器新品介绍
联想集团副总裁、中国区基础设施业务群服务器事业部总经理陈振宽在当时提到,以 AI 为导向的基础设施要依据 AI 数据和算法的特性而设计和优化,包括 AI 数据的 " 向量、矩阵或多维数组的形式 "、" 数据噪音多 " 等特征,以及 AI 算法 " 巨大规模并行计算和矩阵计算 "、" 容忍低精度浮点或量化整数 " 等特征,都需要被考虑在内。
2、算力效率更关键,考验软硬协同的工程化能力
虽然服务器厂商你追我赶地推出大模型新机,但能够第一时间拿到真机的人仍是少数。有多家大模型服务器新品都采用 8 颗 H800、A800 或 L40S GPU。相关厂家负责人告诉智东西,AI 服务器新品已不接单,之前说要排单到 6 个月后,现在看是 12 个月之后。
即便如此,服务器厂商仍加快从软件到生态的一盘棋布局。
浪潮信息相关负责人告诉智东西,不同于传统的小模型,大模型能力来源于大量工程实践经验。因此,当眼前的算力资源稀缺在明年逐渐被解决,算力之下的算力效率是另一个难解的命题。
以预训练阶段为例,首先,AI 大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等提出了较高需求,万卡 AI 平台的规划建设、性能调优、算力调度都是很难解决的难题;其次,大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题;再次,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。
为此,浪潮信息除了在硬件布局,还在软件算法加快全栈能力覆盖。其最新推出了 OGAI (Open GenAI Infra)" 元脑生智 ",这是其于 8 月 24 日推出的大模型智算软件栈,据称可为大模型业务提供 AI 算力系统环境部署、算力调度保障及模型开发管理能力,助大模型企业解决算力的系统全栈问题、兼容适配问题、性能优化问题等。浪潮信息自 2019 年牵头发起元脑生态计划,聚合具备 AI 开发核心能力和行业整体方案交付能力的伙伴。
▲浪潮信息 OGAI 简介
新华三相关专家也认为,百模大战推进使得大规模的 AI 服务器集群需要进行有效的管理和部署。为了管理和部署这些服务器,需要使用高效的集群管理软件和自动化工具,以确保服务器的高可用性、高性能和高效率。
为此,新华三从使能平台、数据平台、算力平台着手,打造 AIGC 整体解决方案。8 月,新华三私域大模型百业灵犀(LinSeer)在中国信通院组织的大模型标准符合性验证中,实现了模型开发模块被评为 4+ 的国内领先水平。此外,新华三也加强与头部互联网公司合作,探索私域模型与通用模型深度融合。
另外,厂商们还争相推出行业报告、标准及指南,希望掌握话语权。
比如浪潮信息发布了《开放加速规范 AI 服务器设计指南》,面向 AIGC 细化完善了从节点到集群间的 AI 芯片应用部署全栈设计参考;宁畅在积极发新的同时,积极参与 AI 服务器研究项目,参与编写了《AI 服务器白皮书》。
可以看到,大模型及 AIGC 技术加速发展,给 AI 计算带来空前机遇的同时,也带来了巨大的挑,需从硬件、软件和算法、生态等多层面应对。
AI 服务器是各服务器厂商的必争之地,是蓝海争夺之战,更是生存之战。
仍以行业龙头浪潮信息为例,其 2023 年上公司实现营业收入 247.98 亿元,同比下降 28.85%;归母净利润 3.25 亿元,同比下降 65.91%。随着传统通用服务器市场增量有限,如何把握大模型机遇下的智能算力机遇,获得更大的市场,成为服务器厂商实现新跨越的关键一步。
三、应对产业链风险:国际芯片大厂供应成疑,加速扶持国产 AI 芯秀
有价无市,是 AI 服务器需求爆发的另一面,究其背后原因,还是供应链供应不足。
10 月 17 日,美国商务部工业和安全局(BIS)公布新的先进计算芯片、半导体制造设备出口管制规则,限制中国购买和制造高端芯片的能力。英伟达通过向中国市场供应降低了互连速度的 " 阉割版 " 旗舰计算芯片 A800 和 H800,来适应此前的限制规则。而新规的变化可能会冲击英伟达 A800 和 H800 的销售,AMD、英特尔等预计也可能受到新规的影响,这无疑加剧了国内 AI 服务器的供应链困难。
多位业内人士告诉智东西,过去很长时间里,国内外知名大模型大多数是基于 GPGPU 训练而来,占到 90% 左右,只有 10% 是基于其他的 ASIC 芯片。而 GPGPU,又基本以英伟达的 A100、A800、H100、H800 效率最高。
由于美国禁令限制,加上英伟达对市场的预估不足,GPGPU 供给成为卡住 AI 服务器市场排产出货的关键点。服务器领域的一位渠道人员告诉智东西,这几天美国禁令收紧,很多人担心市面上的机器成为绝版,价格立马就起来了。
实际上,基于供应受限的背景,服务器龙头们过去半年来一边继续做 GPU 服务器的开发,另一方面纷纷采取开放架构,兼容国产自主创新芯片。比如浪潮信息就推出了开放加速计算架构,据称具有大算力、高互联和强扩展的特点。基于此,浪潮信息发布了三代 AI 服务器产品,和 10 余家芯片伙伴实现多元 AI 计算产品落地,并推出 AIStation 平台,可高效调度 30 余款 AI 芯片。
还有一些服务器厂商则绕过 GPGPU 路线,另辟蹊径从自主创新硬件落地 AI 服务器。
比如,8 月 15 日,科大讯飞与华为联合发布了讯飞星火一体机。星火一体机基于鲲鹏 CPU+昇腾 GPU,采用华为存储和网络提供整机柜方案,FP16 算力达 2.5 PFLOPS。对比来看,在大模型训练中最为流行的英伟达 DGX A100 8-GPU,可以输出 5PFLOPS 的 FP16 算力。
▲华为主推的 AI 推理训练服务器及相关参数
据第一财经报道,星火一体机很可能使用的是华为尚未官方对外发布的昇腾 910B AI 芯片,很可能是对标 A100。而从华为已对外公布的 Atlas 系列服务器产品来看,目前已涉及等多款推理机和训练机,所用到的昇腾 910 已经略超 A100 80GB PCIe 版本,在盘古、讯飞星火等特定大模型场景中实现替代。
不过,智东西从产业链得知,当下昇腾 910 更适用于自身生态中的大模型,与其自有的 MindSpore 等开发框架像配合,通用性尚且不足。其他模型如 GPT-3,则需要深度优化后才能再华为平台上顺畅运行。尽管讯飞等大模型厂家与其达成合作,但很多工作可能才刚刚开始。
除此之外,从业内人士处获悉,海光信息已独立研发两代 DCU 深算系列产品,并规模化量产,产品性能领先,可较好的支持通用大模型的训练推理工作。还有芯片创企如寒武纪、摩尔线程、壁仞科技、沐曦等也已经可以向 AI 服务器厂商供货。尽管一些公司受到美国实体清单影响,但更明晰的局势客观上为他们加速推进产品迭代和落地提供了动力。
总的来说,服务器厂商主要是两手准备,抵御产业链紧缺风险。而业内人士告诉智东西,由于大多数 AI 芯片创企是去年下才开始研发面向大模型 AI 芯片,因此目前在芯片架构、软件配套等方面可能仍不成熟,但通过更快的迭代节奏,国产 AI 芯片有望在今年底或明年撑起一部分 AI 服务器需求。
结论:" 百模大战 " 关口,AI 服务器厂商 " 枢纽 " 角色更关键
随着大模型向千行百业落地,部署 AI 算力已成为算力基础设施的重要发展方向。IDC 报告显示,随着生成式 AI 应用的爆发,各行业对智算的需求首次超过通用算力,AI 算力已成为算力发展的主要方向,成为 " 东数西算 " 发展新的强劲动力。
服务器产业和厂商是智能算力建设中的重要一环。我们看到,当下国内服务器市场出现了价格飞涨、红海在望、客户破圈的盛况,同时也面临着供应链短缺、供需失衡的严峻风险。百模大战关口,AI 服务器厂商走到了产业链疏通力的验证时刻。能否在抵御供应链风险的同时,与上下游伙伴形成强力联盟,成为 AI 服务器厂商破局的一个关键。