如今,数据中心行业正在加速AIDC行业布局,智算、超算、通用计算均开始为液冷打开成长空间。AIGC驱动应用与算力变革,智能算力成为主要增长动力,高密高算力等多样性算力基础设施导致高能耗,液冷方案将加快渗透。但依靠高密算力服务器的增长来推动液冷制冷行业市场需求空间仍旧缺乏主要动力,市场发展仍旧受了多重阻碍。尤其是,市场上的液冷创新难以依靠技术的单点突破带动整体效益的增长。为此,我们不禁要问IDC的液冷需求未来究竟在何方?也许,有些因素被我们轻视了。
这一次,IDC们怎样被液冷创新“暖”到了呢?
算力升级建设迫在眉睫
如今显而易见的是,对于企业未来经济增长的研究似乎都离不开聚焦基于人工智能的算力。如果说,OpenAI在2022年11月的发布是这些研究的催化剂,那以它所代表的AI生产力研究如今已经遍布各种政府、分析机构、相关产业链、项目实施方、最终应用领域各处的研究角落了。
AI对未来企业竞争力增长的肯定,已成燎原之势。
若问高盛那里,人工智能对经济增长的影响几何?他们可以拿出研究报告《人工智能对经济增长的潜在巨额影响》,告诉你那些采用AI 的企业员工生产效率每年能提高2-3 个百分点。
当你期望波士顿咨询能够给你一个更为具体的的解释,他们也许会直接拿出《取代还是解放:人工智能对金融业劳动力市场的影响》让你来看。其中里面的预测告诉你,到2027年,中国金融业就业人口可达993万人(2017年就业人口基础为733万人),其中,将有230万金融业岗位因人工智能的应用而被削减。
如果想知道具体什么样的AI才能带动经济效应,去问麦肯锡的时候,估计他们更多会拿出最近发布的《生成式人工智能的经济潜力:下一波生产力浪潮》报告,然后告诉你如果将他们分析的63种生成式AI应用于各行各业,将为全球经济每年带来2.6万亿至4.4万亿美元的增长。
进一步,你从中国科技部发布的《中国人工智能大模型地图研究报告》可以找到更多答案,全球已发布的大模型中,中国和美国大幅领先,超过全球总数的80%。中国人工智能大模型的产业舞台,已经成了中国与世界先进经济体的前沿对话。
可见,由ChatGPT开启的AI智能算力“军备赛”已经走向前台,算力升级建设迫在眉睫,从数据中心更多CPU的“超算”向依靠更多GPU的“智算”跨越的新时代。
近日,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年,计算力方面,算力规模超过300 EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。
中国企业“智算”建设正式进入明显加速节奏。
为何说ChatGPT开启的AI算力是一场“军备赛”呢?
不妨先来看看,ChatGPT是如何爆火全网的。例如,就连伊隆·马斯克都曾在推特上表示:ChatGPT好得吓人,我们离强大到危险的人工智能不远了。
人工智能的研究可以起源于1965年。但某种程度上可以说,正是ChatGPT将AI研究卷出了象牙塔,让一个聊天机器人可以超越多种企业应用需求场景里的人工实现,撰写邮件、论文、脚本,制定商业提案,创作诗歌、编写代码都可以变得易如反掌。
为此,很多精明的企业率先看到的商机就是:怎么把ChatGPT“COPY”到自己的数据中心里来?
好在,ChatGPT的创造者OpenAI公司披露了ChatGPT的相关配置。不过,知道后,你可能更多是望而却步。
官方称,训练GPT-3模型需要使用超过超过3万个图形处理器(GPU),耗费数月的时间。更强大GPT-4及之后GPT-5的GPU虽未披露,但业绩预测的数量也是惊人的,例如根据马斯克的说法,GPT-5可能需要30,000-50,000个H100,摩根士丹利的预测是25,000个GPU。
所以这场AI智能算力的“军备”能力(GPU数量)直接带给IDC们的是“算力焦虑”。
纵然你可以直接向亿万富翁、OpenAI公司CEO Sam Altman请教部署大模型需要解决的关键问题,他可能会告诉你——你需要更多GPU资源——“开放更长的上下文窗口、提供微调API等服务都受到GPU资源的限制”。这是他在前不久的一次欧洲之行时和另一个CEO的谈话中提到的。
不过,Sam Altman在此次谈话中更为强调地表示,降低成本是目前的首要目标。
一个关键的算力焦虑可能被轻视了
好的,如今要想你的企业赢在未来竞争中,即使是获得更长久的生存,你都或多或少要被卷进这场智算“军备赛”了。
当你看到这篇文章的时候,已经有13%的中国企业已通过AI实现卓越增长和业务转型。这是埃森哲在他们的《人工智能成熟之道:从实践到实效》报告中给出的数据。
所以说,即使你现在从零开启你的AI数字化转型,还算为时不晚。
说这场“军备赛”的关键是GPU数量,那这也是你如今的算力焦虑重点么?尤其是最近一些国际关系的变化,你是否更为焦虑了呢?
中国政法大学教授罗翔在“审判张三”的时候总结出了一个句名言:很多时候我们经常会羡慕别人的剧本,但是没有谁的剧本值得羡慕,你只能把你自己的剧本给演好。
换到中国IDC们,Sam Altman的GPU焦虑剧本可能并不适用于你自己。例如,你是否注意过,OpenAI用的那么多(或是几万个)H100 GPU放在了什么样的数据中心里?
的ChatGPT是构建在Microsoft Azure的数据中心上的,而Microsoft负责云运营和创新的副总裁Noelle Walsh曾透露说,Microsoft的PUE已经可以做到1.18了,而其全球PUE设计目标是1.22。
对此,你有PUE可以低于1.3的数据中心了么?而这是否才是你率先需要真正关注的“算力焦虑”呢?
竞争,已经在算力“起跑线”之前开始了
显然,智算、超算应用将成为接下来IDC里面的最主要增长部分,但这种增长并不能由IDC们信马游缰的野蛮生长。IDC里的规划、建设、能源、效率、运营等新发展趋势,都在受政策、经济性、性能、可用性等方面的新引导,以更好地利用AI算力提振企业竞争的能力。
例如,面向微软那种级别的数据中心PUE,国内已在顶层设计方面下了明确指示,已经构成多部门、多层级的系统的数据中心建设战略规划指引。有如财政部、生态环境部、工业和信息化部制定了《绿色数据中心政府采购需求标准(试行)》。贯彻到地区层面,有如上海市经济信息化委印发《上海市推进算力资源统一调度指导意见》的通知,到2025年数据中心算力超过18000 PFLOPS (FP32),集聚区新建大型数据中心综合PUE隆至1.25以内。更为细化的具体行业指引也多有出台,例如人民银行印发的《金融科技发展规划(2022—2025年)》中提出的“打造新型数字基础设施”的关键点之一就是“建设绿色高可用数据中心”。
综合来看,国家政策对数据中心的PUE值的要求是在不断提高,多数地区要求PUE做到1.2,甚至1.15以下。
AI大模型要更多智算力(当前主要是更多GPU,还可能是FPGA、ASIC、DPU、TPU等等),但GPU功耗明显比CPU还要高很多(例如,英特尔至强CPU Max TDP可达350 W,NVIDIA H100 TDP可达700 W)。
你要不要先解决一下你的IDC的PUE合规问题呢?
纵使你的智算中心没那么大的规模,划入不了政策圈定的PUE值范围,那你觉得你的现有机架能带动你需要的算力卡么?
大概率看,风冷技术是目前你的数据中心首选的冷却方式。但受空气传热系数低的限制,风冷技术在单服务器机架最多仅可以支持50KW的功率密度的理论极限。研究显示,冷热风道隔离的微模块,加水冷空调水平制冷在机柜功率超过15KW 后性价会比大幅下降。
智算力依赖于要多个GPU集中在一起的密集部署,例如,过去是在2U空间里解决两个300W CPU的散热问题,现在可能是需要解决4U空间4000W(例如,2个CPU+8个GPU)的散热问题。
你更好的选择是什么?
对于以上两个问题的答案,目前业界已经聚焦于数据中心液冷方案的采用。如今,数据中心液冷方案,既可以实现远低于相关PUE达1.3以下的能力,也能解决单机柜上千瓦服务器功耗散热问题。
所以说,在算力“起跑线”之前,液冷是企业算力“军备”之先的必争之地。
降低成本固然是目前的首要目标,但一个适合高密算力需求的液冷数据中心,才是你降低成本的首要目标。
液冷数据中心仍是一个新兴市场
就像每一个麦当劳的100米之内必有肯德基一样,高密智算中心话题也是离不开液冷数据中心建设议题的。
如今,有关液冷数据中心解决方案在解决IDC的PUE合规与拓展机柜功率密度的理论极限方面的研究与分析,也可谓汗牛充栋了。信手拈来,例如,根据赛迪顾问的数据,2019 年我国液冷数据中心市场规模为260 亿元,预计2025 年可达到1283.2 亿元以上。IDC预计,2022-2027年,中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。
液冷服务器要大幅增多、数据中心液冷解决方案自然水涨船高,无论哪个,液冷数据中心解决方案市场未来,都成绩喜人。
不过,当你看完以上3000字的时候,要是在这个时候告诉你,与算力“军备”的热情相比,液冷数据中心解决方案市场还是是非常小众的呢,你会作何感想?
依据,赛迪顾问《2023中国液冷应用市场研究报告》显示,国内液冷数据中心市场近三年来飞速发展,市场部署规模达到111.6MW。而曙光数创则以58.8%的市场份额,位列2021年至2023年H1,中国液冷数据中心基础设施市场部署规模第一,稳居行业头名。但另据曙光数创财报显示,2022年,曙光数创实现营业收入5.18亿元,同比增长27.01%;实现净利润1.17亿元,同比增长24.72%。面对千亿大市场容量,行业头名的营收尚在个位数(单位:亿元)。
从一些在建数据中心披露的数据来看,液冷数据中心也是一个刚开始孕育的市场。例如,位于中国西北地区的某大数据产业园在建项目,总投资28.5亿元,其中硬件固定投资10.5亿元,配套服务器及设备投资18亿元。其一期数据中心分级部署8kW-40kW机柜,包括采用间接蒸发冷却的8kW、12kW规格机柜,和服务于智算服务器的冷板式液冷的30kW-40kW规格机柜,其中液冷机柜只占整体机柜资源的约30%。
中国信通院云计算与大数据研究所所长何宝宏曾提到,液冷应用替代风冷仍会是一个长期的发展过程:传统风冷时代PUE可以做到1.5以下了;智算趋势里数据绿色数据中心要求PUE要更低到1.2;之后面向全液冷更是期望可以做到PUE在1.1以下。
面向数据绿色数据中心的液冷,正是当下的重点课题,而风液混冷仍是市场的主要发展空间。
液冷数据中心基础设施市场的独特发展路径
如果说是ChatGPT激发出了智算市场的前景,那满足数据中心的智算应用需求确实是个新兴市场。但液冷数据中心的“新兴”,却与智算市场的新兴大有不同。
业界早在10年前便探究了冷板与浸没两调液冷技术路线,相继研发的基础设施产品也已经进入三大运营商的数据中心形成规模化部署。部分供应商也早在多年前的相关技术评审中取得了不错的评审成果,诸如被相关权威专家给出技术水平高,创新性强、居于国际领先水平的技术肯定。
所以说,液冷数据中心技术设施市场的“新兴”,不是像缺少像AI智算市场那样缺一个像ChatGPT似的技术引爆点的问题,其市场的“新兴”拖累更多是受市场供应链结构的优化水平所拖累的。
即使我国相关液冷技术早在10年前就可以“遥遥领先”(例如,2019年便可以有大规模部署)了,这个“新兴”市场给众供应商奋力创新的机会仍是一片增长的蓝海。
笔者认为,若是以智算服务器从部署到服务于企业运营生产为 “算力生产”阶段,那为打造适合算力生产的液冷数据中心阶段就可以算作“算力规划与部署阶段”。照此说来,算力规划与部署阶段可以包含“数据中心建设咨询”与“数据中心工程与服务”。某种程度上可以对应IDC产商们的建筑工程和机电工程的规划与实施标段。
将“数据中心建设咨询”科细分为需求分析、规划设计、可研立项、节能改造、系统调优几个阶段;将“数据中心工程与服务”细分为机房装修、电气系统、暖通系统、监控系统、综合布线、运维服务。从实际项目周期来看,这两过程走下来可能需要少则半年,多则两年甚至更长的时间。
所以,企业在开启算力军备竞赛之前,需要很大程度上耗费在“数据中心建设咨询”和“数据中心工程与服务”阶段了。想到数据中心服务器的服役寿命才是5年,这一工期竟可以比肩近一半的服务器的服役寿命了。
也就意味着,当你的企业对手没能出现在你的算力竞争市场的时候,可能他已经倒在了不够给力的液冷数据中心方案那里了。
可见,一个优秀的液冷数据中心对于算力“军备赛”至关重要。
液冷数据中心基础设施从调研需求到到完成交付为何需要长达两年时间的工期?
因为,这仍是一个客户需求极度差异化的市场。差异化的难度至今没能让任何一个权威机构给这一市场作出足够权威的“标准化”指引。从风冷转液冷背后,可能是数据中心园区在规划、建筑、结构、给排水、空调、电气照明、消防、智能化的全新演进与升级,目前仍是极度客制化的市场。
“每个行业,甚至每个客户想法都不一样。例如,金融行业对可靠性要求极致,互联网行业会更多考虑性价比,运营商行业可能是液冷方案走最积极的,有的在智能化方面会有更高要求。这三块儿也基本上占了液冷数据中心90%的份额。对于更多类型的客户,科研机构可能更多关注冗余性、可靠性,教育领域更加看重能否省更多电费,即使客户对PUE不是那么敏感,但对液冷方案的关注点也是多种多样的。”业界资深人士在接受笔者采访时表示。
这种差异化的市场情景,可能讲液冷创新重点突出向供应商的服务产线能力专业。例如,基于成本、质量、安全、交付期上等综合因素,实现更为极致的完整的客户生命周期的服务体验。
例如,近日某产商宣布推出的新一代一体化风液混冷先进数据中心解决方案,相比传统冷冻水设备施工周期可以缩短近60%的时候,IDC们感觉“暖”了;当某厂商宣布他们新的创新生产基地可以启用了的时候,市场表现获得多家证券的买入评级和研报关注。
从“先进算力”到“一体化服务 ”
虽然液冷数据中心市场增长速度喜人,但从规模来看,目前我国液冷服务器渗透率仍不是很高,AIGC成为液冷领域最具核心的推手还尚需时日。面相下一代人工智能服务器的功耗提升问题,液冷制冷是仍有比较强烈的市场需求空间,但提升数据中心基础设施产线在成本、质量、安全、交付期上的服务能力考验,也是不容忽视的因素。
尤其是,工信部等六部门联合印发《算力基础设施高质量发展行动计划》中,明确了未来算力基础设施需要呈现多元泛在、智能敏捷、安全可靠、绿色低碳等特征,需要加强计算、网络、存储和应用的协同创新。
对此,企业的算力“军备”竞争,其实更应是“先进、绿色、无损算力”和“集算力、数据、应用、运营、运维为一体的服务”。这种一体化的服务算力,将会更加考验供应商们通过加大研发投入、拓展市场,不断提高液冷交付服务能力的盈利能力。