新闻稿

趋势洞察 | AI的尽头真的是光伏、储能和核能吗?— GTC归来,对AIDC的设计与建设思考(一)

日期:2024年04月10日

以下文章来源于GDS PiloTalk ,作者刚爷

引言

“AI的尽头是能源”,观点一出,引发科技界热议,即便是在英伟达Blackwell架构单GPU性能在提高5倍,能耗下降25倍的“极致”能效表现下。

对于数据中心企业而言,如何降低能耗、提高能效是一个永恒的话题,未来AIDC的更大范围部署势必将继续延续全社会对这一话题的关注。

当然,在数据中心领域,需要思考的“尽头”绝不只有能源,而所谓的极限,往往取决于我们现有认知和技术水平的边界,但,也可能是没有边界的。所以在这里,我们希望结合AIDC的发展趋势,针对现有的一些极限,谈一谈自己的思考。

1、AI芯片密度狂飙,服务器的极限在哪里?

NVIDIA最新发布的NVL72,单机柜用电功率最大为120kW, 采用冷板液冷的解决方案。这120kW单柜功率中仍然存在15%左右比例约20kW的风冷散热需求,也已经接近房间级空调风冷散热能力的上限。根据此次GTC会议现场的了解,在GPU芯片功率密度进一步提升的条件下,下一步散热方案将考虑浸没+冷板液冷同时散热解决方案,单机柜功率在未来2~3年预计可达到300kW每台

事实上,仔细揣摩NVL72的架构,作为一种全新的产品,它的震撼点在于NVL72架构已经不再以传统的芯片-服务器-网络架构理念的简单重复堆叠,而是通过颠覆性架构解构和重组的暴力美学方式,根据最基本的物理学原理选择最合适的技术方案,驱动着GPU的指数级演进。芯片密度的急剧提升,导致液冷散热的充分必要结果,而冷板液冷散热的高效又使得现有经典网络架构中不再使用的铜缆取代光模块及光缆重回历史舞台,由此诞生了一种新的物种。这就是经典的“量变引起质变”的案例,也是底层技术迭代后,配套传统技术方案遭受降维打击的典型代表。

也许,多年以后,决定单台GPU功率上限将不再是芯片散热能力的上限,而是配电系统PDU、UPS或变压器的容量上限。单个AIDC园区的容量上限不是芯片算力的上限,而是发电厂和电网容量的上限

2、如今数据中心从单个机房、单体建筑和园区维度,多大颗粒度是最合适的?

考虑到以往数据中心需求都是兆瓦或者10兆瓦级,单次交付和总体需求规模较小。因此,在DC园区和单体规划时,更多是基于基础设施如建筑规划要求、消防法规要求、电网容量(10kV/110kV/220kV)和MEP设施如柴发、冷机、空调等设备的冗余与成本最佳配比关系等来主导决定颗粒度。 如今AIGC井喷式业务的发展,本质上是DC容量的需求呈指数级增长,匹配最佳的DC或园区容量需求时,规划限制则转变为网络架构上限容量和芯片密度的上限主导。

如今行业内主流的云厂商或互联网企业,在当前流行的架构下,单园区的规模可以达到100~200MW, 未来随着芯片密度的不断提升,未来甚至会达300~500MW以上。在这样的背景,及电力和土地条件匹配的情况下,数据中心基础设施资源规划时,应该学习英伟达做GPU的理念,从design a data center as a Computer到 design a data center as a GPU。如果一台Giant GPU 理想容量是100MW,那就基础设施的容量而言,最佳的颗粒度也就是100MW。然而,芯片技术的发展日新月异,NVIDIA 的GPU芯片效率8年增长了1000倍,而数据中心的投资建设和回报周期就是10~15年,基于当下的芯片技术预测单体数据中心体量,匹配一个完美的极致数据中心规划的想法是不现实也不科学的。

我们可能需要换一个思路,从基础设施效率最佳的维度,合理、可行、成本尽量低为终极目标,从技术手段上克服建筑消防规划限制、CAPEX初投资比例及后续持续分期建设等挑战,做出一个可以适配未来业务需求变化的IDC一体化产品模型,这才是数据中心从业人员需要去解决的实际问题,也是IDC企业建立自身产品核心竞争力的关键要素。

3、AI的尽头是光伏、储能和核能的说法合理吗?

这应该是行业最近最火的话题之一,AI的尽头是光伏、储能、核能,也是变压器、铜、电缆等各种跟能源相关的期货,本质上是业务需求的高速增长带来的能源需求激增。

选址 —— 从靠近负荷中心向靠近综合能源中心转变

当园区规模达到200MW以上时,从供电角度至少需要220kV站配置才能满足要求,而当园区体量超过500MW以上时,一座220kV站也无法满足要求。在这种规模体量的数据中心集群的条件下,现有电网的容量受到限制,数据中心的选址必须进一步靠近具有充足电量的能源中心才能成立。与之形成的矛盾是,大体量的能源中心一次性投入较大,如果数据中心的业务需求无法在短时间内匹配,将会产生巨大的初投资沉没成本。

因此,为了更好地解决这样的问题,一个与数据中心基础设施需求配套的区域型综合能源管理系统需求就应运而生。通过源网荷储技术的应用,使得局部区域内的各类能源能够有效的利用,保证经济性。此外,通过能源系统的足量供应保证及长周期稳定OPEX保证,相比相对容易落地的土建和MEP系统而言,也能够为数据中心基础设施的资产投资的确定性带来更多的附加价值。

Onsite —— 光储备一体

单纯的风能、光伏、储能技术,无论是onsite还是offsite,与数据中心本身没有太大的关系,能不能用,好不好用,完全取决于技术和产业的成熟度和适用场景。至少在当前的市场和技术条件下,光伏和储能的应用与项目所处的位置强相关、及其电源不稳定的特性,难以作为AIDC单一通用电源的解决方案,必须要与其他的稳定能源解决方案结合使用。 Onsite的光伏和储能技术则由于受限于空间限制,规模也很难做大,但由于其根据时间变化提供额外能源的能力、与数据中心用电负荷随气候变化的条件匹配,可以与数据中心的基础架构融合起来,尝试提高数据中心的IT和外电转化率,替代一部分UPS备电设备,发挥额外的经济收益,甚至远大于常规光伏和储能技术本身带来的经济收益。

未来 —— 核能技术应用的前景

笔者作为一名曾经在核电行业工作过多年的IDC从业人员,未曾想到这两个行业可以结合在一起成为今天的一个热门话题。这两年,微软和AWS在核电行业的动向也引发了诸多同行的热议。今天再看看核电和数据中心,从能源侧和负荷侧而言,有许多共同点,也是蛮精妙的。一是稳定的输入和输出,二是在安全冗余的设置上逻辑相似。

中国核电技术经过多年的发展,已经自主开发完成了具备自主知识产权的华龙一号和国和一号先进三代核电技术,在世界上也处于领先地位。由于中国核电供应链体系的完整性,国产化比例已经高达90%以上,核电单kW造价已经达到15000 RMB/kW,只有海外同类堆型成本的20%不到,折算到上网电价成本现今也不过0.4元。同时要知道核电站的设计寿命为40~60年,相比寿命只有10~20年的光伏或者风电系统,无论从电源的稳定性和综合投入成本来看,相信随着核电技术的持续迭代会具备更强的竞争力。从技术成熟度而言,中国自主开发的核电小堆玲珑一号ACP100已经具备商业化的条件,小型模块化反应堆SMR 100~300MW的体量,从容量上也十分匹配AIDC园区的体量。

然而,要想进一步实质上解决核能与数据中心融合的问题,笔者初步有以下思考予以分享:

快速交付匹配:先进的三代和四代核电技术本身十分成熟,其安全性完全没有必要担心。然而,现在世界核安全监管体系仍然十分繁杂,项目的规划开发建设周期长达8~10年以上,这与AIDC快速部署的特点存在一定矛盾。当前国际和国内小型模块化核电堆型容量多为100MWe左右,虽然比传统百万千瓦级核电站已经有技术优化,但整个核电站的基本架构体系还是基于传统的核电站架构来展开,有点类似于缩小版的大型核电站。因此,相关的监管体系、标准体系均难以跳脱原有行业标准,从而在开发周期匹配上存在问题。试想,又回到开头NVL72的那个原理, 如果我们可以在核电堆型容量20MWe~100MWe上找到一个平衡,在突破核电系统传统技术架构的基础上,最大化简化安全系统的设计,开发出一种具备快速交付能力的非能动小堆或微堆。虽然从体量上而言更小,成本可能更高,但快速复制的能力更强,和AIDC的匹配度会更高。事实上现在的大堆就是在以前小堆的基础上开发出来的,因此原型堆里应该有不少成熟方案可以回头看看,说不定能变废为宝。

通用性匹配:当前核电技术标准体系非常完善,本质上从设备制造、设计建设的管理体系方面与传统民用项目存在诸多差异,这些差异也形成了相关的行业壁垒和成本溢价。为了使得核电的建设速度和成本更加具备竞争力,在采用更小容量的小堆型号时,我们需要更好地利用当前市场上通用的商品级物料进行替代,在保障安全的同时提高产品通用率,避免行业壁垒带来的成本溢价。

选址条件匹配:核电站的选址要求远高于数据中心,一个合格的核电厂址是非常稀缺的资源。好处是,核电站可以选择不受气候条件的干扰,最新的技术也不一定要靠海或靠河来解决散热问题。只要数据中心本身选址所需要的网络、时延问题可以匹配,也就不会有太大的问题。

One more thing:核电站作为发电厂,运行时也产生大量的余热资源,通过冷热电三联供,可以在提高能源转换效率和算力转换效率上取得双赢的局面,PUE可能也不再会是问题。

结语 

以上,我们结合2024GTC上发布的重磅产品,从主旨演讲及交流中得到的信息,以及笔者多年在数据中心和核能领域的持续深耕经验,浅析了AI GPU和AIDC的极限、终点和未来。在下半部分,我们将围绕一个关键词——变与不变,继续探讨AIDC基础设施的未来趋势。