IT之家 12 月 12 日消息,英伟达正在为微软的数据中心提供最新一代 Blackwell 芯片,而在今年初秋的部署过程中,英伟达一名员工注意到,微软其中一处设施的冷却方式显得过于浪费。随着 AI 模型训练与推理的算力需求迅猛攀升,英伟达正为微软等科技巨头大量部署 GB200 Blackwell 系统。今年初秋时,英伟达基础设施专家团队的员工在内部邮件中,详细描述了为 OpenAI 机群部署 Blackwell 机架的现场情况。作为 OpenAI 的云合作伙伴与最大投资方,此类部署由微软负责。《商业内幕》今天援引的英伟达内部邮件提到,此次安装包括两组 GB200 NVL72 机架,每组搭载 72 颗英伟达 GPU。由于如此高密度的 GPU 阵列会产生巨量热能,微软采用液冷技术将热量从服务器周围迅速带走。但邮件也指出,微软在建筑层面的整体冷却方式因规模过大且未使用设施级冷却用水,看起来造成资源浪费,但确实带来了良好的弹性与故障容忍能力。美国加州大学的电气与计算机工程副教授任绍雷(音译)解释说,数据中心通常采用“双层冷却结构”:服务器内部用液冷,而建筑本体需要另一套系统把整体热量排到室外。因此,邮件所说“浪费”的冷却方式,或指微软采用空气冷却作为建筑级散热,而非使用水冷。任绍雷说,空气冷却虽然能源消耗更高,但不耗水。水资源可见性强,往往会引起公众对用水问题的关注,使企业在能源消耗、水资源压力与舆论反应之间必须进行权衡。IT之家从报道中获悉,微软发言人回应说,“微软的液冷换热器单元是一个闭环系统,我们将其部署在现有的风冷数据中心中,以增强第一方和第三方平台上的冷却能力。该系统确保我们最大限度地利用现有的全球数据中心规模,同时促进高效散热并优化电力输送,以满足 AI 和超大规模系统的需求。”微软方面强调在 2030 年前达成“碳负排放、净产水与零废弃”的企业目标,并表示下一代数据中心将采用零用水冷却设计,同时推进芯片级冷却技术。邮件同样强调,Blackwell 量产硬件品质明显高于此前送给客户试验的早期样品。两组 GB200 NVL72 机架在特定计算性能测试中均达到 100% 通过率,反映出量产版本的稳定度与成熟度有所提升。英伟达发言人表示,Blackwell 系统具备卓越性能、可靠性与能效表现,已被广泛应用于多种计算场景。包括微软在内的客户已经部署了数十万套 GB200 与 GB300 NVL72 系统,以满足全球日益增长的 AI 算力需求。
相关阅读:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。
