在開放運算計畫全球峰會(OCP Global Summit)上,NVIDIA 帶來百萬瓩(GW)級人工智慧(AI)工廠的未來一瞥。
NVIDIA 將公布 NVIDIA Vera Rubin NVL144 MGX 世代開放式架構機架伺服器的規格。超過 50 家 MGX 夥伴正為此投入準備工作,同時為 NVIDIA Kyber提供生態系支援。NVIDIA Kyber 可連結 576 顆 Rubin Ultra GPU,以因應與日俱增的推論需求。
逾 20 家產業夥伴正展示新一代晶片、零組件與電源系統,以及對百萬瓩級新世代 800 伏特直流電(VDC)資料中心的支持,這些資料中心將支援 NVIDIA Kyber 機架架構。
鴻海科技集團公布其位於台灣的800 VDC、40 千瓩(MW)資料中心 Kaohsiung-1 的細節。CoreWeave、Lambda、Nebius、Oracle Cloud Infrastructure 與 Together AI 等產業先驅也在設計 800 伏特資料中心。此外,Vertiv 發表節省空間、降低成本且高效節能的 800 VDC MGX 參考架構,一套完整的供電與冷卻基礎設施架構。HPE 宣布其產品將支援 NVIDIA Kyber及 NVIDIA Spectrum-XGS 乙太網路擴展技術,該技術屬於 Spectrum-X 乙太網路平台的一部分。
由傳統的 415 或 480 伏特交流電(VAC)三相系統轉向 800 VDC 基礎設施,可提高資料中心的可擴展性、提升能源效率、減少材料使用並增加效能。電動車與太陽能產業已採用 800 VDC 基礎設施,以獲得類似效益。
由 Meta 創立的開放運算計畫(Open Compute Project,OCP),是一個由數百家運算與網路供應商組成的產業聯盟,更專注於重新設計硬體技術,以有效支援日益增長的運算基礎設施需求。
Vera Rubin NVL144:為 AI 工廠而生的擴展設計
Vera Rubin NVL144 MGX 運算托盤(compute tray)採用節能、100% 液冷的模組化設計。其中央的印刷電路板中介背板取代傳統線纜連接,實現更快的組裝與維護,並配備模組化擴充插槽,以支援 NVIDIA ConnectX-9 800GB/s 網路與 NVIDIA Rubin CPX 大規模情境推論。
NVIDIA Vera Rubin NVL144 在加速運算架構與 AI 效能上帶來重大躍進,專為進階推理引擎與 AI 代理需求打造。
此設計以 MGX 機架架構為核心,並將獲得超過 50 家 MGX 系統與零組件夥伴的支援。NVIDIA 計劃將升級版機架及運算托盤創新貢獻給 OCP 聯盟作為開放標準。
OCP 聯盟的運算托盤與機架標準,讓夥伴能以模組化方式自由搭配,並隨架構擴展而更快地擴展。Vera Rubin NVL144 機架設計採用節能的 45°C 液冷系統,配備新型液冷匯流排提升效能,並增加 20 倍的儲能容量,確保供電穩定。
MGX 對運算托盤與機架架構的升級,提升 AI 工廠效能,同時簡化組裝程序,從而能夠快速建構百萬瓩級 AI 基礎設施。
NVIDIA 是橫跨多世代硬體 OCP 標準的主要貢獻者,其中包含 NVIDIA GB200 NVL72 系統關鍵的機電設計部分。相同的 MGX 機架規格不僅支援 GB300 NVL72,未來更將支援 Vera Rubin NVL144、Vera Rubin NVL144 CPX 與 Vera Rubin CPX,以實現更高效能與更快速的部署。
只要建好,眾人皆來:NVIDIA Kyber 機架伺服器世代
OCP 生態系也正在為 NVIDIA Kyber 做準備,其創新之處在於導入 800 VDC 供電、液冷與機械設計。
這些創新將推動邁向 NVIDIA Kyber 機架伺服器世代的轉型。NVIDIA Kyber 是接替 NVIDIA Oberon 的平台,預計在 2027 年搭載容納 576 顆 NVIDIA Rubin Ultra GPU 的高密度平台。
應對高功率配電挑戰最有效的方式是提高電壓。由傳統的 415 或 480 VAC 三相系統過渡到 800 VDC 架構可帶來多重效益。
這項轉型讓機架伺服器夥伴得以把機架內部的 54 VDC 元件升級至 800 VDC,以獲得更佳成果。由直流電基礎設施供應商、電源系統與冷卻夥伴,以及晶片製造商所組成的生態系齊聚本次 OCP 全球峰會,所有參與者皆依循 MGX 機架伺服器參考架構的開放標準。
NVIDIA Kyber 專為提升機架內 GPU 密度、擴展網路規模,並將大型 AI 基礎設施的效能極大化而設計。透過將運算刀鋒(compute blade)如同書架上的書本般垂直旋轉排列,Kyber 每部機箱最多可容納 18 組運算刀鋒,同時透過無線中介背板在機箱後方整合專用的 NVIDIA NVLink 交換刀鋒,實現無縫的擴展網路。
使用 800 VDC 後,相同銅線可傳輸 150% 以上的電源,無需再以 200 公斤重的銅母線來為單一機架供電。
Kyber 將成為超大規模 AI 資料中心的基礎元素,在未來幾年為最先進的生成式 AI 工作負載帶來卓越效能、效率與可靠性。NVIDIA Kyber 機架可協助客戶減少數噸級銅材用量,進而節省數百萬美元的成本。
NVIDIA NVLink Fusion 生態系擴大
除了硬體層面,NVIDIA NVLink Fusion 正加速發展,協助企業把其半客製化晶片無縫整合至高度最佳化且廣泛部署的資料中心架構,從而降低複雜度並加速上市時程。
Intel 與 Samsung Foundry 加入 NVLink Fusion 生態系,該生態系涵蓋客製化晶片設計商、CPU 與 IP 夥伴,協助 AI 工廠快速擴展,以處理模型訓練與代理型 AI 推論等高強度工作負載。
- 依據近期宣布的 NVIDIA 與 Intel 合作計畫,Intel 將透過 NVLink Fusion 建構可整合至 NVIDIA 基礎設施平台的 x86 CPU。
- Samsung Foundry 與 NVIDIA 合作,以滿足日益增長的客製化 CPU 與客製化 XPU 的需求,為客製化晶片提供從設計到製造的全流程經驗。
開放生態系不可或缺:擴展下一代 AI 工廠
超過 20 家 NVIDIA 夥伴正協力提供採用開放標準的機架伺服器,促成未來的百萬瓩級 AI 工廠。
- 晶片供應商:Analog Devices, Inc.(ADI)、AOS、EPC、Infineon、Innoscience、MPS、Navitas、onsemi、Power Integrations、Renesas、立錡科技、ROHM、STMicroelectronics、Texas Instruments。
- 電源系統零組件供應商:BizLink、台達、Flex、GE Vernova、Lead Wealth、光寶科技、Megmeet。
- 資料中心電源系統供應商:ABB、Eaton、GE Vernova、Heron Power、Hitachi Energy、Mitsubishi Electric、Schneider Electric、Siemens、Vertiv。
欲了解關於 NVIDIA 與開放運算計畫(Open Compute Project)的更多資訊,歡迎參與 10 月 13 日至 16 日於聖荷西會議中心舉行的 OCP Global Summit。