NVIDIA 的乙太網路技術加速由 xAI 建造的全球最大 AI 超級電腦

NVIDIA Spectrum-X 技術使 10 萬個 NVIDIA Hopper 架構 GPU 的超大型系統成真
作者 NVIDIA Corporation

NVIDIA 今日宣布 xAI 在美國田納西州孟菲斯市使用 NVIDIA Spectrum-X™ 乙太網路平台打造出規模龐大、搭載 10 萬個 NVIDIA Hopper Tensor 核心 GPU 的 Colossus 超級電腦叢集。NVIDIA Spectrum-X™ 平台為多租戶、超大規模 AI 工廠提供卓越性能而設計,使用標準乙太網路作為其遠端直接記憶體存取(RDMA)網路。

Colossus 是全球最大的人工智慧(AI)超級電腦,用於訓練 xAI 的 Grok 系列大型語言模型,並為 X Premium 用戶提供聊天機器人功能。xAI 正在將 Colossus 的規模擴大一倍,總計將搭載20萬個 NVIDIA Hopper GPU。

xAI 與 NVIDIA 在短短 122 天內就建置出相關配套設施與 Colossus 這具最先進的超級電腦,這種規模的系統通常要用到幾個月到幾年的時間建置。從安裝第一個機架到開始訓練 AI 僅歷時 19 天。

Colossus 超級電腦在訓練規模極為龐大的 Grok 模型時,展現出前所未有的網路效能。在所有三層網路結構中,系統都未因流量碰撞而出現應用程式延遲或封包遺失的情況。Colossus 超級電腦藉由 Spectrum-X 壅塞控制功能,保有 95% 的資料輸送量。

標準乙太網路會無法大規模達到這樣的效能水準,會造成上千次的流量碰撞,又只能提供 60% 的資料輸送量。

NVIDIA 網路事業部資深副總裁 Gilad Shainer 表示:「AI 正成爲關鍵業務,需要更高的效能、安全性、擴充能力和成本效益。設計 NVIDIA Spectrum-X 乙太網路平台的目的,就是要為 xAI 這一類創新公司能夠更快速處理、分析和執行 AI 工作負載,以加速開發、部署 AI 解決方案,並且更快推向市場。」

Elon Musk 在 X 上表示:「Colossus 是世界上最強大的訓練系統。xAI 團隊、NVIDIA 及我們的眾多合作夥伴與供應商表現非常出色。」

xAI 的發言人表示:「xAI 建造出世界上最大、最強大的超級電腦。NVIDIA 的 Hopper GPU 加上 Spectrum-X 讓我們能夠突破大規模訓練 AI 模型的界限,並在乙太網路標準基礎上,建造一個擁有超級加速、並最佳化的 AI 工廠。」

Spectrum-X 平台的核心是 Spectrum SN5600 乙太網路交換器,它支援高達 800Gb/s 的連接埠速度,並且採用 Spectrum-4 交換器 ASIC。xAI 選擇將 Spectrum-X SN5600交換器搭配 NVIDIA BlueField-3® SuperNIC 使用,以獲得前所未有的效能。

適用於 AI 的 Spectrum-X 乙太網路技術帶來了先進功能,能提供先前僅在 InfiniBand 提供帶有低延遲和短尾延遲特性的高效且可擴充的頻寬。包括採用 NVIDIA Direct Data Placement 技術的自適應性路由、壅塞控制,以及更強大的 AI 架構可視性和效能隔離等功能,都是多租戶生成式 AI 雲端環境及大型企業環境的重點需求。

關於 NVIDIA (輝達)

NVIDIA(輝達)自 1993 年成立以來始終為加速運算領域的先驅。自 1999 年發明 GPU 起便成功促進 PC 電競市場的成長、重新定義電腦繪圖,並引領現代人工智慧時代。NVIDIA 為一間全方位的運算公司,提供資料中心規模的產品以重塑產業樣貌。欲瞭解更多資訊,請瀏覽 https://nvidianews.nvidia.com/

新聞聯絡人

NVIDIA
資深公關經理 王懷璐
電話:(02)6605-5700
E-mail: Kate Wang
霍夫曼公關
莊昇諺/王一中/高楷婷
行動電話: 02-7713-7609/02-7713-7109/02-7713-6798
E-mail: Anthony Chuang/Stephen Wang/Hazel Kao

本新聞稿根據目前預期所做出的前瞻性聲明,包含但不限於:NVIDIA的產品和技術(NVIDIA Hopper Tensor 核心 GPU、NVIDIA Spectrum-X 乙太網路平台、NVIDIA Spectrum SN5600 乙太網路交換器、Spectrum-4 交換器ASIC、NVIDIA BlueField-3 SuperNIC)的優勢、影響、性能、特色和可獲得性;xAI Colossus超級電腦叢集的特色;xAI 正在將 Colossus 的規模擴大一倍至使用200,000個 NVIDIA Hopper GPU;NVIDIA Spectrum-X 乙太網路平台為 xAI 等創新者提供更快的 AI 工作負載處理、分析和執行速度,從而加快 AI 解決方案的開發、部署和上市時間;NVIDIA 的 Hopper GPU 和 Spectrum-X 使 xAI 能夠突破大規模訓練 AI 模型的界限,創建基於乙太網路標準的超級加速和最佳化的 AI 工廠等。這些前瞻性聲明包含可能導致實質結果與預期不符之風險與不確定因素。多項重要因素可能導致實際結果與前瞻性聲明所示之結果出現重大差異,所及範圍有全球經濟情況;NVIDIA的產品借重第三方協力廠商之製造、組合、封裝和測試;技術發展和市場競爭之影響;發展新產品與技術或強化現有的產品及技術;NVIDIA或合作廠商的產品的市場接受度;設計、製造或軟體缺陷;消費者偏好或需求之改變;業界標準和介面之改變;整合到系統後無法預期的NVIDIA產品或效能降低之技術缺失,以及NVIDIA定期提交給美國證券交易委員會(SEC)報告中的其他詳細因素,包含但不限於Form10-K的年度報告和Form10-Q的季度報告。NVIDIA 在公司官方網站上免費提供定期提交給SEC的報告之副本。這些前瞻性聲明不保證未來的效能,只陳述目前的狀態。除非法律規定,否則NVIDIA沒有意願或義務因為新資訊、未來事件或其他理由而更新或修改任何前瞻性聲明。

©本文為NVIDIA 公司 2024版權所有,並保留所有權利。NVIDIA、NVIDIA 標誌、NVIDIA Spectrum-X 和 BlueField 是NVIDIA 公司在美國及其他地區的商標及(或)註冊商標。所有其他公司及產品名稱乃為所屬個別公司之商標。功能、訂價、出貨時程和規格之變更不會另行通知。