NVIDIA 將於 Hot Chips 大會展示可提升資料中心效能與能源效率的創新技術

NVIDIA 工程師將在大會的四場演講中,分享與 NVIDIA Blackwell 平台、液冷技術的全新研究成果及支援晶片設計的 AI 代理的相關細節
作者 Dave Salvator

這場為產學界處理器與系統架構師所舉辦的深度技術研討會,已成為價值上兆美元資料中心運算市場的重要論壇。

NVIDIA 資深工程師將出席本週舉行的 Hot Chips 2024 大會,介紹支援 NVIDIA Blackwell 平台發展的最新進展,以及資料中心液冷技術與用於晶片設計的 AI 代理的研究成果。

他們將分享:

  • NVIDIA Blackwell 平台如何整合多種晶片、系統與NVIDIA CUDA 軟體,以驅動橫跨各項使用案例、產業和國家的下一代人工智慧(AI)。
  • NVIDIA GB200 NVL72 這個連接 72 個Blackwell GPU 和 36 個Grace CPU 多節點、液冷、機架規模的解決方案,如何提升了 AI 系統設計的標準。
  • NVLink 互連技術提供 GPU 完全通訊,如何為生成式 AI 實現創紀錄的高輸送量與低延遲推理。
  • NVIDIA Quasar Quantization 系統如何突破物理極限,加速 AI 運算。
  • NVIDIA 研究人員如何正在建立 AI 模型,幫助建造 AI 處理器。

NVIDIA Blackwell 演講活動將於 8 月 26 日(週一)登場,當中將重點介紹新的架構細節,以及在 Blackwell 晶片上執行生成式 AI 模型的範例。

而在此之前, 8 月 25 日(週日)進行三場教學活動,內容將涵蓋混合式液冷技術解決方案如何協助資料中心轉換成為更節能的基礎設施,以及包括大型語言模型(LLM)驅動的代理等 AI 模型如何協助工程師設計新一代處理器。

這些內容共同展現出 NVIDIA 工程師如何在資料中心運算與設計的每個領域進行創新,以提供前所未有的效能、效率與最佳表現。

準備好迎接 Blackwell 架構

NVIDIA Blackwell 是全堆疊運算的終極挑戰。它由多種 NVIDIA 晶片組成,包括 Blackwell GPUGrace CPUBlueField 資料處理單元、ConnectX 網路介面卡、NVLink SwitchSpectrum 乙太網路交換器和 Quantum InfiniBand 交換器。

NVIDIA 架構總監 Ajay Tirumala 與 Raymond Wong 將率先介紹 Blackwell 平台,並且解釋這些技術如何相互配合,在提高能源效率之際,又寫下 AI 與加速運算效能的全新標準。

NVIDIA GB200 NVL72 解決方案就是完美的例子。LLM 推論作業需要低延遲、高輸送量的詞元產出。GB200 NVL72 可以統掌全局,將 LLM 工作負載的推論速度提高 30 倍,能夠即時執行有著上兆個參數的模型。

Tirumala 與 Wong 還將討論 NVIDIA Quasar Quantization系統如何支援讓低精準度模型達到高精確度,並且重點介紹使用 LLM 與視覺生成式 AI 的範例。這個系統結合演算法創新、NVIDIA 軟體庫與工具,以及 Blackwell 第二代 Transformer 引擎。

保持資料中心低溫

隨著研究人員開發出結合氣冷與液冷的混合式冷卻技術,以更有效率且更符合永續精神的方式解決資料中心過去面臨的冷卻問題,以前使用氣冷式技術所發出的嗡嗡聲或許會從此消失。

液冷技術比氣冷技術可以更有效率地將熱度從系統中帶走,使得運算系統在處理大量工作負載時同樣能保持低溫。而與氣冷系統相比,液冷設備佔用的空間更小,用電量也更少,這麼一來資料中心便能加入更多伺服器機架,以提高運算能力。

NVIDIA 資料中心冷卻與基礎設施部門總監 Ali Heydari 將介紹數種設計採用混合式冷卻技術資料中心的方式。

部分設計是將現有的氣冷式資料中心改為使用液冷式裝置,以簡單方便的方式為現有機架加入液冷功能。其他設計則需要安裝管道,以便使用冷卻液分配裝置或將伺服器完全浸入冷卻槽,以液冷方式直接冷卻晶片。這些選項雖然一開始要投入較大金額,卻能大幅節省能源消耗量和營運成本。

Heydari 還將分享他的團隊在進行美國能源部開發先進資料中心冷卻技術 COOLERCHIPS 計畫的部分研究成果。該團隊在這項計畫中使用 NVIDIA Omniverse 平台來建立有著物理根據的數位孿生模型,這將有助於他們模擬能源消耗情況和冷卻效率,以設計出最佳的資料中心。

AI 代理支援設計處理器

在極小的方寸之間要設計半導體,可謂一項艱鉅難題。開發尖端處理器的工程師要在幾英吋寬的晶片上盡量塞入最大的運算能力,簡直就是在測試物理上可能達到的極限。

AI 模型可以提高設計品質和生產力,提高人工作業流程的效率,自動執行一些耗時的工作,以支援工程師的工作。這些模型包括協助工程師快速分析和改善設計的預測和最佳化工具,以及可以協助工程師回答問題、產生程式碼、執行設計除錯等作業的 LLM。

NVIDIA 設計自動化研究部門總監 Mark Ren 將在教學活動中簡單介紹這些模型及其用途。而他在第二場活動中,將重點介紹如何使用以代理為基礎的 AI 系統來協助設計晶片。

LLM 驅動的 AI 代理能接受指導後自主完成任務,這樣就能在各行各業中創造出更多的應用方式。NVIDIA 研究人員正在開發以代理為基礎的系統來協助設計微處理器,這些系統能夠使用自訂的電路設計工具進行推論並採取行動、與經驗豐富的設計人員互動,並且從人類與代理的經驗資料庫中學習。

NVIDIA 的專家們不只是開發,自己也使用這項技術。Ren 將分享工程師如何使用 AI 代理進行時序報告分析、單元叢集最佳化(cell cluster optimization)流程和產生程式碼的範例。單元叢集最佳化的研究成果日前在第一屆 IEEE LLM 輔助設計國際研討會(IEEE International Workshop on LLM-Aided Design)中獲得最佳論文獎。

報名參加 8 月 25 日至 27 日在美國史丹佛大學與線上舉辦的 Hot Chips 大會。