企業正在尋找更強大的運算能力,以支援處理他們的人工智慧(AI)工作負載及加快處理資料。企業從中所獲得的效率,可為他們在訓練和微調 AI 方面的投資帶來更高的報酬,還能讓使用者在執行 AI 推論時有更好的體驗。
Oracle Cloud Infrastructure(OCI)在今日舉行的 Oracle CloudWorld 大會上,宣布推出第一個 zettascale (10 的 21 次方級)運算規模 OCI Supercluster。此叢集由 NVIDIA Blackwell 平台加速,幫助企業使用超過 10 萬顆 NVIDIA 最新一代 GPU 來訓練和部署下一代 AI 模型。
客戶可以經由 OCI Supercluster 選擇使用多種 NVIDIA GPU,並且將這些 GPU 部署在任何地方:內部部署、公有雲和主權雲端。建置在 Blackwell 架構上的OCI Supercluster 系統將於明年上半年推出,規模可擴充到使用 131,072 顆 Blackwell 架構 GPU,搭配適用於 RoCEv2 的 NVIDIA ConnectX-7 NIC 或 NVIDIA Quantum-2 InfiniBand 網路,可在雲端環境提供驚人的 2.4 zettaflops 峰值 AI 運算能力。(請閱讀新聞稿,瞭解更多關於 OCI Supercluster 系統的資訊。)
Oracle 還在會中搶先曝光 NVIDIA GB200 NVL72 液冷裸機執行個體,以用於支援執行生成式 AI 應用。這些執行個體能夠利用 Quantum-2 InfiniBand 進行大規模訓練,並且在更大規模的 72 個 GPU NVIDIA NVLink 網域內使用有著上兆個參數的模型即時進行推論作業,當成一個大型 GPU。
OCI 今年將提供 NVIDIA HGX H200,透過 NVLink 與 NVLink Switch 在單一裸機執行個體裡連接 8 個 NVIDIA H200 Tensor 核心 GPU,並且在 RoCEv2 叢集網路上透過 NVIDIA ConnectX-7 NIC 擴充至 65,536 個 H200 GPU。想要大規模提供即時推論與加速訓練工作負載的客戶,可以訂購這款執行個體。(閱讀使用 NVIDIA B200、GB200 和 H200 GPU 之 OCI Supercluster 的部落格文章)。
OCI 還宣布全面推出適用於中階 AI 工作負載、NVIDIA Omniverse 與可視化的 NVIDIA L40S GPU 加速執行個體實例。(閱讀使用 NVIDIA L40S GPU 之 OCI Supercluster 的部落格文章)。
即使是裝置未連線又或是位於遠端地點,Oracle 的邊緣產品同樣能夠針對單節點到多機架解決方案,在邊緣提供由 NVIDIA GPU 加速、具擴充能力的 AI。舉例來說,使用 Oracle Roving Edge Device v2 的小規模部署作業,如今最多可支援三個 NVIDIA L4 Tensor 核心 GPU。
企業使用 NVIDIA 支援的 OCI Supercluster 來推動 AI 創新。像是基礎模型新創公司 Reka 利用叢集開發先進的多模態 AI 模型,以開發企業代理(agent)。
Reka 共同創辦人暨執行長 Dani Yogatama 表示:「Reka 利用 OCI 與 NVIDIA 的技術所建立的多模態 AI 模型,讓下一代企業代理擁有聽、說、讀、看的能力,以瞭解我們複雜的世界。我們藉助於 NVIDIA GPU 加速的基礎設施,可以輕鬆處理非常大的模型和廣泛的脈絡,同時能夠在叢集上有效率地擴展密集和稀疏訓練的規模。」
加速處理生成式 AI Oracle 資料庫工作負載
Oracle Autonomous Database 獲得 NVIDIA GPU 對 Oracle Machine Learning Notebooks 的支援,可讓客戶在 Oracle Autonomous Database 上加速執行處理資料的工作量。
NVIDIA 與 Oracle 在 Oracle CloudWorld 大會上將合作展示三項功能,展現 NVIDIA 加速運算平台如何在當前或日後用於加速生成式 AI 檢索增強生成管道的關鍵元件。
第一個展示介紹如何使用 NVIDIA GPU 直接從 Oracle Autonomous Database Serverless 的內部加速執行大量向量嵌入,以高效率地的方式讓企業資料更接近 AI。可使用 Oracle Database 23ai 的 AI Vector Search 功能搜尋這些向量。
第二個展示介紹一個概念驗證原型,這個原型使用 NVIDIA GPU、NVIDIA RAPIDS cuVS,加上 Oracle 開發的卸載框架來加速生成向量圖索引,大幅縮短建立高效率搜尋向量索引所需的時間。
第三個展示介紹一套易於使用的推論微服務 NVIDIA NIM,如何在各種模型大小和並行層次的情況下,提高文字生成和翻譯等使用案的生成式 AI 效能。
這系列全新的 Oracle Database 功能與示範內容,強調如何利用 NVIDIA GPU 來協助企業將生成式 AI 用於存放在 Oracle Database 或由 Oracle Database 管理的結構化與非結構化資料。
全球主權 AI
NVIDIA 與 Oracle 合作提供全球主權 AI 基礎架構,協助解決政府與企業的資料駐留需求。
巴西的新創公司 Wide Labs 在 OCI 位於巴西的資料中心,使用 NVIDIA H100 Tensor 核心 GPU 與 NVIDIA NeMo 架構,訓練與部署了 Amazonia IA。Amazonia IA 是使用巴西葡萄牙語訓練出的首批大型語言模型(LLM)之一,協助確保資料主權。
Wide Labs 執行長 Nelson Leoni 表示:「我們開發主權 LLM,可以讓客戶在巴西境內處理資料,使得 Amazônia 擁有獨特的市場地位。我們使用NVIDIA NeMo框架成功訓練出Amazônia IA。」
在全球居領先地位的諮詢服務與系統解決方案供應商日本野村綜合研究所,使用 OCI 的 Alloy 基礎設施與 NVIDIA GPU,以在符合金融法規與資料主權的要求下,增強其金融 AI 平台的 LLM 運作。
通訊與協作公司 Zoom 將在 OCI 位於沙烏地阿拉伯的資料中心使用 NVIDIA GPU,協助支援配合當地對使用資料的要求。
地理空間建模公司 RSS-Hydro 展示其洪水繪測平台。這個平台建置在 NVIDIA Omniverse 平台上,由 OCI 上的 L40S GPU 驅動,展示如何利用數位孿生技術模擬日本熊本地區的洪災影響,協助減緩氣候變遷所帶來的影響。
這些客戶都是在 NVIDIA 與 OCI 的支援下,建置與部署國內 AI 應用的眾多國家與組織之一,透過主權 AI 基礎設施推動經濟韌性。
NVIDIA 與 Oracle 的企業級 AI
企業可以透過使用 OCI 的可擴展雲端解決方案部署 NIM 微服務及 NVIDIA cuOpt 等這些 NVIDIA 軟體,加速 OCI 上的任務自動化。這些解決方案可讓企業快速採用生成式 AI,並且為產生程式碼及路由最佳化等複雜任務建立代理工作流程。
可在 Oracle Cloud Marketplace 取得包含在 NVIDIA AI Enterprise 軟體平台中的 NVIDIA cuOpt、NIM、RAPIDS 等產品。
在 Oracle CloudWorld 瞭解更多資訊
與 NVIDIA 一同加入 Oracle CloudWorld 2024 大會,瞭解雙方合作一事如何為全球組織帶來 AI 與加速處理資料的技術。
報名參加這場盛會,觀看精彩的會議、演示,以及參加 Oracle 和 NVIDIA 於 9 月 11 日週三在拉斯維加斯舉行的解決方案主題演講《Unlock AI Performance with NVIDIA’s Accelerated Computing Platform》(SOL3866)。