使用 NVIDIA 認證系統最佳化企業 IT 工作負載

作者 NVIDIA

GPU 加速工作負載在各種產業中蓬勃發展,從使用 AI 改善客戶互動和使用資料分析預測業務,到使用進階視覺化加快產品創新。

GPU 加速基礎架構伴隨的最大挑戰之一,是選擇適合的硬體系統。業務線著重效能以及使用大量開發人員工具與框架的能力,但是企業 IT 團隊會同時考量管理和安全性等因素。

NVIDIA 認證系統計畫之目的在於滿足兩個群體的需求。來自各大系統製造商之配備 NVIDIA GPU 和網路介面卡的系統,皆經過嚴格的測試流程。如果伺服器或工作站符合各種 GPU 加速應用程式的效能和擴充性標準,且具備適當的安全性和管理功能,則視為經過 NVIDIA 認證。

伺服器配置挑戰

各個候選系統都是由系統製造商在其實驗室中執行認證測試,並由 NVIDIA 協助合作夥伴確定最佳合格配置。NVIDIA 研究眾多伺服器機型之數百個結果的經驗,讓我們得以找出和解決可能會對效能造成負面影響的配置問題。

高工作溫度

GPU 支援的溫度極高,但是在較低的溫度下運作可以提高效能。典型的伺服器是使用多個風扇提供氣冷,具有可程式化溫度與速度風扇曲線。預設風扇曲線是以通用基礎系統為準,不考量 GPU 以及可能會產生大量熱能的類似裝置。認證流程可以揭露溫度導致的效能問題,且確定哪些自訂風扇曲線可以提供最佳結果。

非最佳 BIOS 和韌體設定

BIOS 設定和韌體版本可能會影響效能及功能。認證流程可以驗證最佳的 BIOS 設定,以發揮最佳效能,並確定其他設定的最佳值,例如 NIC PCI 設定和開機 grub 設定。

PCI 插槽配置不當

迅速將資料傳輸至 GPU 是獲得最佳效能的關鍵。由於 GPU 和 NIC 是透過 PCI 匯流排安裝在企業系統上,因此配置不當可能會導致效能欠佳。認證流程可以找出這些問題,並確定最佳的 PCI 插槽配置。

認證目標

認證方式是執行由超過 25 個代表各種真實世界應用和操作的軟體測試組成的套件,測試候選系統的效能和功能。

此類測試之目標是最佳化特定系統配置的效能、管理性、安全性和擴充性。

Diagram of NVIDIA-Certified program test suite covering workloads, management, and infrastructure.
1NVIDIA 認證系統測試套件

效能

測試套件包含以多種方式對系統施加壓力之各式各樣的應用程式。涵蓋下列問題:

  • 深度學習訓練和 AI 推論
  • 端對端 AI 框架,例如 NVIDIA Riva 和 NVIDIA Clara
  • 資料科學應用程式,例如 Apache Spark 和 RAPIDS
  • 智慧影像分析
  • HPC 和 CUDA 功能
  • 使用 Blender、Octane 及類似工具進行渲染

管理性

在使用 Kubernetes 進行協調的 NVIDIA 雲端原生核心軟體堆疊上執行認證測試。驗證可以透過主要的雲端原生框架,全面管理經認證的伺服器,例如 Red Hat OpenShift、VMware Tanzu 和 NVIDIA Fleet Command。

同時驗證使用 Redfish 的遠端管理功能。

安全性

認證分析硬體、裝置、系統韌體的平台層級安全性、低層級保護機制,以及各種平台元件的配置。

同時驗證信賴平台模組(Trusted Platform Module,TPM)功能,讓系統可以支援安全開機、已簽署容器、加密磁碟區等功能。

擴充性

測試 NVIDIA 認證資料中心伺服器是使用 GPUDirect RDMA 驗證多 GPU 和多節點效能,以及使用多執行個體 GPU(Multi-Instance GPU,MIG)執行多個工作負載的效能。同時針對關鍵網路服務進行測試。此等功能讓 IT 系統可以擴充加速基礎架構,以滿足工作負載需求。

合格與認證

最重要的是瞭解合格與 NVIDIA 認證之間的差異。合格伺服器經過溫度、機械、電源和訊號完整性測試,確保特定 NVIDIA GPU 在該伺服器設計中完全正常運作。

採用合格配置的伺服器可以運用於生產用途,合格是認證的先決條件。但是,如果想要一個既獲得支援,且採用最佳設計和配置的系統時,應始終選擇經認證的系統。

Graphic icons of the NVIDIA-Certified test workloads compared to the NVIDIA Qualified tests for server design.
2NVIDIA 認證與 NVIDIA 合格系統

NVIDIA 認證系統類別

NVIDIA 認證系統有最佳化特定使用案例的各種類別可以選擇。您可以從最符合需求的類別中選擇系統。

各類別的系統設計是取決於最適合目標工作負載的系統機型和 GPU。例如,企業級伺服器可以針對資料中心而配備 NVIDIA A100 或 NVIDIA A40,小型服務器則可針對邊緣端採用 NVIDIA A2。

認證流程也可以針對各種類別量身打造。例如,工作站未針對多節點應用程式進行測試,而工業邊緣系統必須在系統設計的環境中運作時通過所有測試,例如高溫。

類別 工作負載 範例使用案例
資料中心運算伺服器 AI 訓練和推論、資料分析、HPC 推薦系統、自然語言處理
資料中心通用伺服器 視覺化、渲染、深度學習 離線批次渲染、加速桌面渲染
高密度虛擬化伺服器 虛擬桌面、虛擬工作站 辦公室生產力、遠距工作
企業邊緣端 受控環境中的邊緣推論 影像分析、多重存取邊緣運算(MEC)
工業邊緣端 工業或惡劣環境中的邊緣推論 機器人、醫療儀器、現場部署的電信設備
工作站 設計、內容創作、資料科學 產品和建築設計、M&E 內容創作
行動工作站 設計、內容創作、資料科學、軟體開發 資料特徵探索、軟體設計

1:認證系統類別

減輕企業 IT 的負擔

您可以透過 NVIDIA 認證系統,放心地選擇和配置已最佳化效能的伺服器和工作站,以更小的配置,大規模驅動加速運算工作負載。NVIDIA 認證系統讓您能以最輕鬆的方式,順利完成所有的加速運算專案。

有多種系統類型可供選擇,包括熱門的資料中心和邊緣伺服器機型,以及來自於龐大之 NVIDIA 合作夥伴生態系統的桌上型和行動工作站。若需要更多資訊,請參閱下列資源: