為深度學習推論選擇合適的伺服器

作者 NVIDIA

推論是機器學習生命週期的重要部分,且在訓練模型之後發生。在企業從投資 AI 中實現價值之時。常見的 AI 應用包括影像分類(「這是腫瘤的影像」)、推薦(「這是您會喜歡的電影」)、將語音轉錄成文字,以及決定(「向左轉」)。

深度學習訓練系統需要大量的運算能力,但是在訓練 AI 模型之後,於實際部署中執行需要的資源較少。在確定推論工作負載的系統需求時,最重要的因素是執行的模型和部署位置。本文探討了這些領域,並特別著重於邊緣端 AI 推論。

AI 模型推論需求

為了協助確定最佳推論部署配置,NVIDIA Triton Model Analyzer 等工具可以根據正在執行的特定 AI 模型提出建議。NVIDIA TensorRT 等推論編譯器可以最佳化模型,以便能保持準確性,同時以最高傳輸量和最低延遲執行,降低推論的資源需求。

即使已進行此類最佳化,GPU 仍是達到企業服務水準目標 SLA 和推論工作負載需求的關鍵。MLPerf 2.0 推論基準測試的結果顯示,NVIDIA GPU 比純 CPU 系統快 100 倍以上。GPU 也可以為需要即時反應之工作負載提供需要的低延遲。

推論工作負載的部署位置

在資料中心以及邊緣端都可以找到 AI 推論工作負載。在資料中心執行的推論工作負載範例,包括推薦系統和自然語言處理。

這些工作負載可以使用各種方式執行。例如,可以從同一個伺服器同時服務許多不同的模型,且可能正在執行數百、數千,甚至數萬個同時推論要求。此外,資料中心伺服器通常會執行 AI 推論以外的其他工作負載。

在資料中心推論的系統設計方面,沒有「一式通用」的解決方案。

在邊緣位置執行的推論應用程式,代表重要及不斷增加的工作負載類別。邊緣運算是由對低延遲即時結果的需求,以及因成本和安全性考量而減少資料傳輸的期望推動。邊緣系統是在實際接近收集或處理資料處的位置執行,例如零售店、廠區、手機基地台。

相較於資料中心推論,邊緣端 AI 推論的系統需求較容易釐清,因為這些系統通常是設計為著重於小範圍的推論工作負載。

邊緣端推論通常涉及相機或其他收集資料的感測器數據以採取行動。例如,化學工廠使用配備感測器的攝影機偵測管道腐蝕,並在造成任何損壞之前提醒工作人員。

邊緣端推論系統需求

AI 訓練伺服器必須設計為可以處理大量的歷史資料,以針對模型參數學習正確的值。相較之下,邊緣端推論伺服器必須處理在邊緣位置即時收集的串流資料,數量較小。

因此,系統記憶體不需要那麼大,且 CPU 核心數可以較低。網路介面卡不需要那麼高的頻寬,以及伺服器上的本機儲存空間可以較小,因為不會快取任何訓練資料集。

但是,應妥善配置網路和儲存空間以實現最低延遲,因為盡快反應的能力非常重要。

資源 資料中心 AI 訓練 邊緣端 AI 推論
CPU 具有高核心數的最快速 CPU 低功率 CPU
GPU 具有最多記憶體的最快速 GPU,每一個系統的 GPU 較多 低功率 GPU 或搭載 MIG 的較大 GPU,每一個系統有一或兩個 GPU
記憶體 記憶體大小較大 記憶體大小中等
儲存裝置 高頻寬 NVMe 快閃磁碟機,每一個 CPU 一個 中等頻寬、最低延遲 NVMe 快閃磁碟機,每一個系統一個
網路 最高頻寬網路介面卡,乙太網路或 InfiniBand,每一個 GPU 對一個 中等頻寬網路介面卡,乙太網路,每一個系統一個
PCIe 系統 在 PCIe 拓撲中平衡裝置,用於多 GPU、多 NIC 部署的 PCIe 交換器 在 PCIe 拓撲中平衡裝置,不需要 PCIe 交換器

1:資料中心訓練和邊緣推論的資源建議

基本上,邊緣端系統是部署在傳統資料中心外,通常是位於遠端位置。環境通常在空間和功率方面受到限制。將較小的系統與低功率 GPU(例如 NVIDIA A2)搭配使用,即能克服這些限制。

如果推論工作負載的需求較高,且功率預算允許,則可以使用較大的 GPU,例如 NVIDIA A30 或 NVIDIA A100。多執行個體 GPU(Multi-Instance GPU,MIG)功能讓 GPU 可以同時服務多個推論資料流,使整體系統提供高效率的表現。

邊緣推論的其他因素

除系統需求外,需要考量邊緣特有的其他因素。

主機安全性

安全性是邊緣系統的關鍵層面。資料中心之本質為可以提供一定程度的實體控制和集中管理,進而能防止或緩解竊取資訊或控制伺服器的企圖。

邊緣系統的設計必須假設部署位置未受到實體保護,且無法受益於資料中心 IT 管理系統中的眾多存取控制機制。

信賴平台模組(Trusted Platform Module,TPM)是一種可以協助大幅提高主機安全性的技術。妥善配置的 TPM,可以確保系統僅能以使用經過數位簽署,且未經修改的韌體和軟體啟動。其他安全性檢查(例如已簽署容器)可以確保應用程式未遭到竄改,且可以使用安全儲存在 TPM 中的金鑰對磁碟區進行加密。

加密

另一項重要考量是針對進出邊緣系統的所有網路流量進行加密。NVIDIA ConnectX 產品中具備加密加速硬體的已簽署網路介面卡,可以確保此保護不會以降低資料傳輸率為代價。

強固型系統

對於某些使用案例而言,例如在自動化控制廠區或電信天線塔旁的機箱中,邊緣端系統必須在潛在之惡劣條件下發揮良好的性能,例如高溫、強烈衝擊和震動,以及灰塵。

有越來越多專為這些用途而設計的強固型伺服器配備 GPU,因此,即使在極端的使用案例中,也可以從大幅提高的性能中受益。

為推論選擇端對端平台

NVIDIA 已拓展 NVIDIA 認證系統計畫,包含在傳統資料中心外運作的邊緣部署類別。這些系統的設計準則,包括下列各項:

  • NVIDIA GPU
  • 提供最佳效能的 CPU、記憶體和網路配置
  • 安全性和遠端管理功能

合格系統目錄中含有來自 NVIDIA 合作夥伴的 NVIDIA 認證系統清單。清單可以依據系統類別進行篩選,包括適合推論工作負載的系統:

  • 資料中心伺服器:已針對各種資料科學工作負載之效能和橫向擴充能力進行驗證,是資料中心推論的理想選擇。
  • 企業邊緣端系統:部署在受控環境中,例如零售店的後端辦公室。此類別之系統是在與資料中心類似的環境中進行測試。
  • 工業邊緣端系統:專為工業或惡劣環境而設計,例如廠區或手機塔基地台。獲得此認證之系統必須在系統設計的環境中運作時通過所有測試,例如典型資料中心範圍外的高溫環境。

除針對邊緣端系統進行認證外,NVIDIA 也開發出執行和管理推論工作負載的企業軟體。

NVIDIA Triton 推論伺服器簡化了 AI 推論,讓團隊可以從任何 GPU 或 CPU 基礎架構上的任何框架,部署、執行和擴充經過訓練的 AI 模型。它可協助您跨雲端、內部部署、邊緣和嵌入式裝置提供高效能推論。

NVIDIA AI Enterprise 是由 AI 和資料分析軟體組成,經過最佳化,讓任何組織都能善用 AI 的端對端雲端原生套件,且經認證可以部署在資料中心和邊緣端位置。其包含全球企業支援,以使 AI 專案可以順利進行。

NVIDIA Fleet Command 雲端服務可集中連接位於邊緣位置的系統,以便從單一介面安全地部署、管理和擴充 AI 應用程式。它是具有多層安全協定的統包式解決方案,可以在數小時內全面運作。

選擇由經過認證的系統和基礎架構軟體組成的端對端平台,可以啟動 AI 生產部署,使用比嘗試從個別元件組合解決方案快許多的速度部署和執行推論應用程式。

深入瞭解 NVIDIA AI 推論平台 

深度學習推論涉及許多方面。NVIDIA AI 推論平台技術概覽深入探討了此主題,包括檢視端對端深度學習工作流程、將 AI 應用程式從原型帶入生產部署的細節,以及建構和執行 AI 推論應用程式的軟體框架。