NVIDIA A100 在金融服務產業的關鍵推論基準測試中,於輸送量和延遲結果冠蓋群雄

在 Supermicro 伺服器上執行的 A100 GPU,可在 STAC-ML 市場標準中達到最高輸送量和頂尖延遲度
作者 Malcolm Demayo

Supermicro 伺服器上執行的 NVIDIA A100 Tensor 核心 GPU 已達到最新 STAC-ML 市場基準的頂尖推論成果,此基準是金融服務產業的關鍵技術效能衡量指標。

結果顯示 NVIDIA 展現出無可匹敵的輸送量:在效能需求最嚴苛的模型上可每秒提供數千次推論,並達到最新 STAC-ML 推論標準下最優異的延遲表現。

金融機構密切關注此成果,根據最近的一份調查,四分之三的金融機構都仰賴機器學習、深度學習或高效能運算。

NVIDIA A100:頂尖延遲度成果

STAC-ML 推論基準旨在衡量長短期記憶 (LSTM) 模型推論的延遲,也就是從接收新輸入資料到計算出模型輸出之間的時間。LSTM 是用於探索如資產價格等金融時間序列資料的重要模型方法。

該基準測試包含三個越益複雜的 LSTM 模型。在 Supermicro Ultra SuperServer 上執行的 NVIDIA A100 GPU,低延遲度排名在第 99 個百分位。

STAC-ML STAC-A2™STAC-A3™ 基準的加速運算

A100 除了在 STAC-A2 基準的期權價格探索和 STAC-A3 基準的模型回測上創下效能記錄,在 STAC-ML 的推論效能同樣出色,讓人一窺 NVIDIA 人工智慧運算能如何加快現代交易環境的流程。

這也顯示 A100 GPU 可為金融機構提供頂尖的效能與工作負載多元性。

可預測的效能帶來一致的低延遲度

可預測的效能對於金融產業的低延遲度環境至關重要,因為極端異常值可能在市場快速變遷時造成重大損失。

值得注意的是,NVIDIA 延遲並沒有較大的異常值,最高延遲不超過所有 LSTM 延遲度中位的 2.3 倍,也未超過模型的執行個體總數 (最多可達 32 個並行執行個體)。1

NVIDIA 率先提交基準測試 Tacana 套件的效能成果。Tacana 是用在於滑動視窗上執行的推論,即是每一次的推論運作都會新增時間標記,並移除最舊的標記。這十分適合用於每次市場資料更新後都需執行推論的高頻率交易。

第二個套件 Sumaco 則會對一組全新資料進行推論,反映出某個事件根據近期歷程記錄而展開推論的使用案例。

在基準測試結果中展現頂尖輸送量

NVIDIA 也針對 FP16 精度的 Sumaco 套件,依相同硬體提交了輸送量最佳化的配置。2

在基準測試中最低複雜度的 LSTM 上,Supermicro 伺服器上的 A100 GPU 每秒可提供超過 170 萬次推論。3

而在最複雜的 LSTM 上,這些系統每秒可處理多達 12,800 次推論。4

NVIDIA A100:效能與多樣性

NVIDIA GPU 提供多項優勢,可降低電子交易堆疊的總持有成本。

首先,NVIDIA 人工智慧提供單一的訓練和推論平台。無論是開發、回測或部署人工智慧模型,NVIDIA 人工智慧都提供領先業界的效能,開發人員也無需學習不同程式設計語言和框架,即可進行研究和交易。

此外,NVIDIA CUDA 程式設計模型可在 GPU 加速的嵌入式系統、桌上型工作站、企業資料中心、雲端平台和高效能運算超級電腦上開發、最佳化和部署應用程式。

高效率降低營運支出

金融服務產業不僅能受益於資料輸送量的進步,還能提升營運效率。

降低資料中心系統所消耗的能源和佔地面積,可大幅改善營運支出。當 IT 組織提出預算支出來挹注全新的高效能系統時,這一點尤其重要。

在效能需求最嚴苛的 LSTM 模型上,NVIDIA A100 在消耗 722 瓦時,每消耗千瓦即可每秒執行超過 17,700 次推論,展現頂尖能源效率。5

基準測試結果證實,NVIDIA GPU 在輸送量和能源效率方面無可匹敵,適用於回測和模擬等工作負載。

深入瞭解 NVIDIA 提供更具智慧、更安全的金融服務

[1] SUT ID NVDA221118b,STAC-ML.Markets.Inf.T.LSTM_A.2.LAT.v1 上限

[2] SUT ID NVDA221118a

[3] STAC-ML.Markets.Inf.S.LSTM_A.4.TPUT.v1

[4] STAC-ML.Markets.Inf.S.LSTM_C.[1,2,4].TPUT.v1

[5] SUT ID NVDA221118a、STAC-ML.Markets.Inf.S.LSTM_C.[1,2,4].ENERG_EFF.v1