AI 正在為每一個人創造價值,從藥物探索研究人員,到應對金融市場變化的量化分析師。
AI 系統產生詞元 (token,串接輸出的資料單位) 的速度越快,影響越大。因此,AI 工廠是關鍵,提供從「產生第一個 token 的時間」到「初次創造價值的時間」最有效率的路徑。
AI 工廠正在重新定義現代基礎架構的經濟學。它們大規模地將資料轉化為有價值的輸出,無論是 token、預測、影像、蛋白質或其他形式,以產生智慧。
將有助於加強 AI 旅程的三個關鍵層面:資料擷取、模型訓練和高容量推論。建立 AI 工廠之目的是更快速、更準確地產生 token,使用三大關鍵技術堆疊:AI 模型、加速運算基礎架構和企業級軟體。
請繼續閱讀,以瞭解 AI 工廠如何協助全球企業和組織將最有價值的數位商品,也就是資料,轉換成創收潛力。
從推論經濟學到價值創造
在建立 AI 工廠之前,必須先瞭解推論經濟學 — 如何平衡成本、能源效率與不斷升高的 AI 需求。
產出量是指模型可以產生的 token 數量。延遲是指模型在特定時間內可輸出的 token 數量,通常以產生第一個 token 的時間 (第一個輸出出現之前所需的時間)、輸出每一個 token 的時間,或出現每一個額外 token 的速度進行衡量。有效產出是較新的指標,使用於衡量系統在達到關鍵延遲目標時可以提供多少有用的輸出。
使用者體驗是任何軟體應用程式的關鍵,AI 工廠也不例外。高產出量表示 AI 更智慧化,而較低的延遲可以確保及時回應。當兩項指標適當平衡時,AI 工廠可以快速創造出有用的輸出,提供具有吸引力的使用者體驗。
例如,在半秒內回應的 AI 客服代理程式比在五秒內回應的代理程式更具吸引力和價值,即使最終在回答中產生的 token 數量相同。
企業可以利用此機會為推論輸出設定具競爭力的價格,以提高每一個 token 的創收潛力。
此種平衡可能很難衡量與呈現,而產生了 Pareto 邊界的概念。
AI 工廠產出:高效率 token 的價值
在大規模部署 AI 時,下圖所示之 Pareto 邊界有助於呈現在互競目標,例如更快速的回應與同時服務更多使用者之間平衡取捨的最佳方式。
縱軸表示以每秒 token 數衡量在特定能耗下的產出效率。此數字越高,AI 工廠可以同時處理的要求越多。
橫軸表示單一使用者的每秒 token 數,代表模型向使用者提示而產生第一個回答需要的時間。值越高,預期的使用者體驗越好。聊天機器人、即時分析工具等互動式應用程式通常需要較低的延遲和較快的回應時間。
Pareto 邊界的最大值,即為曲線的頂點值,代表特定運作組態集合的最佳輸出。目標是針對不同的 AI 工作負載和應用程式,找出產出量與使用者體驗之間的最佳平衡。
最佳 AI 工廠利用加速運算增加每瓦 token 數 — 最佳化 AI 效能,同時大幅提高 AI 工廠和應用程式的能源效率。
上方的動畫比較了在 NVIDIA H100 GPU 和 NVIDIA B300 GPU 上執行時,設定為以每一個使用者每秒 32 個 token 和每一個使用者每秒 344 個 token 運作的使用者體驗。在設定的使用者體驗下,Blackwell Ultra 可以將體驗改善超過 10 倍,並將產出量提高近 5 倍,實現高達 50 倍的創收潛力。
AI 工廠的實務運作
AI 工廠是一個由多個元件互相結合組成,將資料轉化為智慧的系統。它不一定採取高階內部部署資料中心的形式,而是可能在加速運算基礎架構上運作的 AI 專用雲端或混合模型。或者,可能是可以最佳化網路,且可以在邊緣端執行推論的電信基礎架構。
實際上,任何專用的加速運算基礎架構搭配透過 AI 將資料轉化為智慧的軟體,就是 AI 工廠。
元件包括加速運算、網路、軟體、儲存裝置、系統,以及工具和服務。
當使用者向 AI 系統下達提示時,AI 工廠的整體堆疊就會開始運作。工廠將提示 token 化,將資料變成小的意義單位,例如影像、聲音和文字的片段。
每一個 token 都會經過 GPU 驅動的 AI 模型,在 AI 模型上執行運算密集型推理,以產生最佳回應。每一個 GPU 都是透過高速網路和互連執行平行處理,以同時處理資料。
AI 工廠將會針對全球使用者的不同提示執行此流程。這是即時推論,產生產業規模的智慧。
由於 AI 工廠統一了整體 AI 生命週期,此系統正在持續改進:記錄推論、標記邊緣端案例以進行重新訓練、隨著時間收緊最佳化循環 — 不需要人工介入,是有效產出的實際範例。
頂尖的全球安全技術公司 Lockheed Martin 已建立本身的 AI 工廠,支援其業務中的各種用途。Lockheed Martin 透過 AI 中心,將生成式 AI 工作負載集中在 NVIDIA DGX SuperPOD 上訓練和客製化 AI 模型,以充分利用專用基礎架構的能力及降低雲端環境的間接成本。
「我們透過內部部署 AI 工廠,在內部處理詞元化、訓練和部署。」Lockheed Martin AI 基礎總監 Greg Forrest 表示:「DGX SuperPOD 每週處理超過 10 億個 token,讓我們可以在大型語言模型上進行微調、擷取擴增產生或推論。此解決方案可以避免成本不斷上升以及 token 使用費用的明顯限制。」
適用於 AI 工廠的 NVIDIA 完整堆疊技術
AI 工廠將 AI 從一連串孤立的實驗變成可擴充、可重複,且可靠的引擎,以發揮創新和商業價值。
NVIDIA 提供了建立 AI 工廠需要的所有元件,包括加速運算、高效能 GPU、高頻寬網路和最佳化軟體。
例如,NVIDIA Blackwell GPU 可以透過網路連接、採用水冷設計提高能源效率,並與 AI 軟體協調。
NVIDIA Dynamo 開放原始碼推論平台為 AI 工廠提供作業系統。其目的是以最高效率與最低成本加速和擴充 AI。Dynamo 以智慧化方式,將推論要求進行路線規畫、排程和最佳化,確保能充分利用每一個 GPU 週期,以最高效能推動 token 產出。
NVIDIA Blackwell GB200 NVL72 系統和 NVIDIA InfiniBand 網路是設計為可以最大化每瓦 token 產出量,使 AI 工廠具有高效率的總產出量和低延遲。
組織可以透過驗證最佳化全堆疊解決方案,有效率地建立和維護最先進的 AI 系統。完整堆疊 AI 工廠可以協助企業實現卓越營運,進而能更快速、更有把握地利用 AI 的潛力。