Hugging Face 為開發人員提供由 NVIDIA NIM 驅動的推論即服務

全新服務能為數百萬開發人員在受歡迎的 AI 模型上帶來高達 5 倍的詞元效率,並支援立即存取在 NVIDIA DGX Cloud 上運行的 NIM 微服務
作者 Alexis Bjorlin

作為全球最大的 AI 社群之一,Hugging Face 平台上的 400 萬開發者現在可以在一些最受歡迎的人工智慧(AI)模型上輕易地享受到由 NVIDIA 加速的推論服務。

新的推論即服務(Inference-as-a-Service)功能將使開發者能夠經由在 NVIDIA DGX Cloud 上運行的 NVIDIA NIM 微服務,快速部署最佳化的先進大型語言模型,如 Llama 3 系列和 Mistral AI 模型。

此服務今天在 SIGGRAPH 大會上宣布,將幫助開發人員使用 Hugging Face Hub 上託管的開源 AI 模型快速製作原型,並將其部署到生產中。Enterprise Hub 使用者可以利用無伺服器推論,透過 NVIDIA NIM 提高靈活性、最小化基礎架構開銷並最佳化效能。

這項推論服務與已在 Hugging Face 上提供的 Train on DGX Cloud 相互搭配。

面對日益增多的開源模型,開發者可以從一個中心裡輕鬆比較選項而受益。這些訓練和推論工具為 Hugging Face 的開發者提供了在 NVIDIA 加速基礎架構上試驗、測試和部署尖端模型的新方式。使用 Hugging Face 模型卡上的「訓練」和「部署」下拉選單,使用者可以輕鬆存取它們,只需按一下幾下即可開始使用。

立即開始使用 NVIDIA NIM 驅動的推論即服務

超越象徵性姿態 — NVIDIA NIM 帶來重大效益

NVIDIA NIM 是一系列 AI 微服務的集合,包括 NVIDIA AI 基礎模型和開源社群模型,針對推論進行了最佳化,並使用業界標準應用程式介面(API)。

NIM 為使用者在處理詞元(語言模型使用和生成的資料單位)方面提供了更高的效率。最佳化的微服務還提升了底層 NVIDIA DGX Cloud 基礎設施的效率,從而加快了重要 AI 應用的速度。

這意味著與其他版本的模型相比,開發人員使用作為NIM的 AI 模型可以看到更快、更穩健的結果。例如在 NVIDIA H100 Tensor Core GPU 驅動的系統中與直接部署相比,700 億參數版本的 Llama 3 在以 NIM 作為服務時有高達 5 倍的吞吐量。

近乎立即存取 DGX 雲端提供容易存取的 AI 加速

NVIDIA DGX Cloud 平台是專為生成式 AI 而打造,讓開發人員輕鬆存取可靠的加速運算基礎設施,協助他們更快將生產就緒應用程式推向市場。

該平台提供可擴充的 GPU 資源,可支援 AI 開發從原型到生產的每一步,而不需要開發人員作出長期 AI 基礎設施承諾。

由 NIM 驅動在 NVIDIA DGX Cloud 上的 Hugging Face 推論即服務可提供輕鬆存取針對 AI 部署最佳化的運算資源,讓使用者可以在企業級環境中試驗最新的 AI 模型。

SIGGRAPH 中更多關於 NVIDIA NIM的資訊

在 SIGGRAPH 上,NVIDIA 也推出了適用於 OpenUSD 框架的生成式 AI 模型和 NIM 微服務,以加速開發人員為 AI 的下一次發展構建高度準確的虛擬世界的能力。

要體驗超過 100 個 NVIDIA NIM 微服務以及跨行業的應用,請訪至 ai.nvidia.com