Mission NIMpossible：解碼可加速生成式AI的微服務

編者按：本文為「解碼 AI 」系列文章，以簡單易懂的方式解密AI，並介紹 RTX PC 的新硬體、軟體、工具與加速功能。

在快速發展的AI世界中，生成式AI正激發大眾想像力並改變著各項產業。讓各項改變成真的幕後藏鏡人：微服務架構。

現代AI應用程式的基石

微服務已成為一種強大的架構，從根本上改變了人們設計、打造和部署軟體的方式。

微服務架構將應用程式分解成一系列鬆散成對、可獨立部署的服務。每項服務負責特定功能，並透過妥善定義的應用程式開發介面 (API) 與其他服務進行通訊。這種模組化方法與傳統的一體式架構截然不同，傳統架構將所有功能整合至緊密整合的單一應用程式。

團隊可透過分離服務，同時處理不同的元件，加速開發流程並允許獨立推出更新，且不會影響到整體應用程式。開發者能專心打造和改善特定服務，進而提升程式碼品質，並盡速解決問題。這種專業化技術能讓開發者成為特定領域的專家。

服務可根據需求獨立擴充，提升資源使用率並改善整體系統效能。此外，不同的服務還可採用不同的技術，讓開發者能為各項特定工作項目選擇最佳工具。

最佳拍檔：微服務與生成式AI

微服務架構具備可擴充性、經強化的模組化和彈性的性質，因此特別適合開發生成式AI應用程式。

尤其像大型語言模型的AI模型，更需要用到大量運算資源。微服務能在不影響整個系統的情況下，有效率地擴充這些資源密集的元件。

生成式AI應用程式通常涉及多項步驟，如資料前置處理、模型推論和後製處理。微服務讓每項步驟都能以獨立方式開發、最佳化和擴充。此外，隨著AI模型和技術迅速發展，微服務架構能更輕鬆整合新模型，以及在不中斷整體應用程式的情況下，替換現有模型。

NVIDIA NIM：簡化生成式AI部署

隨著AI應用程式需求的增長，開發者如何有效率地部署和管理AI模型也正面臨挑戰。

NVIDIA NIM 推論微服務提供用作最佳化容器的模型，可部署於雲端、資料中心、工作站、桌上型電腦和筆記型電腦。每個 NIM 容器都包含預先訓練的AI模型和所有必要的執行階段元件，因此能輕鬆將AI功能整合至應用程式。

NIM 可提供經過簡化的整合、生產即用性和彈性，為想要整合AI功能的應用程式開發者提供顛覆性的方法。由於 NIM 推論微服務已針對效能進行最佳化，具備執行時間最佳化並支援業界標準 API，因此開發者不必擔心資料準備、模型訓練或自訂的複雜度，進而專心打造應用程式。

唾手可得的AI：工作站和 PC 上的 NVIDIA NIM

打造企業生成式AI應用程式面臨諸多挑戰。儘管雲端託管的模型 API 能協助開發者入門，但與資料隱私、安全性、模型回應延遲、準確度、API 成本和擴充相關的問題，仍會在邁向生產的途中阻礙開發者。

採用 NIM 的工作站能讓開發者安全使用各種模型和效能最佳化的推論微服務。

只要開發者能避免雲端託管 API 相關的延遲、成本和合規問題，及模型部署的複雜性，便可專心進行應用程式開發。如此便能加速交付生產即用的生成式AI應用程式，進而透過效能最佳化，在資料中心和雲端中順暢地自動擴充。

近期宣布全面推出 Meta Llama 3 8B 模型的 NIM，可在 RTX 系統上於本機執行，能為個別開發者提供最先進的語言模型功能，且無須雲端資源即可進行本機測試和實驗。開發者可透過本機執行的 NIM，直接在工作站上建立精密的檢索增強生成 (RAG) 專案。

本機 RAG 是指完全在本機硬體上實作 RAG 系統，無須仰賴雲端服務或外部 API。

開發者可將 Llama 3 8B NIM 用於搭載一個或多個 NVIDIA RTX 6000 Ada 世代 GPU 的工作站或 NVIDIA RTX 系統上，完全在本機硬體上打造端對端 RAG 系統。此設定能讓開發者充分發揮 Llama 3 8B 的強大功能，並確保高效能和低延遲。

若開發者在本機執行整個 RAG 流程，便能保持對資料的完全掌控，並確保隱私和安全。若開發者打造的是需要即時回應和高準確度的應用程式，如客戶支援聊天機器人、個人化內容產生工具和互動式虛擬助理，此方法將特別有幫助。

混合式 RAG 結合本機和雲端資源，可將AI應用程式的效能和彈性最佳化。有了 NVIDIA AI Workbench，開發者就可開始使用混合式 RAG Workbench專案：此範例應用程式可在本機用來執行向量資料庫和嵌入模型，同時也能在雲端或資料中心使用 NIM 執行推論，提供靈活的資源分配方式。

這種混合式設定讓開發者能平衡本機和雲端資源之間的運算負載，進而將效能和成本最佳化。舉例來說，向量資料庫和嵌入模型可託管在本機工作站上，確保能快速進行資料擷取和處理，而運算密集更高的推論工作則可卸載到強大的雲端 NIM 推論微服務。如此的彈性能讓開發者順暢擴充應用程式、適應不同的工作負載，並確保效能一致。

NVIDIA ACE NIM 推論微服務能在 RTX PC 和工作站上透過生成式AI，將虛擬人物、AI非玩家角色 (NPC) 和客服互動式虛擬角色變得栩栩如生。

用於語音的 ACE NIM 推論微服務，例如 Riva 自動語音辨識、文字轉語音和神經機器翻譯，可進行準確的轉錄、翻譯和逼真的語音。

NVIDIA Nemotron 小型語言模型是智慧型 NIM，包含可將記憶體使用量降到最低的 INT4 量化，並支援角色扮演和 RAG 使用案例，

而用於外觀設計的 ACE NIM 推論微服務則包含 Audio2Face 和 Omniverse RTX，可呈現栩栩如生的動畫搭配超逼真的視覺效果。這些技術提供了更身臨其境且引人入勝的遊戲角色，並在虛擬客服人員互動中，為使用者提供更令人滿意的體驗。