SLMming 降低延遲:NVIDIA 首款終端裝置小型語言模型,如何讓數位人類更栩栩如生

Amazing Seasun Games 在 Gamescom 發表《Mecha BREAK》,首款展示 ACE 技術的遊戲,包括 NVIDIA Nemotron-4 4B,讓回應速度更快,內容相關性更高。
作者 Ike Nnoli

編者按:本文為「解碼 AI 」系列文章,以簡單易懂的方式解密 AI,並向 RTX 電腦的使用者展示新的軟硬體、工具與加速功能。

NVIDIA 本週在 Gamescom 發表 NVIDIA ACE,現已包含公司首款 由RTX AI驅動的終端裝置小型語言模型 (SLM)。NVIDIA ACE 是利用生成式AI的技術套件,可打造栩栩如生的數位人類

這款模型名為 Nemotron-4 4B Instruct,提供更好的角色扮演、檢索增強生成與函式呼叫功能,讓遊戲角色能以更直覺的方式理解玩家指令、回應玩家,以及執行更精確相關的動作。

這款模型透過 NVIDIA NIM 微服務的方式提供,供遊戲開發人員部署於雲端與裝置,經最佳化可實現低記憶體使用量,回應時間更快,能讓開發人員充分利用逾 1 億台 GeForce RTX 驅動的PC與筆記型電腦,以及 NVIDIA RTX 驅動的工作站。

SLM 優勢

AI模型的準確度與效能,取決於用於訓練的資料集大小與品質。大型語言模型經過大量資料訓練,但通常屬於一般用途,而且可能包含多數用途都用不到的資訊。

另一方面,SLM 則側重於特定使用案例。因此,即使資料量較少,回應卻更精準快速,是與數位人自然對話的關鍵要素。

首先,大型 Nemotron-4 15B LLM 經蒸餾得出 Nemotron-4 4B。這個流程需要稱為「學生」的較小模型,模仿「老師」這個恰如其名大模型的輸出。過程中,為縮小模型的參數,學生模型的非關鍵輸出會經過剪枝或移除。接著,SLM 經過量化,降低模型權重的精度。

相較於較大的 Nemotron-4 LLM,Nemotron-4 4B 參數較少,精度也較低,因此記憶體佔用空間較小,更快產生第一個權杖 (反應開始的速度),同時因為經過蒸餾,所以依舊保有高準確度。此外,記憶體佔用空間更小意味著,整合 NIM 微服務的遊戲與應用程式,可在更多消費者現有的 GeForce RTX AI PC與筆記型電腦,以及 NVIDIA RTX AI工作站,以本機方式執行。

這款全新的 SLM 經過最佳化,而且採用指令調整技術專門打造,可透過指令提示微調模型,提升執行特定工作的效能。Mecha BREAK》便是效能提升的最佳例證,這款遊戲的玩家可以與機械遊戲角色對話,指示角色切換及自訂機甲。

ACE 更上層樓

ACE NIM 微服務讓開發人員透過雲端或 RTX AI PC與工作站,部署最先進的生成式AI模型,在遊戲與應用程式引進AI。有了 ACE NIM 微服務,非遊戲角色 (NPC) 可即時與玩家動態互動和即時對話。

ACE 包含支援語音轉文字、語言、文字轉語音與面部動畫的關鍵AI模型。此外,它經過模組化,因此開發人員可依據特定流程中各元素的需求,挑選合適的 NIM 微服務。

NVIDIA Riva 支援的語音轉文字示範版本有十幾種語言可供選擇。

NVIDIA Riva 自動語音辨識 (ASR) 會處理使用者的口語,並利用AI即時提供準確度高的逐字稿。這項技術利用 GPU 加速的多語言語音與翻譯微服務,打造完全可自訂的對話式AI管道。其他支援的 ASR 包括 OpenAI 的 Whisper,這款開放原始碼神經網路辨識英語語音時,穩健度和準確度媲美人類。

翻譯成數位文字後,逐字稿便傳入 LLM,例如 Google 的 Gemma、Meta 的 Llama 3 或目前的 NVIDIA Nemotron-4 4B,開始對使用者原始語音輸入產生回應。

接著,另一款 Riva 技術 (文字轉語音) 會生成音訊回應。ElevenLabs 專有的AI語言和語音技術也獲得支援,如上方 ACE 中所示範。

最後,NVIDIA Audio2Face (A2F) 生成的面部表情,可與多種語言的對話同步。利用微服務,數位虛擬替身可即時顯示動態逼真的情感,或是在後製時烘焙。

AI網路會配合選定的情緒範圍與強度,自動為臉部、眼睛、嘴巴、舌頭與頭部運動製作動畫。A2F 可直接從音訊短片自動推論情緒。

最後,Unreal Engine 或 NVIDIA Omniverse 平台這類渲染器,會製作完整角色或數位人類的動畫。

微服務化的靈活AI

ACE 除了為各種 NVIDIA 支援和第三方AI模型提供模組化支援,還可讓開發人員在雲端或在 RTX AI PC與工作站本機端,為每種模型執行推論。

NVIDIA AI Inference Manager 軟體開發套件,可根據經驗、工作負載與成本等各種需求進行混合式推論。這個套件為電腦預先配置必要的AI模型、引擎和相依性,簡化電腦應用程式開發者部署及整合AI模型的流程。應用程式與遊戲隨後可以在PC或工作站與雲端之間,順暢協調推論流程。

ACE NIM 微服務可在 RTX AI PC與工作站本機執行,也可在雲端執行。目前在本機執行的微服務包括,Covert Protocol 技術展示採用的 Audio2Face,以及Mecha BREAK》採用的全新 Nemotron-4 4B Instruct 與 Whisper ASR。

無遠弗屆,超越極限

數位人應用範圍不只有遊戲的 NPC。NVIDIA 在上個月的 SIGGRAPH 大會預先展示了「James」,這款互動式數位人可透過情緒與幽默等方式與人類交流。James 以採用 ACE 的顧客服務工作流程為基礎。

在 ai.nvidia.com 與 James 互動。

人類與科技的交流方式這幾十年不斷變化,數位人最終誕生。人機介面未來會換上一張親切的面孔,也不需要實體輸入。

數位人讓互動方式更多引人入勝也更自然。Gartner 指出,到了 2025 年,80% 的對話產品將嵌入生成式AI,而 75% 的客戶接洽應用程式則會採用有情緒的對話式AI。數位人將顛覆遊戲以外的多個產業和使用案例,包括客戶服務、醫療保健、零售、遠端臨場與機器人技術。

現在使用者在 ai.nvidia.com 與 James 即時互動,便可一窺這項未來發展。

生成式AI正在改變遊戲、視訊會議和各種互動式體驗的生態。立即訂閲解碼AI電子報,掌握最新消息和未來趨勢。