SLMming 降低延遲：NVIDIA 首款終端裝置小型語言模型，如何讓數位人類更栩栩如生

編者按：本文為「解碼 AI 」系列文章，以簡單易懂的方式解密 AI，並向 RTX 電腦的使用者展示新的軟硬體、工具與加速功能。

NVIDIA 本週在 Gamescom 發表 NVIDIA ACE，現已包含公司首款由RTX AI驅動的終端裝置小型語言模型 (SLM)。NVIDIA ACE 是利用生成式AI的技術套件，可打造栩栩如生的數位人類。

這款模型名為 Nemotron-4 4B Instruct，提供更好的角色扮演、檢索增強生成與函式呼叫功能，讓遊戲角色能以更直覺的方式理解玩家指令、回應玩家，以及執行更精確相關的動作。

這款模型透過 NVIDIA NIM 微服務的方式提供，供遊戲開發人員部署於雲端與裝置，經最佳化可實現低記憶體使用量，回應時間更快，能讓開發人員充分利用逾 1 億台 GeForce RTX 驅動的PC與筆記型電腦，以及 NVIDIA RTX 驅動的工作站。

SLM 優勢

AI模型的準確度與效能，取決於用於訓練的資料集大小與品質。大型語言模型經過大量資料訓練，但通常屬於一般用途，而且可能包含多數用途都用不到的資訊。

另一方面，SLM 則側重於特定使用案例。因此，即使資料量較少，回應卻更精準快速，是與數位人自然對話的關鍵要素。

首先，大型 Nemotron-4 15B LLM 經蒸餾得出 Nemotron-4 4B。這個流程需要稱為「學生」的較小模型，模仿「老師」這個恰如其名大模型的輸出。過程中，為縮小模型的參數，學生模型的非關鍵輸出會經過剪枝或移除。接著，SLM 經過量化，降低模型權重的精度。

相較於較大的 Nemotron-4 LLM，Nemotron-4 4B 參數較少，精度也較低，因此記憶體佔用空間較小，更快產生第一個權杖 (反應開始的速度)，同時因為經過蒸餾，所以依舊保有高準確度。此外，記憶體佔用空間更小意味著，整合 NIM 微服務的遊戲與應用程式，可在更多消費者現有的 GeForce RTX AI PC與筆記型電腦，以及 NVIDIA RTX AI工作站，以本機方式執行。

這款全新的 SLM 經過最佳化，而且採用指令調整技術專門打造，可透過指令提示微調模型，提升執行特定工作的效能。《Mecha BREAK》便是效能提升的最佳例證，這款遊戲的玩家可以與機械遊戲角色對話，指示角色切換及自訂機甲。

ACE 更上層樓

ACE NIM 微服務讓開發人員透過雲端或 RTX AI PC與工作站，部署最先進的生成式AI模型，在遊戲與應用程式引進AI。有了 ACE NIM 微服務，非遊戲角色 (NPC) 可即時與玩家動態互動和即時對話。

ACE 包含支援語音轉文字、語言、文字轉語音與面部動畫的關鍵AI模型。此外，它經過模組化，因此開發人員可依據特定流程中各元素的需求，挑選合適的 NIM 微服務。

NVIDIA Riva 支援的語音轉文字示範版本有十幾種語言可供選擇。

NVIDIA Riva 自動語音辨識 (ASR) 會處理使用者的口語，並利用AI即時提供準確度高的逐字稿。這項技術利用 GPU 加速的多語言語音與翻譯微服務，打造完全可自訂的對話式AI管道。其他支援的 ASR 包括 OpenAI 的 Whisper，這款開放原始碼神經網路辨識英語語音時，穩健度和準確度媲美人類。

翻譯成數位文字後，逐字稿便傳入 LLM，例如 Google 的 Gemma、Meta 的 Llama 3 或目前的 NVIDIA Nemotron-4 4B，開始對使用者原始語音輸入產生回應。

接著，另一款 Riva 技術 (文字轉語音) 會生成音訊回應。ElevenLabs 專有的AI語言和語音技術也獲得支援，如上方 ACE 中所示範。

最後，NVIDIA Audio2Face (A2F) 生成的面部表情，可與多種語言的對話同步。利用微服務，數位虛擬替身可即時顯示動態逼真的情感，或是在後製時烘焙。

AI網路會配合選定的情緒範圍與強度，自動為臉部、眼睛、嘴巴、舌頭與頭部運動製作動畫。A2F 可直接從音訊短片自動推論情緒。

最後，Unreal Engine 或 NVIDIA Omniverse 平台這類渲染器，會製作完整角色或數位人類的動畫。

微服務化的靈活AI

ACE 除了為各種 NVIDIA 支援和第三方AI模型提供模組化支援，還可讓開發人員在雲端或在 RTX AI PC與工作站本機端，為每種模型執行推論。

NVIDIA AI Inference Manager 軟體開發套件，可根據經驗、工作負載與成本等各種需求進行混合式推論。這個套件為電腦預先配置必要的AI模型、引擎和相依性，簡化電腦應用程式開發者部署及整合AI模型的流程。應用程式與遊戲隨後可以在PC或工作站與雲端之間，順暢協調推論流程。

ACE NIM 微服務可在 RTX AI PC與工作站本機執行，也可在雲端執行。目前在本機執行的微服務包括，Covert Protocol 技術展示採用的 Audio2Face，以及《Mecha BREAK》採用的全新 Nemotron-4 4B Instruct 與 Whisper ASR。