AI，去拿回來吧！全新 NVIDIA NeMo Retriever 微服務提升大型語言模型的精確度與吞吐量

要是少了準確性，生成式人工智慧（AI）應用程式便失去了它的價值，有時甚至價值是負的，而精確度的根源在於資料。

為了協助開發人員有效率地取得最佳的專屬資料，為其 AI 應用產生有著豐富知識的回應內容，NVIDIA 於今日發表 NVIDIA NeMo Retriever NIM 推論微服務。

NeMo Retriever NIM 微服務加上今日宣布適用於 Llama 3.1 模型集合的 NVIDIA NIM 推論微服務，可讓企業擴展至代理式 AI 工作流程。而在此流程中，AI 應用程式只需最少的人為干預或監督即可精確運作，同時提供最高精確度的檢索增強生成（RAG）。

NeMo Retriever 可讓組織將自訂模型無縫連接至各種業務資料，並且使用 RAG 為 AI 應用程式提供高準確度的回應。從本質上講，生產就緒型的微服務能夠檢索出高度精確的資訊，以建立極為精準的 AI 應用程式。

舉例來說，NeMo Retriever 可為開發人員提高模型精確度與吞吐量，以建立 AI 代理程式與客服聊天機器人、分析安全漏洞，或是從複雜的供應鏈資訊中提取重要見解。

NIM 推論微服務能夠做到高效能又易於使用的企業級推論作業．開發人員有了 NeMo Retriever NIM 微服務，便能從所有這些功能中獲益，而這一切都在他們的資料大力支援下方能達成。

這些全新的 NeMo Retriever 嵌入與重新排序 NIM 微服務現已全面推出：

NV-EmbedQA-E5-v5，一種針對文字問答檢索進行最佳化的熱門社群基礎嵌入模型。
NV-EmbedQA-Mistral7B-v2，一種熱門的多語言社群基礎模型，針對高精準回答問題的文字嵌入進行微調。
Snowflake-Arctic-Embed-L，經過最佳化調整的社群模型。
NV-RerankQA-Mistral4B-v3，一種針對高精準回答問題的文字重新排序進行微調的熱門社群基礎模型。

它們加入了可透過 NVIDIA API 目錄輕鬆存取的 NIM 微服務集合。

嵌入與重新排序模型

NeMo Retriever NIM 微服務包含嵌入與重新排序這兩種模型，並且提供開放與商業服務，以確保透明度與可靠性。

A diagram showing a user prompt inquiring about a bill, retrieving the most accurate response. — 適用於 Llama 3.1 使用 NVIDIA NIM 微服務的 RAG 管線範例，以及針對客服 AI 聊天機器人應用程式使用 NeMo Retriever 嵌入與重新排序 NIM 微服務的範例。

嵌入模型可將文字、圖片、圖表和影片等多元資料轉換為數值向量，並且存在向量資料庫中，同時擷取其意義和細節。嵌入模型比傳統的大型語言模型（LLM）的速度更快、運算成本也更低。

重新排序模型會擷取資料和查詢，然後按照資料與查詢的相關性對資料進行評分。這類模型在顯著提高精確度之際，計算上卻又比嵌入模型複雜和更慢。

NeMo Retriever 兼採兩方之長。開發人員使用嵌入 NIM 來檢索的廣泛資料網，然後使用重新排序 NIM 來修剪結果的相關性，可以透過 NeMo Retriever 建立一個管道，確保為企業提供最有用也最精準的結果。

開發人員透過 NeMo Retriever，便能使用最先進的開放式商業模型來建立有著最高準確度的文字問答檢索管道。與其他模型相比，NeMo Retriever NIM 微服務為企業在回答問題時提供不準確答案的比例減少了 30%。

Bar chart showing lexical search (45%), alternative embedder (63%), compared with NeMo Retriever embedding NIM (73%) and NeMo Retriever embedding + reranking NIM microservices (75%). — NeMo Retriever 嵌入 NIM，以及嵌入加上重新排列 NIM 微服務的效能與詞彙搜尋及替代嵌入器的比較。

搭配其他 NIM 微服務使用

NeMo Retriever NIM 微服務可以搭配 NVIDIA Riva NIM 微服務使用，就像是為各產業的語音 AI 應用程式助一臂之力，以提供更好的客戶服務，還有讓數位人類更加活靈活現。

即將推出的 Riva NIM 微服務新模型有適用於文字轉語音應用程式的 FastPitch 與 HiFi-GAN；適用於多語言神經機器翻譯的 Megatron，以及創紀錄的 NVIDIA Parakeet 自動語音辨識模型系列。

NVIDIA NIM 微服務可以一起或單獨使用，為開發人員提供模組化的方式來建立 AI 應用程式。這些微服務還能跟社群模型、NVIDIA 模型或使用者自訂的模型進行整合，無論是在雲端、內部部署或混合環境中，都能為開發人員提供更多彈性。

NVIDIA NIM 微服務可於 ai.nvidia.com 網站取得。企業可透過 NVIDIA AI Enterprise 軟體平台，利用 NIM 在生產環境中部署 AI 應用程式。

NIM 微服務可在客戶常用的加速基礎架構上執行，包括來自 Amazon Web Services、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 的雲端執行個體，以及包括思科、戴爾科技集團、慧與科技、聯想和美超微等全球伺服器製造合作夥伴所推出的 NVIDIA 認證系統 NVIDIA 認證系統。

NVIDIA 開發人員計畫會員很快就可以免費使用 NIM，在他們常用的基礎架構上進行研究、開發與測試。

NVIDIA 將於 7 月 28 日至 8 月 1 日參加在美國丹佛舉行的 SIGGRAPH 電腦繪圖研討會，與 NVIDIA 一同了解生成式 AI 與加速運算領域的最新發展。