AI,去拿回來吧!全新 NVIDIA NeMo Retriever 微服務提升大型語言模型的精確度與吞吐量

企業可藉由整合於 Cohesity、DataStax、NetApp 與 Snowflake 平台中用於檢索增強生成的生產就緒 NVIDIA NIM 推論微服務,發掘深藏於業務資料裡的寶貴價值。
作者 Erik Pounds

要是少了準確性,生成式人工智慧(AI) 應用程式便失去了它的價值,有時甚至價值是負的,而精確度的根源在於資料。

為了協助開發人員有效率地取得最佳的專屬資料,為其 AI 應用產生有著豐富知識的回應內容,NVIDIA 於今日發表 NVIDIA NeMo Retriever NIM 推論微服務。

NeMo Retriever NIM 微服務加上今日宣布適用於 Llama 3.1 模型集合的 NVIDIA NIM 推論微服務,可讓企業擴展至代理式 AI 工作流程。而在此流程中,AI 應用程式只需最少的人為干預或監督即可精確運作,同時提供最高精確度的檢索增強生成(RAG)。

NeMo Retriever 可讓組織將自訂模型無縫連接至各種業務資料,並且使用 RAG 為 AI 應用程式提供高準確度的回應。從本質上講,生產就緒型的微服務能夠檢索出高度精確的資訊,以建立極為精準的 AI 應用程式。

舉例來說,NeMo Retriever 可為開發人員提高模型精確度與吞吐量,以建立 AI 代理程式與客服聊天機器人、分析安全漏洞,或是從複雜的供應鏈資訊中提取重要見解。

NIM 推論微服務能夠做到高效能又易於使用的企業級推論作業.開發人員有了 NeMo Retriever NIM 微服務,便能從所有這些功能中獲益,而這一切都在他們的資料大力支援下方能達成。

這些全新的 NeMo Retriever 嵌入與重新排序 NIM 微服務現已全面推出:

  • NV-EmbedQA-E5-v5,一種針對文字問答檢索進行最佳化的熱門社群基礎嵌入模型。
  • NV-EmbedQA-Mistral7B-v2,一種熱門的多語言社群基礎模型,針對高精準回答問題的文字嵌入進行微調。
  • Snowflake-Arctic-Embed-L,經過最佳化調整的社群模型。
  • NV-RerankQA-Mistral4B-v3,一種針對高精準回答問題的文字重新排序進行微調的熱門社群基礎模型。

它們加入了可透過 NVIDIA API 目錄輕鬆存取的 NIM 微服務集合。

嵌入與重新排序模型

NeMo Retriever NIM 微服務包含嵌入與重新排序這兩種模型,並且提供開放與商業服務,以確保透明度與可靠性。

A diagram showing a user prompt inquiring about a bill, retrieving the most accurate response.
適用於 Llama 3.1 使用 NVIDIA NIM 微服務的 RAG 管線範例,以及針對客服 AI 聊天機器人應用程式使用 NeMo Retriever 嵌入與重新排序 NIM 微服務的範例。

嵌入模型可將文字、圖片、圖表和影片等多元資料轉換為數值向量,並且存在向量資料庫中,同時擷取其意義和細節。嵌入模型比傳統的大型語言模型(LLM)的速度更快、運算成本也更低。

重新排序模型會擷取資料和查詢,然後按照資料與查詢的相關性對資料進行評分。這類模型在顯著提高精確度之際,計算上卻又比嵌入模型複雜和更慢。

NeMo Retriever 兼採兩方之長。開發人員使用嵌入 NIM 來檢索的廣泛資料網,然後使用重新排序 NIM 來修剪結果的相關性,可以透過 NeMo Retriever 建立一個管道,確保為企業提供最有用也最精準的結果。

開發人員透過 NeMo Retriever,便能使用最先進的開放式商業模型來建立有著最高準確度的文字問答檢索管道。與其他模型相比,NeMo Retriever NIM 微服務為企業在回答問題時提供不準確答案的比例減少了 30%。

Bar chart showing lexical search (45%), alternative embedder (63%), compared with NeMo Retriever embedding NIM (73%) and NeMo Retriever embedding + reranking NIM microservices (75%).
NeMo Retriever 嵌入 NIM,以及嵌入加上重新排列 NIM 微服務的效能與詞彙搜尋及替代嵌入器的比較。

熱門使用案例

從 RAG 和 AI 代理解決方案到資料驅動的分析等,NeMo Retriever 能夠支援多種 AI 應用。

微服務可用於建立智慧聊天機器人,提供準確及符合語境脈絡的回應內容。它們可協助分析海量資料以發現安全漏洞。它們可以協助從複雜的供應鏈資訊中擷取重要見解。它們還可以提升 AI 零售購物顧問的功能,提供自然和量身打造的購物體驗,以及其他任務。

針對這些使用案例的 NVIDIA AI 工作流程為開發有著生成式 AI 支援的技術,提供了一個簡單且給予支援的起點。

數十個 NVIDIA 資料平台合作夥伴採用 NeMo Retriever NIM 微服務,以提升其 AI 模型的精確度與吞吐量。

DataStax 已將 NeMo Retriever 嵌入 NIM 微服務與該公司的 Astra DB 與 Hyper-Converged 平台進行整合,此舉使得 DataStax 能夠為客戶帶來精確、生成式 AI 增強的 RAG 功能,並且加快產品上市時間。

Cohesity 將 NVIDIA NeMo Retriever 微服務與該公司的 AI產品 Cohesity Gaia 進行整合,協助客戶透過 RAG 將資料用在支援具備洞察力及變革性的生成式 AI 應用程式上。

Kinetica 將使用 NVIDIA NeMo Retriever 開發 LLM 代理程式,這款代理程式能以自然語言與複雜的網路互動,以便更快速地回應中斷或漏洞情況,即時將洞察力變成行動。

NetApp 正與 NVIDIA 合作,將 NeMo Retriever 微服務連結至該公司智慧型資料基礎架構上的 EB 級龐大資料。每個 NetApp ONTAP 客戶都能流暢「與資料對話」,存取專屬的商業見解,而無需犧牲資料的安全性或隱私性。

包括 Accenture、Deloitte、Infosys、LTTS、Tata Consultancy Services、Tech Mahindra 和 Wipro 在內的 NVIDIA 全球系統整合商合作夥伴,以及服務交付合作夥伴 Data Monsters、EXLService (Ireland) Limited、Latentview、Quantiphi、Slalom、SoftServe 和 Tredence 正在開發各項服務,以協助企業將 NeMo Retriever NIM 微服務加入其 AI 管道。

搭配其他 NIM 微服務使用

NeMo Retriever NIM 微服務可以搭配 NVIDIA Riva NIM 微服務使用,就像是為各產業的語音 AI 應用程式助一臂之力,以提供更好的客戶服務,還有讓數位人類更加活靈活現。

即將推出的 Riva NIM 微服務新模型有適用於文字轉語音應用程式的 FastPitch 與 HiFi-GAN;適用於多語言神經機器翻譯的 Megatron,以及創紀錄的 NVIDIA Parakeet自動語音辨識模型系列。

NVIDIA NIM 微服務可以一起或單獨使用,為開發人員提供模組化的方式來建立 AI 應用程式。這些微服務還能跟社群模型、NVIDIA 模型或使用者自訂的模型進行整合,無論是在雲端、內部部署或混合環境中,都能為開發人員提供更多彈性。

NVIDIA NIM 微服務可於 ai.nvidia.com 網站取得。企業可透過 NVIDIA AI Enterprise 軟體平台,利用 NIM 在生產環境中部署 AI 應用程式。

NIM 微服務可在客戶常用的加速基礎架構上執行,包括來自 Amazon Web Services、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 的雲端執行個體,以及包括思科、戴爾科技集團、慧與科技、聯想 和美超微等全球伺服器製造合作夥伴所推出的 NVIDIA 認證系統 NVIDIA 認證系統

NVIDIA 開發人員計畫會員很快就可以免費使用 NIM,在他們常用的基礎架構上進行研究、開發與測試。

NVIDIA 將於 7 28 日至 8 1 日參加在美國丹佛舉行的 SIGGRAPH 電腦繪圖研討會,與 NVIDIA 一同了解生成式 AI 與加速運算領域的最新發展。

請參閱有關軟體產品資訊的公告