人工智慧的基石：解碼基礎模型的作用與意義

編者按：此篇文章屬於「解碼 AI 」系列，該系列文章會以簡單易懂的方式解碼 AI，同時展示適用於 RTX PC 和工作站使用者的全新硬體、軟體、工具和加速功能。

萬丈高樓平地起，採用人工智慧技術的應用程式也是如此。

基礎模型是使用大量原始資料訓練的人工智慧神經網路，通常採用非監督式學習。

這是一種經過訓練的人工智慧模型，可以理解並產生近似自然的語言。想像一下，若能讓電腦擁有龐大的書籍資料庫供閱讀和學習，那麼電腦就會像人類一樣，能理解文字和句子背後的語境和意義。

只要基礎模型具備深厚知識庫和自然語言溝通能力，就能適用於多種應用項目，包括文字產生和處理摘要、輔助駕駛製作和電腦程式碼分析、影像和影片創作，以及音訊轉錄和語音合成。

知名的生成式人工智慧應用程式 ChatGPT 正是使用 OpenAI 的 GPT 基礎模型所打造的聊天機器人。目前 GPT-4 為該應用程式的第四版，這個大型的多型態模型可擷取文字或影像，並產生文字或影像回應。

建置在基礎模型上的線上應用程式，通常需要透過資料中心存取模型。不過許多這類模型和所支援的應用程式，現在都可以在配備 NVIDIA GeForce 和 NVIDIA RTX 顯示卡的電腦和工作站本機上執行。

基礎模型的用途

基礎模型可執行多種功能，包括：

語言處理：理解和產生文字
程式碼產生：分析多種程式語言的電腦程式碼並加以偵錯
視覺處理：分析和產生影像
語音：產生文字轉語音，及將語音轉錄為文字

基礎模型可供直接使用，也可供調整使用。使用者通常會選擇針對專門的使用案例微調基礎模型，而非為每個生成式人工智慧應用程式訓練全新的人工智慧模型，畢竟這是一項既昂貴又耗時的工作。

多虧有提示和檢索增強生成 (RAG) 資料檢索技術，讓預先訓練的基礎模型具備強大功能。基礎模型也擅長遷移學習，這表示模型經過訓練後，可執行與原始用途相關的第二項工作。

舉例來說，專為與人類對話而設計的通用大型語言模型 (LLM) 經過進一步訓練後，可成為客戶服務聊天機器人，運用企業知識庫回答詢問。

各產業的企業預計將微調基礎模型，期望締造人工智慧應用程式的最佳效能。

基礎模型的類型

目前使用的基礎模型超過 100 個，而且數量仍持續增加中。LLM 和影像產生器是兩種最受歡迎的基礎模型。任何人都可以在任何硬體上免費試用 NVIDIA API 目錄的眾多功能。

LLM 模型能夠理解自然語言和回應查詢，例如 Google 的 Gemma 便擅長文字理解、轉換和程式碼產生。當有人問及天文學家 Cornelius Gemma 時，Gemma 會分享：「他對天體導航和天文學的貢獻大幅影響了科學進展。」Gemma 還會提供他的主要成就、後世貢獻和其他事實的資訊。

Google 的 CodeGemma 延伸了 Gemma 模型的協作，並透過 RTX GPU 上的 NVIDIA TensorRT-LLM 加速，可為社群帶來強大卻輕量的程式碼編寫功能。CodeGemma 模型提供 7B 和 2B 的預先訓練變體，專門處理程式碼完成和程式碼產生工作。

MistralAI 的 Mistral LLM 可以按照指示完成要求並產生創意文字。這個 LLM 可根據提示使用一系列關鍵字的變體並加以解碼，藉此協助產生此篇《解碼AI》部落格的標題，且幫助撰寫出何謂基礎模型的定義。

Meta 的 Llama 2 是一款尖端的 LLM，可根據提示產生文字和程式碼。

Mistral 和 Llama 2 已在 NVIDIA ChatRTX 技術展示中提供，並且可在 RTX PC 和工作站上執行。ChatRTX 讓使用者透過 RAG，將這些基礎模型與個人內容 (如文件、醫生證明和其他資料) 建立連接，藉此將這些模型個人化。由於透過 TensorRT-LLM 加速，所以能快速提供符合情境的答案。因為在本機上執行，所以結果產出既快速又安全。

StabilityAI 的 Stable Diffusion XL 和 SDXL Turbo 等影像產生器，可讓使用者產生影像和令人驚艷的逼真視覺效果。StabilityAI 的影片產生器 Stable Video Diffusion 使用生成漫射模型，能以單一影像作為調節畫面來合成視訊序列。

多模態基礎模型可以同時處理如文字和影像的多種類型資料，進一步產生更複雜的輸出成品。

多模態模型可同時處理文字和影像，如此便能讓使用者上傳影像並提出相關問題。這類模型比傳統手冊更快且更方便使用者使用，將迅速應用於客戶服務等實際生活應用情境。