人工智慧的基石:解碼基礎模型的作用與意義

這些經過大量資料訓練的神經網路,讓應用程式有能力推動生成式人工智慧革命。
作者 Jesse Clayton

編者按:此篇文章屬於「解碼 AI 」系列,該系列文章會以簡單易懂的方式解碼 AI,同時展示適用於 RTX PC 和工作站使用者的全新硬體、軟體、工具和加速功能。

萬丈高樓平地起,採用人工智慧技術的應用程式也是如此。

基礎模型是使用大量原始資料訓練的人工智慧神經網路,通常採用非監督式學習

這是一種經過訓練的人工智慧模型,可以理解並產生近似自然的語言。想像一下,若能讓電腦擁有龐大的書籍資料庫供閱讀和學習,那麼電腦就會像人類一樣,能理解文字和句子背後的語境和意義。

基礎模型

只要基礎模型具備深厚知識庫和自然語言溝通能力,就能適用於多種應用項目,包括文字產生和處理摘要、輔助駕駛製作和電腦程式碼分析、影像和影片創作,以及音訊轉錄和語音合成。

知名的生成式人工智慧應用程式 ChatGPT 正是使用 OpenAI 的 GPT 基礎模型所打造的聊天機器人。目前 GPT-4 為該應用程式的第四版,這個大型的多型態模型可擷取文字或影像,並產生文字或影像回應。

建置在基礎模型上的線上應用程式,通常需要透過資料中心存取模型。不過許多這類模型和所支援的應用程式,現在都可以在配備 NVIDIA GeForceNVIDIA RTX 顯示卡的電腦和工作站本機上執行。

基礎模型的用途

基礎模型可執行多種功能,包括:

  • 語言處理:理解和產生文字
  • 程式碼產生:分析多種程式語言的電腦程式碼並加以偵錯
  • 視覺處理:分析和產生影像
  • 語音:產生文字轉語音,及將語音轉錄為文字

基礎模型可供直接使用,也可供調整使用。使用者通常會選擇針對專門的使用案例微調基礎模型,而非為每個生成式人工智慧應用程式訓練全新的人工智慧模型,畢竟這是一項既昂貴又耗時的工作。

多虧有提示和檢索增強生成 (RAG) 資料檢索技術,讓預先訓練的基礎模型具備強大功能。基礎模型也擅長遷移學習,這表示模型經過訓練後,可執行與原始用途相關的第二項工作。

舉例來說,專為與人類對話而設計的通用大型語言模型 (LLM) 經過進一步訓練後,可成為客戶服務聊天機器人,運用企業知識庫回答詢問。

各產業的企業預計將微調基礎模型,期望締造人工智慧應用程式的最佳效能。

基礎模型的類型

目前使用的基礎模型超過 100 個,而且數量仍持續增加中。LLM 和影像產生器是兩種最受歡迎的基礎模型。任何人都可以在任何硬體上免費試用 NVIDIA API 目錄的眾多功能。

LLM 模型能夠理解自然語言和回應查詢,例如 Google 的 Gemma 便擅長文字理解、轉換和程式碼產生。當有人問及天文學家 Cornelius Gemma 時,Gemma 會分享:「他對天體導航和天文學的貢獻大幅影響了科學進展。」Gemma 還會提供他的主要成就、後世貢獻和其他事實的資訊。

Google 的 CodeGemma 延伸了 Gemma 模型的協作,並透過 RTX GPU 上的 NVIDIA TensorRT-LLM 加速,可為社群帶來強大卻輕量的程式碼編寫功能。CodeGemma 模型提供 7B 和 2B 的預先訓練變體,專門處理程式碼完成和程式碼產生工作。

MistralAI 的 Mistral LLM 可以按照指示完成要求並產生創意文字。這個 LLM 可根據提示使用一系列關鍵字的變體並加以解碼,藉此協助產生此篇《解碼AI》部落格的標題,且幫助撰寫出何謂基礎模型的定義。

確確實實的「你好,世界」(Hello World)。

Meta 的 Llama 2 是一款尖端的 LLM,可根據提示產生文字和程式碼。

Mistral 和 Llama 2 已在 NVIDIA ChatRTX 技術展示中提供,並且可在 RTX PC 和工作站上執行。ChatRTX 讓使用者透過 RAG,將這些基礎模型與個人內容 (如文件、醫生證明和其他資料) 建立連接,藉此將這些模型個人化。由於透過 TensorRT-LLM 加速,所以能快速提供符合情境的答案。因為在本機上執行,所以結果產出既快速又安全。

StabilityAI 的 Stable Diffusion XLSDXL Turbo 等影像產生器,可讓使用者產生影像和令人驚艷的逼真視覺效果。StabilityAI 的影片產生器 Stable Video Diffusion 使用生成漫射模型,能以單一影像作為調節畫面來合成視訊序列。

多模態基礎模型可以同時處理如文字和影像的多種類型資料,進一步產生更複雜的輸出成品。

多模態模型可同時處理文字和影像,如此便能讓使用者上傳影像並提出相關問題。這類模型比傳統手冊更快且更方便使用者使用,將迅速應用於客戶服務等實際生活應用情境。

任何人都可以在任何硬體上免費試用 NVIDIA API 目錄的眾多功能。

Kosmos 2 是 Microsoft 突破性的多型態模型,專為理解和推理影像中的視覺元素而設計。

接軌全球思潮,在本機執行人工智慧模型

GeForce RTX 和 NVIDIA RTX GPU 可以在本機執行基礎模型。

結果既快速又安全。使用者可以利用 ChatRTX 等應用程式在本機 PC 上處理敏感資料,無須仰賴雲端服務、不需要與第三方分享資料,也不必具備網際網路連線。

使用者可以從快速成長的開放基礎模型目錄中選擇,然後下載並在自己的硬體上執行。與使用雲端應用程式和 API 相比,除了降低成本,還能消除延遲和網路連線問題。

生成式人工智慧將為各種遊戲、視訊會議和互動式體驗帶來變革。訂閱解碼 AI 電子報,瞭解最新消息與未來趨勢。