如何開始在 NVIDIA RTX PC 使用大型語言模型

作者 Annamalai Chockalingam

很多人基於隱私與控制能力更強,而且不需要訂閱等因素,希望在本機執行大型語言模型 (LLM),但是在近期之前,這個作法必須犧牲輸出品質。OpenAI 的 gpt-oss 與阿里巴巴的 Qwen 3 等新發布的開放權重模型可直接在 PC 執行,提供實用的高品質輸出內容,格外適合本機代理型 AI。

這樣一來,便為學生、業餘愛好者和開發者開創了全新的機會,可在本機探索生成式 AI 應用程式。NVIDIA RTX PC 加速了這些體驗,為使用者提供快速敏捷的 AI。

開始使用為 RTX PC 最佳化的本機 LLM

NVIDIA 致力於為 RTX PC 將熱門 LLM 應用程式最佳化,讓 RTX GPU 的 Tensor 核心發揮極致效能。

Ollama 這項開源工具是在 PC 開始使用 AI 最簡單的方式之一,提供的介面簡單不複雜,可執行以及與 LLM 互動。它支援將 PDF 拖放至提示、對話式聊天,以及含文字與影像的多模態理解工作流程。

圖片說明:使用 Ollama 輕輕鬆鬆即可透過文字提示生成答案。

NVIDIA 與 Ollama 合作提升其效能與使用者體驗。最新進展包括:

  • GeForce RTX GPU 為 OpenAI 的 gpt-oss-20B 模型與 Google 的 Gemma 3 模型提升效能
  • 支援全新的 Gemma 3 270M 與 EmbeddingGemma 模型,實現超高效率的 RAG
  • 改善模型排程系統,充分利用記憶體並精確回報使用率
  • 增強穩定性,減少當機次數

Ollama 是可與其他應用程式搭配使用的開發者框架。舉例而言,AnythingLLM 這款開源 App 可讓使用者自行打造任何 LLM 驅動的 AI 助理,並且可在 Ollama 上執行,讓其加速技術充分發揮效益。

業餘愛好者也可利用 LM Studio 這款 llama.cpp 框架驅動的熱門 App,開始使用本機 LLM。這款 App 的介面易於使用,可在本機執行模型,讓使用者載入不同的 LLM、與模型即時聊天,甚至將它們當成本機應用程式介面 (API) 端點,整合至自訂專案。

圖片說明:使用 LM Studio 生成 RTX 加速之筆記的範例。

NVIDIA 與 llama.cpp 合作,將 NVIDIA RTX GPU 的效能最佳化。最新更新包括:

  • 支援採用嶄新 hybrid-mamba 架構的最新 NVIDIA Nemotron Nano v2 9B 模型
  • Flash Attention 現已預設開啟,相較於關閉 Flash Attention,效能最高提升 20%
  • 針對 RMS Norm 與快速除法模運算的 CUDA 核心最佳化,讓熱門模型的效能最高提升 9%
  • 語意化版本讓開發者可輕鬆採用未來版本

深入瞭解 在 RTX 執行的 gpt-oss,以及 NVIDIA 如何與 LM Studio 合作,加速 RTX PC 的 LLM 效能

利用 AnythingLLM 打造採用 AI 技術的學習夥伴

在本機執行 LLM 除了可提升隱私與效能,還可讓載入檔案的數量或檔案可用時間不受限制,延長情境感知 AI 對話的時間。這樣一來,便可更靈活彈性打造採用 AI 技術的對話式生成助理。

對學生而言,大量投影片、筆記、實驗資料和歷屆考題的整理工作可能讓人手忙腳亂。有了本機 LLM,便可因應個別學習需求可打造私人家教。

下方內容示範,學生可如何運用本機 LLM 打造生成式 AI 驅動的助理:

圖片說明:在 RTX PC 執行的 AnythingLLM,可將教材變成互動式抽認卡,打造採用 AI 技術的私人家教。

AnythingLLM 這款應用程式可協助使用者,將 AI 聊天機器人與代理連結至文件和資料,輕而易舉完成量身打造的任務。它支援文件上傳、自訂知識庫和對話式介面。因此這款工具彈性靈活,凡是想針對研究、專案或日常工作打造可自訂 AI 的人士皆可使用。透過 RTX 加速技術,使用者可體驗更快速的回應。

在 RTX PC 將授課大綱、作業與教科書載入 AnythingLLM,學生便可獲得自適應的互動式學習夥伴。學生透過純文字或語音,便可要求代理協助完成下列工作:

  • 利用課堂投影片生成抽認卡:「利用 Sound 章節課堂投影片製作抽認卡。一邊列出關鍵術語,另一邊列出定義。
  • 提出與材料相關的情境問題:「用我的 Physics 8 筆記解釋動量守恆定律。
  • 為準備考試設計測驗以及改考卷:「根據化學教科書第 5-6 章,出有 10 題多選題的測驗,並且改考卷。
  • 逐步解決棘手的問題:「為我逐步示範如何解編碼作業的第 4 題。

在課堂之外,業餘愛好者與專業人士可使用 AnythingLLM 準備新研究領域的認證,或是用於其他相似用途。在 RTX GPU 本機執行絕對能快速獲得私密的回應,而且無需訂閱費用也沒有使用限制。

Project G-Assist 現在可控制筆記型電腦設定

Project G-Assist 是實驗性 AI 助理,協助使用者透過簡單的語音或文字命令調控及最佳化遊戲 PC,完全不需要翻閱選單。在未來一天,新的 G-Assist 更新將在 NVIDIA App 首頁推出。

圖片說明:Project G-Assist 協助使用者透過簡單的語音或文字命令調控及最佳化遊戲 PC。

新的 G-Assist 更新以更高效的全新 AI 模型為基礎,並支援 8 月發布的多數 RTX GPU,新增調整筆記型電腦設定的命令,包括:

  • 針對筆記型電腦最佳化的 App 設定檔:在筆記型電腦未連接充電器時,自動調整遊戲或 App,提升效率、品質或平衡。
  • BatteryBoost 控制:啟用或調整 BatteryBoost 延長電池續航力,同時保持流暢的畫格率。
  • WhisperMode 控制:必要時將風扇噪音減少達 50%,不需要時則恢復完整效能。

Project G-Assist 亦可擴充。使用者透過 G-Assist Plug-In Builder 新增新命令或將外部工具與易於製作的外掛程式連接,即可量身打造 G-Assist 的功能。使用者透過 G-Assist Plug-In Hub,輕輕鬆鬆即可探索及安裝外掛程式,擴充 G-Assist 的功能。

如需如何開始使用的相關資訊,請參閱 NVIDIA 的 G-Assist GitHub 儲存庫,包括範例外掛程式、逐步說明,以及打造自訂功能的說明文件。

#ICYMI — RTX AI PC 的最新進展

🎉Ollama 在 RTX 的效能大幅提升

最新更新包括 OpenAI gpt-oss-20B 的最佳化效能、更快的 Gemma 3 模型,以及更聰明的模型排程,可減少記憶體問題並提升多 GPU 效率。

🚀 Llama.cpp 與 GGML 針對 RTX 最佳化

最新更新可在 RTX GPU 提供更快且更高效的推論,包括支援 NVIDIA Nemotron Nano v2 9B 模型、預設啟用 Flash Attention,以及 CUDA 核心最佳化。

⚡Project G-Assist 更新推出

透過 NVIDIA App 下載 G-Assist v0.1.18 更新,不僅能獲得為筆記型電腦使用者設計的新命令,答案品質更也更優異。

⚙️ 支援 NVIDIA TensorRT for RTX 的 Windows ML 現已正式推出

Microsoft 發布的 Windows ML 支援 NVIDIA TensorRT for RTX 加速,不僅推論速度最多提升 50%、可精簡部署,還能支援 Windows 11 PC 的 LLM、Diffusion 和其他模型類型。

🌐 NVIDIA Nemotron 讓 AI 開發如虎添翼

NVIDIA Nemotron 彙集了開放式模型、資料集與技術,正帶動 AI 創新發展,包括通用推理與特定產業應用。

FacebookInstagramTikTokX 關注 NVIDIA AI PC,並且訂閱 RTX AI PC 電子報,隨時掌握最新消息。

LinkedInX 關注 NVIDIA 工作站。

請參閱軟體產品資訊相關聲明