Brave 的嶄新境界：Leo AI 與 Ollama 可為 Brave 瀏覽器使用者實現運用 RTX 加速技術的本機大型語言模型 (LLM)

編者按：本文為「解碼 AI 」系列文章，以深入淺出的方式解密 AI，並向 RTX 電腦的使用者展示新的軟硬體、工具與加速功能。

無論是遊戲與內容創作應用程式，或是軟體開發及生產力工具，有越來越多的應用程式都運用了AI技術，以提升使用者體驗與效率。

這種效率提升技術也延伸至我們的日常事務中，例如網頁瀏覽功能。主打高度隱私的 Brave 瀏覽器，最近推出名為 Leo AI 的智慧 AI 助理功能，除了可提供搜尋結果之外，還能幫使用者摘要內容、回答問題等。

Brave 瀏覽器及其他AI驅動的工具背後所運用的技術，結合了硬體、函式庫與生態系統軟體，並針對AI的獨特需求進行了最佳化。

軟體的重要性為何

NVIDIA GPU 驅動全世界的AI，無論是在資料中心或在本機電腦上執行。NVIDIA GPU內建的 Tensor 核心經專門設計，可透過大規模的平行複雜運算來加速 Leo AI 等AI應用程式——亦即可同時快速處理AI所需的大量運算，而非一次只能處理一項運算。

然而，只有當應用程式能有效使用硬體時，強大的硬體才能充分發揮實力。為了能提供最快速、反應最靈敏的AI體驗，在 GPU 上執行的軟體同樣至關重要。

第一層是AI推論函式庫，它的作用就像是翻譯機，負責接受一般常見的AI任務要求，並將其轉換成可供硬體執行的特定指令。目前主流的推論函式庫包括：NVIDIA TensorRT、Microsoft 的 DirectML，以及 Brave 瀏覽器與 Leo AI 所使用的 llama.cpp。

Llama.cpp 是一個開放原始碼的函式庫與框架。可透過 CUDA（由 NVIDIA 開發的軟體應用程式設計介面，可讓開發人員能夠針對 GeForce RTX 與 NVIDIA RTX GPU 進行最佳化）為數百種模型提供 Tensor 核心加速，包括如 Gemma、Llama 3、Mistral 及 Phi 等熱門的大型語言模型 (LLM)。

除了推論函式庫之外，應用程式通常都會使用本機推論伺服器來簡化整合。推論伺服器可執行下載及配置特定AI模型等作業，如此一來，應用程式就不需要處理這些工作。

Ollama 為奠基於 llama.cpp 而開發的開放原始碼專案，可提供對函式庫功能的存取，並可支援提供本機AI功能的應用程式生態系統。在整個技術堆疊中，NVIDIA 致力於對 Ollama 等工具進行最佳化，使 NVIDIA 硬體在 RTX 平台上能提供速度更快、反應更靈敏的AI體驗。

諸如 Brave 瀏覽器的 Leo AI 等應用程式可利用 RTX 技術支援的 AI 加速功能，來創造更好的使用者體驗。

NVIDIA 對於最佳化的追求涵蓋了整個技術堆疊——無論是硬體與系統軟體，或是推論函式庫及各項工具，旨在使應用程式能夠在 RTX 平台上提供速度更快、反應更靈敏的AI體驗。

本機 vs. 雲端

Brave 瀏覽器與 Leo AI 可於雲端執行，也可以透過 Ollama 在電腦以本機方式執行。

使用本機模型處理推論有很多好處。由於不需要將提示內容傳送給外部伺服器處理，因此能提供高度隱私且隨時可用的使用體驗。此外，在本機執行還能免除雲端存取費用。相較於大多數的託管服務，有了 Ollama，使用者將能利用更廣泛多樣的開源模型，而大多數的託管服務通常只能支援同款 AI 模型的一、兩種變化。

不僅如此，使用者還可與各種不同的專門化模型互動（例如：雙語模型、精簡模型、程式碼生成模型等）。

RTX 平台以本機方式執行AI時，可提供快速且反應靈敏的使用體驗。將 Llama 3 8B 模型搭配 llama.cpp 函式庫來使用，使用者預期可獲得每秒高達 149 個 Token 的反應速度，亦即每秒約 110 個英文單字。因此，使用結合了 Leo AI AI應用程式與 Ollama 軟體工具的 Brave 瀏覽器，無論是提問、內容摘要或其他要求，都能獲得更出色的回應速度。