使用 RAPIDS 建構機器學習應用程式的逐步指南

機器學習是採用演算法和統計模型，讓電腦系統可以從大量資料中找出模式。之後，可以使用辨識這些模式的模型預測或描述新的資料。

如今，機器學習幾乎已使用在所有的產業中，包括零售、醫療、運輸、金融，以提高客戶滿意度、生產力和作業效率。但是，進入可以試用新工具和技術的環境通常很困難，最糟的情況會令人望之卻步。

本文將說明使用 RAPIDS 建立端對端機器學習服務的各個步驟，從資料處理到模型訓練，再到推論。利用 NGC 目錄之新的一鍵部署功能，可以存取 notebook 及試用機器學習工作流程，而無須自行啟動基礎架構與安裝套件。

利用 AI 軟體和基礎架構加快應用程式開發

如果您已經開始建構資料科學應用程式，那你與 RAPIDS 只有一步之差了。

RAPIDS：加快機器學習

RAPIDS 是一套可以完全在 GPU 上開發和執行端對端資料科學與分析工作流程的開放原始碼軟體函式庫套件。RAPIDS Python API 的外觀和風格與您熟悉的資料科學工具如 pandas 和 scikit-learn 相同，所以僅需要稍微變更程式碼即可獲得效益。

RAPIDS 消除了現代資料科學工作流程中的瓶頸，在擷取過程中直接將資料帶至及保存在 GPU 上，以進行探索、特徵工程和模型訓練。讓您可以在機器學習工作流程的早期階段快速進行迭代，並於固定之時間在 GPU 上試用更先進的技術。

RAPIDS 也與其他知名的框架整合，包括 XGBoost，提供了 API，以透過梯度提升決策樹進行訓練和推論。

NGC 目錄：GPU 最佳化軟體的中心

NVIDIA NGC 目錄提供 GPU 最佳化 AI 和機器學習框架、SDK 以及預先訓練模型。其同時包含用於各種應用程式的範例 Jupyter notebook，包括本文介紹的範例。現在，僅需要按一下 Vertex AI Workbench，即可輕鬆部署 notebook。

Google Cloud Vertex AI：GPU 加速雲端平台

Google Cloud Vertex AI Workbench 是適用於整體資料科學工作流程的單一開發環境。它與在實際環境中快速建構和部署模型需要的所有服務深度整合，以加快資料工程。

此一鍵功能是由NVIDIA 與 Google Cloud 合作開發，可以在 Vertex AI 上，以最佳配置啟動 JupyterLab 執行個體、預先載入軟體相依性，並一次下載 NGC notebook。讓您可以立即開始執行程式碼，不需要任何專業知識，即可配置開發環境。

如果您沒有 Google Cloud 帳戶，請註冊以獲得免費積分，建構和執行此應用程式。

開始建構

以下是開始 GPU 加速資料科學旅程需要的每一個步驟。

評估環境

在開始之前，確定已滿足下列先決條件：

已註冊 NGC 帳戶及登入。
已註冊 Google Cloud Platform 帳戶及登入。

在登入 NGC 後，即會呈現出精選內容。

NGC 上的所有 Jupyter notebook 都包含在資源索引標籤下。請參見端對端 RAPIDS 工作流程簡介。此頁面包含與 RAPIDS 函式庫有關的資訊，並概述了 notebook 涵蓋的內容。

以下是開始使用此資源中的範例 Jupyter notebook 的幾種方式：

下載資源
一鍵部署至 Vertex AI。

如果已經具有啟用 GPU 的本機或雲端環境，則可以下載資源，並在您的基礎架構上執行。但是，在本文章中，是使用一鍵部署功能在 Vertex AI 上執行 notebook，無須手動安裝您的基礎架構。

一鍵部署功能可以取得 Jupyter notebook、配置 GPU 執行個體、安裝相依性，並提供 JupyterLab 介面以開始使用。

設定受管理 notebook

遵循簡要教學，以確保正確設定環境。

建立與命名專案，並在建立專案之後，於選擇專案欄位中選擇。記住專案名稱下方自動顯示的專案 ID 值，因為稍後將會使用。

然後，啟用 Notebooks API。

設定硬體

在選擇建立部署 notebook 之前，請選擇進階設定。下列資訊已預先配置，但是可以自訂，視資源要求而定：

Notebook 名稱
地區
Docker 容器環境
機器類型、GPU 類型、GPU 數量
磁碟類型和資料大小

在部署之前：

檢查以確保區域已預先配置 GPU。如果沒有 GPU，則會看到警告，且應變更區域。
確定已勾選自動幫我安裝 GPU 驅動程式按鈕。

現在一切都已就緒，且已具有 GPU 和驅動程式，請在頁面底部選擇建立。建立 GPU 運算執行個體及設定 JupyterLab 環境，大約需要數分鐘的時間。

啟動 Jupyter

選擇開啟 -> 開啟 JupyterLab，以啟動介面。JupyterLab 介面是從 NGC 提取資源（自訂容器和 Jupyter notebook）。提取核心可能需要一些時間，請耐心等候！

在載入後，即可從核心選擇器中選擇 RAPIDS 核心。在完成核心載入之後，按兩下左側窗格中的 notebook 名稱。

現在，您可以存取預先安裝 RAPIDS 函式庫的 notebook 環境，而無須設定自己的基礎架構，所以可以直接開始和自行嘗試。

使用工作流程

專案是使用來自紐約市 CitiBike 自行車共享計畫的資料。Notebook 本身提供了更多詳細資訊。

在深入探索資料處理之前，可以使用 NVIDIA SMI 命令查看與 GPU 有關的詳細資訊。將會顯示出預期的資訊：VertexAI 已分配 V100 T4 GPU，具有 16 GB 的記憶體。

必須安裝一些函式庫，以便從 Google BigQuery 載入資料。此資料集是在 BigQuery 上公開，所以不需要任何憑證即可載入。使用 Python API，從大型查詢載入資料。

將資料轉換成 cuDF 資料框架。cuDF 是 RAPIDS GPU DataFrame 函式庫，提供在 GPU 上有效率地轉換、載入及聚合資料時需要的一切。cuDF 資料框架是儲存在 GPU 上，這是其餘工作的資料保留位置。將可利用 GPU 的速度，以及降低在 CPU 與 GPU 之間傳輸的成本，提供大幅加速的效果。

在執行 notebook 之前，請將命令 os.environ.setdefault 取消註解，並將專案 ID 放入第二個引數。如果不記得設定專案時分配給專案的 ID 時，它會在您選擇專案後顯示在 Workbench 主頁上。請務必使用 ID，而不是名稱。