人工智慧新的發展方向:資料科學 PC

作者 Jesse Clayton

只要點一下滑鼠,便能展開一趟人工智慧與和大數據分析之旅。打從今天開始,三個 NVIDIA 合作夥伴將在線上販售一款新型態的「資料科學 PC」。

這些系統結合了資料科學家所需要的軟硬體,只要按下「啟動」鈕,便能開始管理資料集和模型,以進行人工智慧預測作業。資料科學 PC 利用  NVIDIA TITAN RTX GPU 及 NVIDIA RAPIDS 軟體,執行速度是單純使用 CPU 之桌上型電腦的三到六倍。

Digital StormMaingear 與 Puget Systems 這三個專門製造高階 PC 的業者提供了相關產品,其目標為鎖定愈來愈多的獨立資料科學家,協助他們更快獲得更好的結果。

一台資料科學 PC 使用取自於紐約市計程車的資料集,進行擷取、轉換和載入(ETL)和 XGBoost 訓練作業,端到端的預測時間僅為單純使用 CPU 之桌上型電腦的六分之一。

全球有部分規模最大且最具創新力的組織,早就使用 GPU 加速伺服器及工作站來處理其極為嚴苛的資料科學研究工作。

像是 Walmart 的未來超市可以使用 NVIDIA 的 EGX 平台,即時計算每秒產生出超過 1.6 TB的資料量。橡樹嶺國家實驗室的 Summit 系統可以利用其 27,648 具 NVIDIA V100 Tensor Core GPU,以 3.3 exaflops 的混合精度來執行人工智慧運算作業。

然而資料科學不是只適用於大型企業。新創公司、研究人員、學生及愛好者皆紛紛投入這個新興領域。他們推動企業發展,使得資料科學家成為全美增長速度最快的工作之一

推出資料科學 PC 的目標在於助力這群不斷增加的獨立資料科學從業人員,強大的預配置系統與經過測試的軟體堆疊,兩者加起來可以快速啟動他們的研究工作。

速度與投入資料

一台資料科學 PC 搭載著一個或兩個 TITAN RTX GPU,每個 GPU 又有著最多 24GB 的記憶體。NVLink 高速互連技術將兩個 GPU 串連起來,以因應需要更多 GPU 記憶體的資料集。

這套系統可以裝入48到 128GB 的主記憶體,而儲存裝置可選擇使用容量最大 10TB 的磁碟機。

每台資料科學 PC 出廠時都將附帶 Linux 與 NVIDIA 的資料科學軟體堆疊 NVIDIA RAPIDS,其中預先建立了兩百多個端到端資料科學庫。

NVIDIA RAPIDS 簡化了為 GPU 加速而移植現有程式碼的工作,其 API 模擬資料科學常用的函式庫。在許多情況下只要修改幾行程式碼,便能發揮 GPU 加速的潛力。

以下為 RAPIDS 的部分關鍵元素:

  • cuDF 為一個 Python GPU 資料框架庫,用於載入、連接、聚合、過濾及以其它方式來處理資料。這個 API 的設計有點像是 Pandas,現有的程式碼很容易就能映射到 GPU。
  • cuML 加快了熱門機器學習演算法的執行速度,包括 XGBoost、PCA、K-means、k-Nearest Neighbors 等,且與 sciKit-learn 緊密結合。
  • cuGraph 是一個類似於 NetworkX 的圖形演算法庫,處理存在 GPU 資料框架中的資料。

NVIDIA 為著重於人工智慧與資料科學之新創公司所成立的虛擬加速器計畫 Inception,其中由新創公司所組成的商業生態體系提供各項運行在 RAPIDS 上的應用程式和服務。這當中包括提供大數據視覺化工具的業者Graphistry 和 OmniSci

資料科學家也能使用 NVIDIA 的資料科學開發者論壇,發問及取得更多關於在 GPU 上進行資料科學研究工作的資訊。

資料科學 PC 已經準備好推動你進入人工智慧的未來。如需更多資訊,請洽我們的合作夥伴 Digital StormMaingear 與 Puget Systems