更快獲得答案:NVIDIA 與開放源碼生態系統攜手合作,加快推動資料科學領域的發展

作者 Clement Farabet

無論是哪個產業,資料科學已成為企業間的顯學。資料分析與機器學習讓各組織取得塑造日常行動與未來計畫所需的洞察力和答案,需要以數據資料來推動引領任何產業。

每年全球產出的資料量成長一倍,但隨著摩爾定律畫下句點,CPU 運算已經陷入困境。因此科學運算與深度學習已改為採用 NVIDIA GPU 加速技術。資料分析與機器學習領域尚未以系統化的方式利用 GPU 技術,而這個情況將出現變化。

今日在 GTC Europe 大會發表的 RAPIDS,首次讓資料科學家擁有一個強大的 GPU 加速資料科學平台,可以進行分析、機器學習,還有使用即將推出的資料視覺化功能。在開放源碼貢獻者的支援下,現在已能在 www.RAPIDS.ai 上取得以開放源碼的形式建立 RAPIDS 的函式庫。

初期的基準測試數據指出,與僅使用 CPU 的系統相比,在 NVIDIA DGX-2 人工智慧超級電腦上運行 RAPIDS 時速度提升了50倍,可以將實驗反覆進行的時間從幾小時縮短到幾分鐘。

由社群為社群打造

RAPIDS 搭配 CUDA 整合軟體套裝工具,在其資料科學工作流程的基礎上為開發人員另闢蹊徑。

NVIDIA 的工程師與開放源碼社群 Python 程式語言的貢獻者為此合作了兩年。他們使用 Apache Arrow、Pandas 及 scikit-learn 等主要開放源碼項目打造出的 RAPIDS,集合了多個函式庫的熱門功能,還加入了 GPU 加速功能,串連起資料科學生態系統。

RAPIDS 還將跟已有逾千個資料中心使用的頂尖開放源碼資料科學框架 Apache Spark 進行整合。

在 GTC Europe 主題演講結束後,由開放源碼社群傑出人士組成的小組將舉行一場資料科學研討會,其中包括 Anaconda 的共同創辦人 Travis Oliphant 與 Peter Wang,以及 Apache Arrow 與 Pandas 軟體庫的創辦人暨建立者 Wes McKinney,還有 RAPIDS 的貢獻者。

這些先驅者將在開發人員、研究人員和企業領導人的面前,介紹把 RAPIDS 用於 GPU 加速資料科學領域的潛力。由 Spark 創造者所成立的 Databricks 公司將在研討會上,展示如何使用 GPU 把資料管理和機器學習工具合而為一。

對於創建出 CUDA 的 NVIDIA 來說,發展出首個完整解決方案是再自然也不過的步驟,這個解決方案的內核整合了 Python 資料科學函式庫與 CUDA。我們會繼續維持它為開放源碼的狀態,歡迎生態系統裡的其他開發人員提出更多貢獻,帶動生態系統不斷成長。

這個龐大的社群每年透過套件管理工具 Conda 下載核心資料科學函式庫,次數達到數千萬次。開放源碼的發展形式讓資料科學家能更便捷地採用 RAPIDS,維持針對用途調整和訂製工具的彈性。

NVIDIA 近年來為人工智慧開放源碼社群有著諸多貢獻,包括材質定義語言(MDL)SDK、用於在 GPU 間傳遞資訊的 NCCL 軟體模組,還有 NVIDIA DIGITS 深度學習應用程式。

我們的 GitHub 頁面上有120個專案,包括研究演算法、使用 CUDA 及 NVcaffe 語言的矩陣乘法 CUTLASS 函式庫(NVcaffe 是 Caffe 深度學習框架的一支)。我們會持續與開放源碼社群一同為 RAPIDS 做出貢獻,支持資料科學家進行高效率的細粒度分析。

迅速解答資料科學家的疑問

各界對於資料科學家及其提出的見解,出現需才孔亟的情況,然而 CPU 系統消化資料的速度一直都不夠快。

按照使用的資料集大小,科學家可能得經過漫長等待,才能拿到機器學習模型吐出的結果。有些科學家或許會對資料進行匯總或簡化,降低精細程度以更快取得結果。

資料科學家在採用 RAPIDS 與 GPU 後,便能加快反覆操作和測試的時間,提出更準確的預測內容以提高企業經營成果。一般的訓練時間可以從幾天縮短到幾小時,或是從幾小時縮短到幾分鐘。

RAPIDS 和 GPU 可以讓連鎖零售店估算各店存放的最佳鮮果數量。GPU 加快提出洞察見解內容,也能提醒銀行這個貸方,哪些屋主可能面臨房貸違約的風險。

現已可在 www.RAPIDS.ai 上取得 RAPIDS 開放源碼庫,程式碼已取得 Apache 授權進行發布。本週將在 NVIDIA GPU Cloud 容器登錄檔中提供容器版本的 RAPIDS。

如需更多關於 RAPIDS 的最新資訊,請關注 @rapidsai