HPE、IBM、Oracle、開源社群與新創公司皆透過整合 RAPIDS 為端對端預測資料分析提供卓越的效能提升。
RAPIDS™ 開源軟體為資料科學家處理複雜的商業挑戰,例如:預測信用卡盜刷、零售庫存與瞭解消費者購買行為時,帶來卓越的效能提升。隨著業界持續對 GPU 運算在資料分析的重要性產生共識,眾多企業從開源社群的先驅 Databricks 與 Anaconda,至科技領導品牌包含 Hewlett Packard Enterprise、IBM 與 Oracle 皆表態支持 RAPIDS。
分析師預估資料科學與機器學習的伺服器市場的年度產值達 200 億美元,若再加上科學分析與深度學習的產能將使高效能運算市場產值推升至 360 億美元。
NVIDIA 創辦人暨執行長黃仁勳在歐洲 GPU 技術大會主題演說上宣布推出 RAPIDS 時表示:「資料分析與機器學習是高效能運算產業間兩大尚未進行加速的領域,直到現在。全球各大產業透過在大量的伺服器上執行運用機器學習所寫的演算法,理解市場與環境中複雜的模式並且快速且準確地進行預測,直接影響獲利。
NVIDIA 將 RAPIDS 建立於 CUDA 與全球生態系中,透過與開源社群的密切合作打造出此 GPU 加速平台。其無縫整合全球各大資料科學函式庫與作業負載以加速機器學習,NVIDIA 正將過往提升深度學習的規格運用在機器學習之中。」
RAPIDS 為 GPU 加速分析、機器學習與即將道來的資料虛擬化提供一系列開源的函式庫,這是 NVIDIA 工程師與關鍵開源開發人員在過去 2 年密切合作的成果。
RAPIDS 首度給與科學家透過 GPU 執行資料科學傳輸所需的所有工具。初期的RAPIDS 測試顯示,透過 XGBoost 機器學習演算法在 NVIDIA DGX-2™ 系統上進行訓練,與純 CPU 系統相比速度提升 50 倍。這使資料科學家能過縮短過往所需的訓練時間,根據資料量大小為基準,能從以天計算降至以小時計算或以小時計算降至以分鐘計算。
與開源社群的密切合作
RAPIDS 透過將 GPU 加速應用在受市場歡迎的 Python 資料科學工具鏈上,支援包含 Apache Arrow、Pandas 與 scikit-learn 等開源套件。為了使 RAPIDS 能夠支援更多機器學習函式庫與功能,NVIDIA 正與各大開源生態系重要機構與人員,包含 Anaconda、 BlazingDB、Databricks、Quansight、scikit-learn以及Ursa Labs 首長暨 Python 資料科學函式庫中,成長最快速的Apache Arrow 與 Pandas 發行人 Wes McKinney,進行合作。
Wes McKinney 表示:「GPU 加速資料科學平台 RAPIDS 是由 Apache Arrow 所驅動的次世代運算生態系。NVIDIA 與 Ursa Labs 合作會加速 Arrow 函式庫的核新創新速度,並為分析與特徵工程作業帶來顯著的效能加速。 」
NVIDIA 為擴大支援,將 RAPIDS 整合至對分析與資料科學最重要的開源架構Apache Spark 中。
Databricks 共同創辦人暨首席科學技術人員兼 Apache Spark 創辦人 Matei Zaharia 表示:「在 Databricks,我們對於 RAPIDS 將加速 Apache Spark 作業負載的潛能感到興奮,現在我們有幾項正在進行的專案,以優化 Spark 與加速器的整合,其中包含導入 Apache Arrow 與 GPU 排程的 Hydrogen 計畫。我們堅信RAPIDS 是將客戶資料科學與 AI 作業負載規模化的一個令人振奮的契機。」
業界廣泛支持與應用
來自各領域的頂尖科技大廠皆為 NVIDIA GPU 加速平台與 RAPIDS 的先行採用者。
Walmart 執行副總裁暨科技長 Jeremy King 表示:「NVIDIA GPU 加速平台與 RAPIDS 軟體已徹底改善我們如何使用資料,能將最複雜的模型有規模地執行並提供更準確的預測。RAPIDS 根基於 NVIDIA 與 Walmart 工程師的深度合作,而我們也計畫持續增進此項合作。」
其他眾多全球頂尖科技公司也正透過新系統、資料科學與軟體解決方案導入 RAPIDS。
Hewlett Packard Enterprise 執行長 Antonio Neri 表示:「HPE 致力於提升顧客生活與作業模式,AI、分析與機器學習等技術皆在探索洞見,協助客戶取得突破性進展與改善人類生活中扮演要角。HPE 在市場定位特殊,透過策略顧問服務取得完整的AI與資料分析解決方案,有目的性的打造 GPU 加速技術、執行支援與強健的合作夥伴生態系,為客戶提供量身打造的解決方案。我們期待與 NVIDIA 在 RAPIDS 上合作,以加速資料科學與機器學習的應用,協助客戶取得更快更有洞見的產出。」
IBM 研究部總監暨混合雲資深副總裁 Arvind Krishna 表示:「不管佈署的模型為何,IBM 已針對企業 AI 打造出全球領先的平台。我們期待延續與 NVIDIA 的成功合作關係,並利用 RAPIDS 為我們的客戶提供新的機器學習工具。」
Oracle 雲端架構軟體開發資深副總裁 Clay Magouyrk 表示:「當代電腦運算世界需要強大的處理效能,以因應資料科學及分析等複雜的工作負載,而這正是 NVIDIA GPU 擅長之處。RAPIDS 正在加速完成此一處理及機器學習訓練所需的速度。我們很興奮能以原生的方式,在 Oracle 雲端架構上支援全新的開源軟體,並期待與 NVIDIA 合作在我們全部的平台上支援 RAPIDS,包括 Oracle 資料科學雲端,進一步加速客戶端對端的資料科學作業流程。RAPIDS 軟體可在 Oracle 雲端上無縫作業,讓客戶得以支援所有的高效能運算、AI與資料科學上的需求,並利用其架構中已有的 GPU 案例選集。」
更多由領導創新品牌,包含:Cisco、Dell EMC、Lenovo、NERSC、NetApp、Pure Storage、SAP 與 SAS,以及廣大資料科學先鋒的支持,請參考本篇新聞稿附件。
供應時程
RAPIDS 開源系列函式庫即日以 Apache 授權原始碼,於 RAPIDS 官方網站開放使用;RAPIDS 容器版將於本週在 NVIDIA GPU Cloud 容器登錄服務官方網站開放使用。
更多業界廣泛支持
Anaconda 執行長 Scott Collison 表示:「NVIDIA 已經讓複雜的 AI 模型訓練與部署更具擴展性及經濟可行性,而 NVIDIA 今天宣布的 RAPIDS 則將同樣的好處延伸至資料科學生命週期中早期的資料轉換階段。Anaconda 對於能協助 NVIDIA 開發出這些新功能感到相當驕傲,未來也將透過我們的公開套件儲存庫,讓 700 萬名的 Anaconda Distribution 使用者使用。我們也將把這些功能結合至 Anaconda Enterprise,當用戶與 NVIDIA DGX 一起使用時,可以為企業帶來高效能與可靠的解決方案。運用在 NVIDIA DGX 的 Anaconda Enterprise 將可讓各種規模的 IT 機構,加速資料科學與 AI 的工作流程。」
BlazingDB 執行長 Rodrigo Aramburu 表示:「我們很高興能成為 NVIDIA RAPIDS 開放原始碼軟體早期貢獻的廠商之一,同時我們也已經在 RAPIDS 上打造出自家 GPU SQL 引擎的免費使用版本 BlazingSQL。身為一家新創公司,我們與 NVIDIA 的合作關係已為我們帶來龐大的價值,同時我們也與 RAPIDS 團隊合作,加入 cuDF 成為關鍵協力廠商。我們透過 SQL 整合 Data Lakes 與 AI 願景的同時,持續支援 RAPIDS 軟體。」
Cisco 資料中心產品管理副總裁 Kaustabh Das 表示:「Cisco 與 NVIDIA 共同在經 NVIDIA GPU 優化的 UCS 平台上合作開發 AI/ML 軟體堆疊,以簡化並加速其工作負載部署。我們很興奮得知 NVIDIA 有了 RAPIDS,並正在利用加速軟體堆疊擴展其 GPU 應用,以滿足傳統機器學習與大數據分析的需求。我們非常期待 Cisco GPU 加速伺服器組合的各種可能性,包括最近發表的 UCS C480 ML M5 機架式伺服器,其為同級中最優秀的專用伺服器,具有 8 顆 NVIDIA V100 GPU 與 NVIDIA NVLink 互連技術。」
Dell EMC 伺服器與架構系統產品管理暨行銷資深副總裁Ravi Pendekanti 表示:「Dell EMC 致力於提供客戶世界級的 IT 架構,以獲取真實且具競爭力的商業優勢。我們與生態系統的夥伴並肩合作,以確保客戶擁有當代最新可用之資料科學工具,協助其將資料洞見轉化成商業營收。我們的目標是將 NVIDIA 最新的 GPU 加速開源資料科學軟體,與搭載 NVLink 的Dell EMC PowerEdge伺服器組合結合,以為機器學習與大數據分析等領域帶來顯著加速。」
FASTDATA.io 創辦人暨執行長 Alen Capalik 表示:「NVIDIA 推出的 RAPIDS 開源計劃,將為資料科學領域帶來革命性的發展。我們對於自家的 Plasma Engine 能在此一革命中扮演重要角色感到相當興奮,而 Plasma Engine 更是第一個能充份利用 NVIDIA GPU 即時處理巨量資料的軟體。」
喬治亞理工學院教授 David Bader 表示:「喬治亞理工學院很興奮能為 RAPIDS 作出貢獻,這是一個專為 NVIDIA GPU 加速分析所打造的開源園地。在這資料爆炸的年代,我們對 RAPIDS 圖型程式庫的貢獻將可協助資料科學家從不斷改變的資料集中,獲取有意義的知識。」
Graphistry共同創辦人兼執行長Leo Meyerovich 表示:「身為早期 GPU 雲端新創公司之一的 Graphistry 已悄悄地為必須梳理財政、網路安全、運作與銷售紀錄之敏感的《財富》美國 500 強公司與聯邦團隊,帶來全新水準的能見度。身為 RAPIDS 的早期貢獻者與 Apache Arrow 背後的力量,Graphistry 已在 RAPIDS 上押上重寶。我們因為重新定義視覺運算結構、使之成為瀏覽器與雲端GPU的即時混合,而早已聞名業界,現在我們正與 RAPIDS 團隊合作,為其現有之圖型 GPU 視覺分析核心,增添下一層級的表格式分析。」
H2O.ai 創辦人兼執行長 Sri Ambati 表示:「機器學習正在改變各行各業,而 NVIDIA 的 GPU 則加速此一轉型。有了開源社群的客戶支援,H2O.ai讓 GPU 的機器學習成為主流,並獲得 Gartner 評為資料科學與機器學習平台的業界領導公司。NVIDIA 透過其開源資料科學函式庫 RAPIDS 支援 GPU 機器學習社群,以即時協助 GPU 資料科學生態系的成長,並為我們將 AI 導入資料中心的共同使命提供背書。拜我們的合作關係之賜,採用由 NVIDIA GPU 驅動的 H2O Driverless AI 已呈倍數成長,讓 AI 更快速、更便宜且更簡單。」
INRIA Scikit-Learn 營運總監 Gael Varoquaux 表示:「NVIDIA 利用如 RAPIDS 等全新的生產力工具,展現加速資料科學的真實進展。對於資料分析團隊而言,若在高階語言下結合非常快速的運算力,將會改變整個業界生態。我們非常高興 NVIDIA 選擇讓 RAPIDS 與 Scikit-Learn 彼此相容。我們相信它將讓我們所屬的產業受益,並期待未來與 NVIDIA 的合作。」
Kinetica 共同創辦人暨科技長 Nima Negahban 表示:「RAPIDS 的開源函式庫套件是個意義重大的改進,讓資料科學家可以在模型開發工具鏈中使用 GPU。資料科學家不需要重新進行邏輯設計,RAPIDS 便可以大幅簡化與優化訓練,並提升模型的準確性。我們非常高興能在 AI 普及化的過程中與 NVIDIA 共同合作,由 NVIDIA 負責模型開發與訓練,並由 Kinetica 負責模型的運作與發展,讓企業從資料中獲取最大的洞察。」
Lenovo 資料中心集團總裁Kirk Skaugen 表示:「企業客戶與學術界在處理與分析大量資料並開發與測試新策略時,會持續遭遇到挑戰。全新的 RAPIDS 開源軟體在 NVIDIA GPU 上進行端對端的運算,可望加速工作流程。我們相信此一創新與合作,將對客戶帶來重大的衝擊。」
MapR 執行長 John Schroeder 表示:「RAPIDS 的推出對資料科學領域而言是一個突破性的進展,更重要的是,它具有利用資料科學對企業帶來直接影響的能力。MapR 藉由專注於補充資料管理與部署活動來提供支援,以配合端對端的 RAPIDS 資料科學訓練與模型工作流程。」
NERSC Python資料分析領導人 Rollin Thomas 表示:「NERSC 對來自大專院校、國家級實驗室與業界等超過 7,000 名研究人員提供奧援。他們愈來愈需要以具生產力和高效能的方式,自複雜科學模擬或如粒子加速器及天文望遠鏡等實驗及觀測設備獲取的資料,進行互動。我們期待與 NVIDIA 合作,讓用戶取得如 RAPIDS 的全新高效能 Python 資料分析工具,以加速他們在許多科學領域中的新發現。」
NetApp ONTAP 資深副總裁 Octavian Tanase 表示:「各類型機構必須利用新的 AI 效能來帶動競爭優勢與加速數位轉型。由 NVIDIA GPU 所驅動的 RAPIDS 與 NetApp AFF A800雲端連接全快閃儲存的結合,可協助客戶有信心地取用愈來愈龐大的資料資源,並在急需資料的導入、訓練與操作等AI應用中,保有幾近無限的擴展性與所需的效能。」
NumFOCUS 董事長 Andy Terrel 表示:「NVIDIA 對 NumFOCUS 的支援展現了他們對此領域的投資。身為資料科學界的兩家領導公司,我們感覺彼此共同的努力,可以為科學界與商界帶來更好的工具。」
OmniSci 執行長暨共同創辦人 Todd Mostak 表示:「資料科學家在 NVIDIA GPU 上使用OmniSci,以便在打造機器學習模型時,加速資料探索與進行工程相關作業。目前我們的用戶在 OmniSci 環境下可以進行互動提問,並以所需之規模進行資料視覺化,然後將結果送進 RAPIDS 開源函式庫,完成強大的端對端資料科學工作流程。NVIDIA 與 OmniSci 共同合作,讓模型打造與迭代的速度更快,進而提高準確性並縮短了部署的時間。」
Pure Storage FlashBlade 總經理 Matt Burr 表示:「我們的客戶期待透過資料取得洞見,以便從競爭對手中脫穎而出,並為終端用戶帶來愈來愈多的價值。RAPIDS 擴大 NVIDIA GPU 加速與 Pure Storage FlashBlade 對資料科學與機器學習工作流程的衝擊,協助更多資料科學家加速其訓練作業,同時維持最低延遲效能,以便更快速得到結果。」
Quansight 創辦人暨執行長兼 Anaconda 共同創辦人暨總監兼 NumPy 與SciPy 創始者 Travis Oliphant 表示:「NVIDIA 長期以來一直是先進分析加速工具的業界領導者,並且持續提供免費的高速函式庫供資料科學界的開發人員使用。我很高興看到他們擴大資料科學使用的開源架構,並對端對端軟體與硬體解決方案作出承諾。這些創新將使整個資料科學工作流程戲劇性地加速,同時為各式各樣的開源生態系帶來更多的創新。」
SAP 創新長 Juergen Mueller 表示:「SAP 過去數年來持續與 NVIDIA 密切合作,利用 GPU 為 SAP Leonardo 機器學習解決方案進行加速。 SAP 進一步推進此一合作,以探索 RAPIDS 帶來的可能性,可望大幅加速 GPU 上的資料科學作業。對於資料科學家而言,在利用 SAP Leonardo 與 SAP HANA 把智慧導入企業時,是加速資料科學與機器學習的重要一步。」
SAS 的 AI 與機器學習領導人 Saratendu Sethi 表示:「我們正與 NVIDIA 密切合作,以便為全新透過 GPU 加速的資料科學函式庫作出貢獻。我們期待未來的 SAS Viya 產品能善用 RAPIDS,讓客戶可以更快速地從資料獲取寶貴洞見。」
SQream 執行長 Ami Gal 表示:「NVIDIA 在 RAPIDS 上的努力為戲劇性加速的資料科學領域,帶來令人興奮的機會。結合 SQream DB 將極大量資料送入 RAPIDS 資料科學平台的能力,我們期待資料科學家將可以用更快的速度運作模型,同時使用比以往更多的資料。」
加州大學戴維斯分校教授暨 Gunrock 計劃主持人 John Owens 表示:「我們很高興能成為 RAPIDS 社群的一份子,並期待未來與 NVIDIA 以及其夥伴合作,共同為資料分析創建效能最高、最完善的生態系。」