NVIDIA為全球最受歡迎的資料分析平台 Spark加速

作者 NVIDIA Developer

NVIDIA GPU 為 Apache Spark 3.0 加速

Apache Spark 是全球最流行的資料分析應用程式,現已透過之前發布的 Spark 3.0 版本為超過 50 萬用戶提供革命性的GPU 加速

Databricks 為用戶提供了先進的企業雲端平台 Spark ,每天有超過 100 萬台虛擬機運行該平台。在 6 月 25 日的 Spark + AI Summit 峰會上, Databricks 宣布其用於機器學習的 Databricks Runtime 7.0 將配備內置 Spark 3.0 的 GPU 加速器感知調度功能。該功能由 Databricks 與NVIDIA 和其他社群成員合作開發

Google Cloud 近期宣佈在Dataproc image 2.0 版本上提供 Spark 3.0 預覽版,同時指出在開源社群的協作下,現在已獲得強大的 NVIDIA GPU 加速。 NVIDIA 將於 7 月 16 日與Google Cloud 共同舉辦一場網路研討會,深入探討這些令資料科學家感到興奮的新功能。

此外,用於 Apache Spark 的新開源 RAPIDS 加速器現在可以加速 ETL (擷取、轉換、載入)和資料傳輸,在無需更改任何代碼的情況下提高端到端分析性能。

Spark 性能的加速不僅意味著能夠更快獲得有效見解,而且由於企業可以使用更少的基礎設施來完成作業負載,因此還可以幫助企業降低成本。

加速資料分析:科學運算理解人工智慧

Spark 有充分的理由成為新聞媒體報導的焦點。

資料對於幫助企業機構應對不斷變化的機遇和潛在威脅至關重要。為此,他們需要解碼隱藏在資料中的關鍵線索。

每當客戶點閱網站、撥打客戶服務電話或生成每日銷售報告時,就會給企業機構貢獻大量的訊息。隨著 AI 的興起,資料分析對於幫助公司發現趨勢並保持市場領先地位所發揮的作用日益重要。

前不久,資料分析還依靠小型資料集來收集歷史資料和見解,透過 ETL 對儲存在傳統資料倉庫中的高度結構化資料進行分析。

ETL 常常成為資料科學家在獲取 AI 預測和建議時的瓶頸。 ETL 預計會佔用資料科學家 70 %至 90 %的時間,這會減慢工作流程並將炙手可熱的人才束縛在最普通的工作上。

當資料科學家在等待 ETL 時,他們無法重新訓練模型來獲取更好的商業見解。傳統的 CPU 基礎設施無法透過有效的擴展來適應這些工作任務,這通常會大幅增加成本。

有了 GPU 加速的 Spark , ETL 就不會再產生這樣的麻煩。醫療、娛樂、能源、金融、零售等行業現在可以符合成本效益地為資料分析加速,更快地獲取見解。

平行處理助力資料分析

GPU 平行處理使電腦可以一次執行多項操作。資料中心透過大規模橫向擴展這些功能來支持複雜的資料分析專案。隨著運用 AI 和機器學習工具的企業機構日益增加,平行處理已成為加速海量資料分析和 ETL 管道,進而驅動這些作業負載的關鍵。

比如有一家零售商希望預測下一個季節的庫存。該零售商需要檢查近期的銷售量以及去年的資料。資料科學家還能在此分析中添加天氣模型,從而了解雨季或旱季對結果產生的影響。零售商還可以整合情緒分析資料,評估今年最流行的趨勢。

由於需要分析的資料源太多,因此在可能對銷售量產生影響的不同變數進行建模時,速度就顯得尤為重要。這就需要將分析加入到機器學習中, GPU 也因此變得十分重要。

RAPIDS加速器為Apache Spark 3.0加速

隨著資料科學家從使用傳統的分析轉而採用可以更好地對複雜市場需求進行建模的 AI 應用程式,如果繼續採用 CPU ,則必須犧牲速度或增加成本才能跟上由此產生的處理需求。而隨著 AI 在分析中的應用程式日益增加,需要有新的框架來透過 GPU 快速地、具成本效益地處理資料。

用於 Apache Spark 的全新 RAPIDS 加速器將 Spark 分佈式運算框架與功能強大的 RAPIDS cuDF 函式庫相連接,實現了 GPU 對 Spark DataFrame 和 Spark SQL 的運行加速。 RAPIDS 加速器還透過搜索在 Spark 節點之間移動資料的最快路徑來加快 Spark Shuffle 的運行速度。

登錄GitHub 頁面了解用於 Apache Spark 的 RAPIDS 加速器。

眼見為憑 — 您可以在以下演示中觀看 GPU 上的 Spark 3.0 加速:

如要了解更多有關 Spark 3.0 版本的訊息,敬請參閱Apache Software Foundation

資料科學家可以在我們的免費 Spark 3.0 電子書中了解有關 Spark 3.0 的更多訊息。