解密AI如何加速資料科學工作流程

RAPIDS cuDF 在 RTX 支援的AI PC與工作站,將熱門的 pandas 開源函式庫速度加快 100 倍。
作者 Howard Wright

編者按:本文為「解碼 AI 」系列文章,以深入淺出的方式解密AI,並介紹 RTX PC 的新硬體、軟體、工具與加速功能。

AI 正在各行各業推動創新及提升效率,但這項技術必須經過大量高品質資料訓練,才能徹底發揮潛力。

在準備這類資料方面,資料科學家起了關鍵作用,對於必須利用專有資料增強AI功能的特定範疇領域,他們的影響力尤其顯著。

為了協助資料科學家處理日益增加的工作負載需求,NVIDIA 發布了 RAPIDS cuDF 這套函式庫,讓使用者處理資料時更輕鬆,原封不動就能加速 pandas 軟體庫。Pandas 是適用於 Python 程式語言的熱門資料分析與處理函式庫,靈活彈性且功能強大。有了 cuDF,現在資料科學家可以用慣用的程式碼庫,資料處理速度絲毫不打折扣。

NVIDIA RTX AI硬體與技術也能加速處理資料。其中包括強大的 GPU,提供快速高效加速各層級AI所需的運算效能,無論是資料科學工作流程,還是PC與工作站的模型訓練與自訂,全部同時搞定。

資料科學瓶頸

最常見的資料格式是表格資料,並以行與列的方式組織。較小的資料集可利用 Excel 等試算表工具管理,但列數成千上萬的資料集與建模管道,通常則是仰賴 Python 等程式語言的 DataFrame 程式庫。

Python 是資料分析的熱門選擇,主因在於 pandas 函式庫的應用程式介面 (API) 簡單易用。然而,資料集越來越大時,pandas 在純 CPU 系統的處理速度與效率便陷入苦戰。此外,大家都知道,為大型語言模型處理文字型資料集這個重要資料類型時,函式庫也是難以招架。

資料需求超出 pandas 的功能負荷時,資料科學家便陷入兩難:忍受緩慢的處理時間,或是採取代價高昂的複雜步驟,改採效率更高但使用難度較高的工具。

利用 RAPIDS cuDF 加速預先處理管道

RAPIDS cuDF 在 RTX 支援的AI PC與工作站,將熱門的 pandas 開源函式庫速度加快達 100 倍。

有了 RAPIDS cuDF,資料科學家可以用慣用的程式碼庫,資料處理速度絲毫不打折扣。

RAPIDS 是 GPU 加速 Python 函式庫的開源套件,專為改善資料科學與分析管道而設計。cuDF 是 GPU DataFrame 函式庫,提供類似 pandas 的 API,可載入、篩選及處理資料。

資料科學家利用 cuDF 的「pandas 加速器模式」,可在 GPU 執行現有的 pandas 程式碼,充分利用強大的平行處理功能,而且程式碼必要時絕對會切換至 CPU。這種互通性提供先進可靠的效能。

最新發布的 cuDF 支援大型資料集,以及數十億列的表格文字資料。這樣一來,資料科學家便可用 pandas 程式碼,為生成式AI使用案例預先處理資料。

在 NVIDIA RTX 驅動的AI工作站與PC加速資料科學

最新研究顯示,57% 的資料科學家將PC、桌上型電腦或工作站等本機資源用於資料科學

資料科學家可利用 NVIDIA GeForce RTX 4090 GPU 實現大幅加速。資料集越來越大,處理過程對記憶體需求越來越高時,他們可以用 cuDF 技術搭配工作站的 NVIDIA RTX 6000 Ada 世代 GPU 因應,相較於傳統的 CPU 型解決方案,效能提升高達 100 倍。

在 NVIDIA RTX 6000 Ada GPU 與 Intel Xeon CPU,比較 cuDF.pandas 與傳統 pandas v2.2 的標準 DuckDB 資料基準測試 (5GB) 效能。[替代文字:兩個常見的資料科學運算「join」與「groupby」位於 y 軸,而 x 軸則顯示執行每項運算耗費的時間。cuDF.pandas 只耗費不到 10 秒,而傳統 pandas 則需要幾分鐘。]
資料科學家可在 NVIDIA AI Workbench 輕鬆開始使用 RAPIDS cuDF。這款免費的開發人員環境管理工具採用容器,讓資料科學家和開發人員能夠跨 GPU 系統創造、協作及移轉AI與資料科學工作負載。使用者一開始可先使用 NVIDIA GitHub 儲存庫提供的幾個專案範例,例如 cuDF AI Workbench 專案

cuDF 預設也可在集中式資料科學平台 HP AI Studio 上使用

旨在協助AI開發人員將開發環境從工作站順利複製到雲端。這樣一來,他們就可設定、開發及協作專案,而且不必管理多個環境。

在 RTX 驅動的AI PC與工作站,cuDF 的優勢不僅止於加速原始效能。優勢還包括:

  • 在功能強大的 GPU,以固定成本的方式在本機開發,順利複製到on-premises的伺服器或雲端執行個體,節省時間與金錢。
  • 能夠以更快的資料處理速度實現更快的迭代,讓資料科學家以互動速度實驗、改善以及從資料集擷取深入解析。
  • 提供更有影響力的資料處理技術,在管道逐步實現更優異的模型成果。

深入瞭解 RAPIDS cuDF

資料科學的新紀元

AI與資料科學日新月異,快速處理及分析大型資料集的能力,勢必會成為各行各業取得突破的關鍵差異化因素。無論是開發精密的機器學習模型、執行複雜的統計分析,還是探索生成式AI,RAPIDS cuDF 都能為新一代資料處理奠定基礎。

NVIDIA 支援成長速度數一數二的 Python 函式庫 Polars,持續拓展這個基礎,而且相較於其他現成的純 CPU 工具,能大幅加速資料處理。

Polars 本月發表採用 RAPIDS cuDF 的公測版 Polars GPU 引擎。Polars 使用者現在可讓速度原本就猶如風馳電掣的 DataFrame 程式庫,效能大幅提升高達 13 倍。

利用 RTX AI 為明日的工程師創造無限可能性

無論是在大學資料中心、GeForce RTX 筆記型電腦或是 NVIDIA RTX 工作站執行,NVIDIA GPU 都能加速研究。資料科學等領域的學生,利用真實世界應用廣泛使用的硬體,不僅可強化學習體驗,還能獲得實作經驗。

深入瞭解 NVIDIA RTX PC與工作站如何利用AI支援的工具,協助學生提升學業表現。

生成式AI正在改變遊戲、視訊會議和各種互動式體驗的生態。立即訂閲解碼AI電子報,掌握最新消息和未來趨勢。