無論是研究奈米尺度的電子行為,還是數百萬光年外的星系碰撞,許多科學家都有著一個共同的難題:必須對PB級大的位元組的資料進行梳理,以擷取能夠推動其鑽研領域發展的洞察資料。
研究人員現在可以利用 NVIDIA cuPyNumeric 加速運算函式庫,將原來用於處理資料的 Python 程式碼,毫不費力地在搭載 CPU 的筆記型電腦、GPU 加速工作站、雲端伺服器或大型超級電腦上運行。當他們處理資料的速度越快,就能越快針對有發展潛力的資料點、值得研究的趨勢做出決定,以調整實驗內容和走向。
研究人員無需具備電腦科學方面的專業知識,便能讓加速運算技術大幅飛躍。他們只要使用熟悉的 NumPy 介面編寫程式碼,或是把 cuPyNumeric 用於現有的程式碼,並且按照最佳做法,就能獲得最佳的執行效能與擴充性。
研究人員一旦用上了 cuPyNumeric,無需進行任何更動,便可以在單一個或數千個 GPU 上運行他們的程式碼。
現已在 Conda 和 GitHub 上開放使用最新版本的 cuPyNumeric,支援 NVIDIA GH200 Grace Hopper 超級晶片、運行時自動配置資源,還有更棒的記憶體擴充功能。它還支援科學領域十分愛用的 HDF5 檔案格式,有助於有效管理大型複雜資料。
美國 SLAC 國家加速器實驗室、美國洛斯阿拉莫斯國家實驗室、澳洲國立大學、美國麻州大學波士頓分校、史丹福大學湍流研究中心與印度國家支付公司(National Payments Corporation of India)等機構的研究人員已整合 cuPyNumeric,大幅改善其資料分析工作流程。
少即是多:不用修改程式碼就能無限擴充 GPU
資料科學、機器學習和數值運算等領域最常使用 Python 程式語言,在天文學、藥物發現、材料科學和核物理學等科學領域中,有數百萬名研究人員使用 Python。GitHub 上有上萬個套件依賴 NumPy 數學與矩陣函式庫,上個月的下載量已超過三億次。cuPyNumeric 的加速運算技術可以加惠這些應用。
其中許多科學家所建立的程式都使用 NumPy,且只在單一 CPU 節點上運行。這限制了演算法的輸送量,無法對電子顯微鏡、粒子對撞機及電波望遠鏡等儀器所收集日益龐大的資料集進行分析。
cuPyNumeric 提供一個直接取代 NumPy 的元件,可以將運行規模擴大到數千個 GPU,幫助研究人員跟上其資料集不斷增加的規模與複雜性。從單一 GPU 擴大到整個超級電腦時,cuPyNumeric 不需要修改程式碼。這讓研究人員可以輕鬆在任何規模的加速運算系統上執行分析作業。
解決大數據問題,加速科學發現
SLAC 國家加速器實驗室是美國能源部的實驗室,由史丹佛大學負責營運,其研究人員發現 cuPyNumeric 可以幫助他們加快在直線加速器同調光源(Linac Coherent Light Source)上進行的 X 射線實驗。
一支專注於半導體材料科學發現的 SLAC 團隊,發現 cuPyNumeric 將其資料分析應用加快了六倍,把運行時間從數分鐘縮短到數秒。這個加速情況讓該團隊在這個高度專業的設施進行實驗時,可以平行運行重要的分析作業。
研究團隊得以更有效率地利用實驗時間,預期將能夠更快發現新的材料特性、分享結果與發表研究成果。
其他使用 cuPyNumeric 的機構有:
- 澳洲國立大學,該校的研究人員使用 cuPyNumeric 擴大 Levenberg-Marquardt 最佳化演算法的規模,使其能在澳洲國家運算基礎設施的多重 GPU 系統上運作。該演算法可用於許多應用程式,研究人員的初步目標卻是鎖定在大規模的氣候與天氣模型上。
- 洛斯阿拉莫斯國家實驗室,該機構的研究人員使用 cuPyNumeric 來加快資料科學、運算科學與機器學習演算法的運行速度。cuPyNumeric 將為他們提供額外工具,以便有效運用最近推出的 Venado 超級電腦,這台超級電腦搭載超過 2,500 顆 NVIDIA GH200 Grace Hopper 超級晶片。
- 史丹佛大學湍流研究中心,該中心的研究人員正在開發基於Python 的運算流體動力求解器,這款求解器可利用 cuPyNumeric 在大型加速運算叢集上大規模運行。這些求解器可以將多種液體模擬與PyTorch 等主流機器學習庫無縫整合,做到包括線上訓練和強化學習在內的複雜應用項目。
- 麻州大學波士頓分校,該校的研究團隊加快線性代數計算的速度,以分析顯微鏡視訊,並且判斷活性材料耗散的能量。研究團隊使用 cuPyNumeric 來分解有著 1,600 萬列、4,000 行資料的矩陣。
- 每天約有 5 億印度人使用印度國家支付公司提供的即時數位支付系統,且這個系統正在邁向全球市場。NPCI 使用複雜的矩陣計算技術來追蹤付款人與收款人之間的交易路徑。使用目前的方法,在 CPU 系統上處理一週交易期間的資料大約需要五小時。而一項試驗顯示,在多節點 NVIDIA DGX 系統上使用 cuPyNumeric 來加快計算速度,可以將矩陣乘法的速度提高 50 倍,讓 NPCI 在一小時內可以處理更大的交易視窗,在接近即時的情況下偵測可疑的洗錢活動。
如要進一步瞭解 cuPyNumeric,歡迎前往在亞特蘭大舉行的 SC24 超級運算大會,NVIDIA 展位將有現場展示活動,也歡迎參加展會大廳的劇場講座和 cuPyNumeric 研討會 。
歡迎觀看NVIDIA在SC24的特別演講。