美國國家航空暨太空總署的太陽日:NASA 使用資料科學工作站將太陽圖像的分析速度提高了150 倍

Quadro RTX 助力 HP 的 Z 系列資料科學工作站,讓科學家將過去需要數年的 CPU 數據分析和計算速度縮短到不到一周。

作者 Nicole Castro

NASA 使用Quadro RTX GPUs 在其數據分析上大放光明。

美國國家航空暨太空總署的太陽動力學天文台 收集太陽圖像,以幫助科學家和研究人員深入了解各種類型的太陽變化及其對地球生命的影響。

這些數據對於研究社群而言是寶貴的資產,但是由於收集了超過 18 PB 的圖像,因此分析這些資料是一項巨大的挑戰。

Quadro RTX 助力的 HP 的 Z 系列資料科學工作站 讓 NASA 團隊可以輕鬆地對數據進行分類並分析圖像,速度比 CPU 快 150 倍。

NASA的大數據挑戰

天文台透過每 1.3 秒拍攝一次太陽圖像來收集數據。研究人員開發了一種演算法,可以消除圖像中的錯誤,例如不良像素,然後將其置入每天都在增長的檔案中。

該演算法非常精確,但是它有近 20 PB 的圖像,因此數十億像素被錯誤分類為錯誤。因此, NASA 團隊需要梳理 1.5 億個錯誤文件,總共包含約 1000 億個單獨的檢測,並找到一種方法來對好像素與壞像素進行分類和標記。

使用常規計算幾乎是不可能的,使用 CPU 最多要花費幾年時間才能看到任何結果。即使使用他們可以創建的最佳多線程 CPU 演算法,也要花費大約一年的時間來計算和分析所有數據。

美國國家航空暨太空總署戈達德太空飛行中心 (Goddard Space Flight Center) 的太陽天文學家 Raphael Attie 說:“對科學家來說,一年仍然是不夠的,因為我們想探索和迭代發現的結果。即使經過一年的計算,我們仍然需要長達十年的時間才能找到具體的結果。”

為了在更短的時間內完成結果, NASA 團隊開始研究使用 NVIDIA GPU 可用的平行處理功能。

大數據獲得更大的解決方案

NASA 的超級計算資源受到嚴格限制 – 研究人員需要提供需要多少計算資源以及需要使用多長時間的詳細訊息。但是,當團隊不確定需要多少計算資源來進行實驗用大數據時,這變得很有挑戰性。

但是,借助由兩個 Quadro RTX 8000 GPU 提供支持的 HP Z 資料科學工作站, NASA 研究人員能夠在他們的辦公桌上獲得超級計算資源。他們開始使用大數據分析技術並使用 NVIDIA 的加速計算函式庫來探索該專案,以完全釋放 NVIDIA GPU 的功能。

資料科學工作站使團隊能夠在不到一周的時間內分析圖像並獲得結果。

NASA 研究天體物理學家 Michael Kirk 說:“資料科學工作站徹底改變了我們的可能性領域。 這些以前無法想像的計算,現在我們可以比我們想像的快 10-150 倍。”

NASA 團隊利用 AI ,機器學習和數據分析來了解太陽的秘密,從而展開廣泛的工作。他們的大多數資料科學工作流程都基於 Python ,使用 TensorFlow , Dask , CuPy 和其他應用程式進行繁重的數據處理。熊貓,RAPIDS 和 CuDF 用於統計探索;以及各種 2D 和 3D 可視化工具。

借助資料科學工作站,團隊可以利用 GPU 的功能來增強其分析工作流程,從而使研究人員能夠探索和迭代計算以獲得更快的結果。

一旦 NASA 團隊完成了過濾和分析當前數據的專案,他們的下一步就是使用此資料來分析最初被標記為良好的其他像素,以確保它們確實良好,從而驗證整個數據集。

GPU的領域變化

在 AI 和大數據分析中,雲端環境中的無響應工作流程可能會嚴重影響專案。從長遠來看,這些中斷破壞了動能,生產力和行動力。這就是 Attie 建議擁有 GPU 助力的本地工作站或筆記型電腦的原因,因為工作站或筆電具有足夠的記憶體來容納您的部分數據處理,以實現舒適的原型製作。

“我發現響應式工作流程的必要條件是讓 GPU 設備快速存取輸入數據,” Attie 說。 “如果不可能將本地數據儲存在與 GPU 設備相同的機器上,則網路需要非常快速和靈活,因為 AI 應用程式通常需要快速存取數據。”

Attie 和 Kirk 的專案成果通過出版物和專業期刊共享。 在研討會和會議期間,他們將與同事進行討論,並就如何使用特定框架或自定義代碼獲取數據進行演示。 隨著越來越多的人在家工作, NASA 團隊越來越熟悉與他人聯繫並分享其最新專案發現的遠程工具。

在此處與 NASA 舉行的網絡研討會中深入研究這項工作。

深度瞭解此項工作,您可參與網路研討會 ,或瞭解更多NVIDIA 資料科學工作站 訊息。

精選圖片由 NASA 提供,是 SDO 在 2012 年 5 月 16 日拍攝的太陽影像。