淨化空氣:NASA 的科學家們使用 NVIDIA RAPIDS 來加快預測空汙的速度

作者 Crowd Favorite

NASA 的研究科學家 Christoph Keller 在本周舉行之 GTC DC 大會的一場演講中表示,空氣品質是一個被嚴重低估的問題。

九成的人呼吸著被汙染的骯髒空氣,每年有數百萬人因家中或戶外空氣汙染而致死。惡劣的空氣也會降低農作物的產量,造成每年數十億美元的農業產量損失。

為了更深入瞭解及預測空氣品質,NASA 的研究人員正在開發一種可以即時追蹤全球空氣汙染程度的機器學習模型。此模型還能提前五天提供空汙預報,幫助政府機關與個人做出決策。

Keller 的研究小組使用 NVIDIA V100 Tensor Core GPU 和 NVIDIA RAPIDS 資料科學軟體庫來加快其機器學習演算法的運作速度。這個訓練過的模型使用 NASA 氣候模擬中心的資料來模擬形成空氣污染的過程,接著還能併入現有的完整地球系統模型,只要使用過去的一半時間,便能模擬出全球空氣品質的優劣結果。

演算法在 RAPIDS 及 NVIDIA DGX 系統上飛快運行

NASA 與其他航太機構的衛星觀測數據收集了大量地球活動相關資料,其中包括詳細的空氣品質的測量結果。

這些資料會投入 NASA 的全球空氣品質模型內,然而其中涉及的科學過於複雜,無法以高速進行處理,便不能即時獲得更深入的見解。經 GPU 加速後機器學習可以改變這個狀況,讓科學家們能夠取得更精細即時的空氣品質圖。

任職於 NASA戈達德太空飛行中心的 Keller 在一場訪談中表示:「NASA 的全球模型能在短時間內產生出好幾個 TB 的資料量,我們想要做的就是使用如此龐大的資料集來訓練機器學習模型。我們在這方面很快便遇到了一般軟硬體的瓶頸,於是我改為使用 GPU 和 RAPIDS 軟體。」

NVIDIA 的開發人員與 Keller 合作,使用 cuDF 和 XGBoost 軟體庫來加快訓練機器學習模型的速度。研究團隊在三套有著 GPU 支援的系統上運行機器學習模型(其中包括 NVIDIA DGX-1),將訓練時間從原本幾乎要花上一整個工作日,減少到只要幾秒鐘即可完成,也就能在更短時間內反覆進行運算。

「以前在按下按鈕後,要等上六七個小時才能得到結果。就算只是小小調整一下,也要再次按下按鈕,再繼續等上六七個小時。加快訓練週期徹底改變了開發模型的遊戲規則。」他說。

社會大眾可以在 NASA 的網站上取得科學家們的空氣品質預測內容,研究團隊也希望應用程式開發者、非營利組織及各地城市都能使用這些預測。包括美國國家環境保護局、國務院和美國陸軍公共衛生中心在內的政府組織,同樣對這些資料有著濃厚的興趣,以便追蹤空氣品質並及時發出危險空氣警告。

這些單位可以利用 NASA 的資料和預報來開發工具,向社會大眾說明某一天的空氣品質會變得更差的原因,將空氣品質指數資料與野火、工業活動、天氣或車流量過大等汙染事件串連起來。政府也可以靠著這些預測內容,對單一電廠等特定排放來源的影響性進行量化。