你的基因組裡有些什麼?新創公司使用 GPU 加快分析 DNA 的速度

作者 Isha Salian

花個一百美元寄出唾液樣本,送回來的結果讓人會對基因產生有趣的見解,不過將 DNA 用於研究或臨床目的,則是要用到整個基因組,這代表對染色體內的三十億鹼基對進行定序和處理。

近年來研究基因組的費用不再像過去那麼昂貴,2003年花了十億美元找出 DNA 的第一個序列,目前剩下不到一千美元。然而定序只是這整套流程的序幕罷了。

研究基因組的瓶頸在於定序後要進行運算分析。運算分析是檢測基因資料中關鍵標記和稱為變異之異數(outlier)的過程。

來自密西根州安娜堡的新創公司 Parabricks(同為 NVIDIA Inception 計畫成員),將進行這項分析作業所需的時間,從過去要花費數日減少到現在只要不到一小時。「這是首款在 GPU 上對基因組資料進行二次分析的應用程式,完全符合最先進的分析流程。」Parabricks 總裁 Dave Gregorka 說。

加快基因分析作業的時間使得研究人員能有效率地分析整個群體的基因組資料趨勢,讓個人化醫療服務、研發藥物及疾病治療領域能因此而受惠。基因分析可以全面改寫治療重症患者的方式,讓醫師快速進行診斷和制定治療計畫。

「大幅加快分析速度,便能更快找出正確的問題和解決辦法。」Parabricks 共同創辦人暨技術部門主管 Ankit Sethia 說。

對速度的需求

對於整個基因組進行定序和分析的需求不斷飛速增長。Sethia 說產生出的基因資料量幾乎每年都翻長一倍。每個人類基因組的樣本約有 300GB 的大小,在運算方面的需求快速增加。

「只使用 CPU 來分析上萬名患者的數萬個樣本時,可能要花上好幾年的時間。」他說。

Parabricks 的研究團隊開發出在 GPU 上運行的軟體,可以快速分析基因組。這套軟體能夠辨別資料裡的突變和變異情況,讓醫療專業人員能掌握患者的基因來找出治療方式。

Parabricks 的軟體在一台 NVIDIA DGX-1 伺服器上運行,每年可以處理超過1.2萬個完整基因組,相對來說得用到40台 CPU 伺服器才能處理這麼多的資料。Parabricks 還能在 AWS、Azure 或 Google Cloud 雲端環境的 GPU 上運行該公司的軟體。

用 GPU 處理基因組資料跟用 GPU 處理圖形,兩者並無二異。

GPU 的平行處理能力十分適合用於獨立處理和運算圖形裡彼此間緊挨著的每個微小像素。Sethia 說基因組的資料也是如此。DNA 定序儀產生出的資料由細微的獨立基因資訊組成,可以一一分開消化這些資訊再串聯起來。

受限於現有技術水準,其它的快速基因組分析解決方案的精準程度並不高。Parabricks 採用最新的演算法,加上它是軟體,可以輕鬆進行更新或客製化。Parabricks 使用包括 cuDNN  深度學習函式庫在內的 NVIDIA CUDA,以及 TensorRT 推論軟體來進行基因組分析作業。

Parabricks 在三月時對特定客戶推出了第一版的 GenomeBricks 軟體套件,目前在新加坡、日本和泰國等國家推行,同時也將進行包括國家精準醫療計畫在內的大規模族群研究案。