我們需要大量數據來更有效地對抗癌症。
癌症的發生率這麼高,海量數據應運而生。數據從百萬名癌症患者的病理報告到充斥著癌症患者訃聞的新聞版面。
這些資料有效地建立一個分散式資料庫,可用來判斷人口統計和癌症人口結果之間的關係,不過得花上不少時間進行分析如此無結構性的文字資料,使得美國國家癌症研究院的「流行病監測及最終結果」(Surveillance, Epidemiology, and End Results,SEER)計劃得拖上五年之久才能公布其年度研究報告。
橡樹嶺國家實驗室的衛生資料科學機構,在 Titan 超級電腦上結合 GPUs、深度學習演算法,以及數據分析和擷取技術,以加快整體研究速度。
衛生資料科學機構主管 Georgia Tourassi 表示「目標是更有能力傳達美國是否在打擊癌症方面有所進步。」
深度學習加快了兩案進行的速度
Tourassi 的研究團隊將處理病理報告和訃文分為兩案,想要對癌症模式提出新的見解。獲得全額 NCI 獎助金的訃文案,目前已經進入第四個年頭。研究團隊致力於開發能自動研究的分析工具,便能用於執行更為全面性的流行病學研究。
在此案的後期階段,Tourassi 的團隊使用稱為數據平行性的方式,在 Titan 上將數據拆成多個運算節點,將相同的流程同時用在不同的數據區段上,加快建立深度學習網路的速度,改善數據分析和擷取的能力。
同時也要求 Tourassi 的團隊使用相似的方法去分析數百萬筆癌症病理報告。這項作業的時間不如訃文案進行的那麼久,認為從近期加入研究項目的深度學習訓練身上可以獲得更多 優點。
Tourassi 說:「比起使用傳統規則的系統,使用深度學習後出現效率大幅增長的情況。這大有可為之處,我們會繼續在這方面努力。」
「龐大卻凌亂」的數據所帶來的難題
多數傳統文字採礦系統和早期的深度學習系統,依靠專家們運用他們的知識解釋臨床報告來引導系統進行學習。最終深度學習系統將能消化臨床病理報告,無需輔助便能自行學習,自動篩選「龐大卻凌亂的資料」,Tourassi 為無法控制品質的資料取了這個名稱。
兩案皆使用 NVIDIA Tesla K20 GPU 加速器,加快在 Titan 上進行深度學習訓練活動的腳步。Tourassi 說訃文案使用 GPU 的速度,較使用 CPU 快上8到10倍;病理報告案還太新無法產生具體數據,Tourassi 卻已見到出現相似的優點。
她說「在這兩項應用上都看到臨床表現有所增進的情況,我信服了 GPU。我現在明白在超級電腦上擴大使用這些工具的價值。」
兩案都有明確目標,Tourassi 仍希望能推動這些努力(這是優秀研究人員的職責),盡量即時回報癌症研究的發現。
Tourassi 說:「我們想開發資訊工具,交給不同的登記單位,讓他們能加快取得資訊的速度,期望癌症監測項目能適應現代需求。」