兩全其美:MELLODDY 藥廠聯盟與 NVIDIA 強強聯手,加快利用人工智慧研發新藥的腳步

作者 Craig Rhodes

由十七名成員組成的 MELLODDY 藥廠聯盟採用 NVIDIA GPU,從多個製藥資料集中汲取寶貴見解,以加快研發藥物的速度。

一直以來,這些製藥公司的研究資料都是秘而不宣,只要跟別的公司合作,就有可能會喪失智慧財產權及在業界的競爭優勢。

然而分享資料又有著顯著的優點:製藥公司有愈多資料,底下的研究人員就能愈快找出及開發出有前景的新藥,如此一來便能提高候選藥物的成功率和降低治療成本。

MELLODDY 專案負責人 Hugo Ceulemans 表示,一款藥物的上市平均要花費十三年的時間及近二十億美元的費用。MELLODDY 是一個新成立的藥物研發聯盟,期望打破資料分享與安全性之間的壁壘。

這項專案將使用位於雲端的 NVIDIA GPU 與一種稱為「federated learning」(聯合學習)的全新分散式機器學習方法,投入多間製藥公司的資料來訓練人工智慧模型,同時又保留各業者的智慧財產權。

全名為「Machine Learning Ledger Orchestration for Drug Discovery」的 MELLODDY,由十七名成員組成,其中包括 Amgen、Bayer、GSK、Janssen Pharmaceutica 及 Novartis 等十間大型製藥公司;魯汶大學與布達佩斯科技經濟大學等歐洲頂尖大學;四間具開創性的新創公司,再加上 NVIDIA 的人工智慧運算平台。

各製藥領域的合作夥伴將使用自己在 Amazon Web Services 上託管的 NVIDIA V100 Tensor Core GPU 叢集。MELLODDY 的開發人員將建立一個分散式的深度學習模型,此模型可以在這些不同的雲端叢集之間遊走,使用帶有註釋的資料進行訓練,以產生出前所未有的一千萬種藥物化合物。

每間製藥公司都能對這個人工智慧模型進行微調,以配合其特定研究領域。而在 MELLODDY 聯盟的資料安全方面,各單位都將對其研究項目加以保密。

Janssen Pharmaceutica 的藥物發現資料科學部門的科學總監 Ceulemans 說:「我們期望可以提高藥物發現虛擬化方面的水準,使得患者享受到更有效率、更有成效,也更為安全的治療方法。講到機器學習和資料科學,沒有哪個產業能夠置身事外。」

聯合學習:一個新的領域

成立 MELLODDY 聯盟的目的,是想要展現出聯合學習技術如何讓製藥業的合作夥伴享受兩全其美的優點,也就是在不犧牲資料隱私的情況下,又可以利用全球最大的合作藥物化合物資料集來訓練人工智慧。

這項耗資兩千萬美元的專案將執行三年,屆時此聯盟將與公眾分享箇中心得。

聯合學習是一種分散式機器學習方法,在這種方法中,訓練資料無需彙集到單一伺服器中,而是機器學習模型使用存在各地的資料進行學習,確保各製藥公司私有的資料集留在各自的安全基礎設施內。

新創公司 Owkin 負責開發出 MELLODDY 的聯合學習系統,該公司的專案統籌 Mathieu Galtier 指出:「資料不會面臨風險。這些資料留在自己的 GPU 伺服器上,演算法則是遊走在各伺服器之間來進行訓練。」

藥物資料集內有著各化合物及其屬性的歷史資訊。這個聯盟的合作夥伴使用這項通用的 MELLODDY 聯合學習模型,就能以匿名方式來查詢特定藥物化合物。查詢內容會送到各單位的資料庫來找出可能的匹配結果。

MELLODDY 還將採用區塊鏈帳本系統,這些製藥業的合作夥伴便能看到及控制他人使用其資料集的情況。

讓製藥公司可以學習彼此的發現,又不用讓死對頭直接進入私有的資料集,這一招也更能預測利用人工智慧來開發藥物的表現。日後隨著模型變得更聰明,也能減少藥物開發的時間及成本。