事實證明,「三個臭皮匠,勝過諸葛亮」。至少這是三個過去曾是對手的人,如今聯手合作的原因,他們一舉奪下今年 Data Science Bowl 剛公布的最高榮譽。
第四屆 Data Science Bowl 年度賽事聚焦於醫療保健領域最急迫的問題之一,即發現新藥物所需的成本和時間出現大幅飆升的情況。寫下新猷的 1.8 萬名參賽者纏鬥了 90 多天,交出一項深度學習演算法,加快了藥物發現過程裡的關鍵步驟,也就是找出細胞核。
這項賽事的非營利組織合作夥伴、由哈佛大學與麻省理工學院共同創立的布洛德研究所(Broad Institute of MIT and Harvard)影像平台總監 Anne Carpenter 表示,「基於更快速、更準確地發展新的治療方法這項極為實際的需求」,而誕生出今年的 Data Science Bowl 賽事。
Data Science Bowl 的參賽者使用了麻省理工學院與哈佛大學共同成立之布洛德研究所提供的影像(如圖),以訓練深度學習演算法來發現細胞核並加快藥物發現的腳步。
國際團隊獲獎
優勝隊伍擊敗了近四千支隊伍而贏得 Data Science Bowl 的冠軍。今年的賽事由顧問公司 Booz Allen Hamilton 與 Kaggle 資料科學競賽平台主辦,並獲得 NVIDIA 與醫療診斷公司 PerkinElmer 的贊助。最佳演算法的創作者將平分17萬美元的獎金和獎品,其中包括用於深度學習的強大 NVIDIA GPU 硬體。
除了要在密集繁複的醫學影像裡找出細胞核的這項難題,獲勝的三人組 Selim Seferbekov、Alexander Buslaev 與 Victor Durnov 還要面臨跨六個時區及三個國家(德國、白俄羅斯和俄羅斯)進行合作的挑戰。他們使用 NVIDIA 的 GPU 進行訓練和推斷,耗費約 300 小時來建立和執行演算法。
他們的辛勞獲得了回報:三人將同獲五萬美元的獎金,加上採用最新 Volta 架構的 NVIDIA GPU(預估價值七萬美元)這項大獎。Volta GPU 採用 NVIDIA CUDA Tensor Cores,為 DGX Station 等硬體提供前所未有的深度學習效能,這是針對研究人員所推出最強大的工具之一。
創紀錄的 Data Science Bowl 賽事
參賽者共計耗費28.8萬個小時,提出6.8萬個算法,幾乎是去年 Data Science Bowl 賽事所提出數量的三倍。
前三名的隊伍都使用我們的 GPU 來創造出各項出色的結果。前三名的其他隊伍分別是:
- 第二名(獎金25,000美元):來自北京的新創公司首席資料科學家 Minxi Jiang,在去年的 Data Science Bowl 賽事裡獲得了最高的 1%。
- 第三名(獎金12,000美元):西班牙海洋生物學家 Angel Lopez-Urrutia 利用機器學習自動分類浮游生物的影像,這是首屆 Data Science Bowl 賽事的一大難題。
藥物發現的瓶頸
開發新藥是一項複雜又艱鉅的事,每次治療可能花費數十億美元和十年或更長的時間。生物化學家嘗試使用數千種化合物,以找出哪種對某種特定的病毒或細菌有治療效果、哪種對人體會產生出預定的反應。他們測量生病及健康的細胞如何對各種治療作出反應,以做到這一點。
幾乎所有的人類細胞都有細胞核,辨識每個細胞最直接的途徑便是找到細胞核。現有方法需要研究人員耗費不少時間來監看,有時生物學家別無選擇,只能親自一一查看上千個影像來完成實驗。
「本次賽事開發出的演算法可以快速準確找出細胞核,讓生物學家們將心力投注在研究的其他方面,縮短每種新藥上市所需約十年的時間,最終提高人們的生活品質。」Booz Allen Hamilton 資訊科技顧問公司高階主管 Ray Hensberger 說。
布洛德研究所的 Carpenter 想要使用獲勝的演算法來打造用於藥物發現的深度學習軟體。該所目前打算建立一個易用的開放源碼軟體,讓生醫研究人員可以在日常工作裡使用。
深入瞭解 NVIDIA 的技術如何推動醫療保健領域深度學習的發展。
*本文主要圖片顯示人類細胞核,內有大部分細胞的遺傳物質。經 RNA 剪接的蛋白呈現紅色,染色體呈藍色。圖片由美國國家癌症研究所提供。
第四屆 Data Science Bowl 賽事向參賽者提出了挑戰,要求他們使用深度學習來加快藥物發現的速度。