哥斯大黎加理工學院與美國史密森尼學會的研究團隊使用 GPU 深度學習,以加快與加深化科學界對植物生物多樣性的認識程度。
數個世紀以來,科學家們已經收集並保存了大量植物資訊,將其存放在全球各地自然歷史博物館和研究機構植物標本館的眾多櫥櫃及抽屜裡。
科學家們使用這些植物資訊來發現和確認生物體的身份,對其特徵進行分類。在過去的二十年裡,多數這些資料已進行數位化,讓這些豐富的文字、圖片及樣本更容易在世界各地進行分享。
如今美國史密森尼學會與哥斯大黎加理工學院(ITCR)的互補計畫,將結合大數據分析、電腦視覺及 GPU,加深科學界取得植物學資訊及相關瞭解程度。
他們使用 GPU 加速深度學習有望加快研究進度,研究人員每年發現和描述約兩千種植物,且需要將這些新的物種與近四十萬種已知物種進行比較。
使得植物辨識圖片更臻完美
ITCR 的一支研究團隊去年發表了一篇報告,詳細介紹了該團隊採用的深度學習演算法。這款演算法能對植物標本臺紙上的生物體進行圖片辨識作業。這項工作是與法國農業研究發展國際合作中心(CIRAD)及法國國立計算機及自動化研究院(Inria)的專家共同進行。
數月後史密森尼學會研究人員另外發表了一篇報告,描述使用卷積神經網路來對自然歷史收藏品進行數位化的作業,特別是用在植物標本上。
兩組研究團隊皆期望他們的工作能推動生物多樣化資訊學領域有所不同發展。
史密森尼學會的研究植物學家 Eric Schuettpelz 表示:「我們無需查看數百萬張圖片,和搜索後設資料(metadata),現在我們可以藉著機器學習來實現這一目標。從圖片進行辨識的能力可能在幾年內變成一件微不足道的事。」
對於保護自然棲息地的作為來說,這絕對又是一件好消息。
「辨識植物物種對保護生物多樣性來說尤為重要。」ITCR 團隊的博士候選人 Jose Mario Carranza-Rojas 說。
從生態旅遊到資訊學
負責監督哥斯大黎加理工學院研究活動的副教授 Erick Mata-Montero 剛開始接觸到生物多樣性資訊學。Mata-Montero 在俄勒岡大學學習後,於1990年回到哥斯大黎加,發現祖國正處於蓬勃發展的生態旅遊浪潮之中,盡一切相關努力建立及合併野生動物保護區,以保護該國的生物多樣性。
Mata-Montero 加入了哥斯大黎加國家生物多樣性研究所,以協助科學界對生物多樣性有更深入的瞭解。到1995年,他帶領進行該單位的生物多樣性資訊學計畫,這項計畫很快便成為此領域的先驅。
Mata-Montero 直接將他的研究工作與 Carranza-Rojas 的研究結合起來,而 Carranza-Rojas 的碩士論文主題為按照葉片特徵(像是輪廓、葉脈及紋理)來改進植物辨識演算法。Carranza-Rojas 去年在法國 CIRAD 進行四個月的實習期間,找到了開發出一款植物圖片識別行動 app 的 Pl@ntNet,兩組人馬日前並攜手合作發表一篇報告。
不斷加速
哥斯大黎加團隊使用兩個 NVIDIA GeForce GPU、Caffe 深度學習框架、cuDNN 及約26萬張圖片來訓練卷積神經網路,以進行該實驗室的植物辨識研究工作。
Carranza-Rojas 說:「沒有了這項技術,就不可能用這麼大的資料集來運行網路。要是使用尋常的 CPU,大概得用一輩子來訓練神經網路,不會有完成實驗的一天。」
該團隊在發表了報告後,又繼續進行新的試驗,將重心放在辨識於野外環境拍攝的植物圖片。他們改採用 NVIDIA Tesla GPU,與今年初試用的 GeForce GTX 1070 GPU 相比,效能提高了25倍,且使用了 Python 專用的 Theano 運算函式庫,以加快研究工作的進展。
Carranza-Rojas 說:「我們只要利用過去實驗的一小部分時間,便可測試許多想法,代表我們能進行更多的科學研究。」
重點是該團隊的方法並不依賴特定領域的知識,因此 Carranza-Rojas 希望能將這項工作用於辨識昆蟲、鳥類和魚類等各種生物。
研究團隊的工作目前雖側重於植物物種辨識,卻也希望提高到屬和科的層面。由於植物標本臺紙的數量龐大,目前要處理所有植物物種得耗費極大的運算能力,不過他們希望採取由上而下的方法,在更高的生物分類層次上收集更多知識。
處理汞染色一事
史密森尼學會的 Schuettpelz 表示他的團隊在進行自己的研究項目時,聽到了哥斯大黎加理工學院團隊的研究項目。雙方雖未合作,他覺得要是將這些研究結合起來,或許會產生更大的影響力。
「從多個角度來看問題,終究是一件好事。」他說。
史密森尼學會研究團隊著重於辨識汞染色一事。早期植物學家使用有毒物質處理標本,以保護它們免受昆蟲侵害。其研究目標為知道在他們的收藏品中普遍存在汞染色的情況。
Schuettpelz 說:「我們可以掃描一百萬張圖片,輕鬆找出採用汞處理的植物。有著汞染色的樣本可以放到另一個特別的文件夾裡。」
史密森尼學會研究團隊從建立一套有染色及未染色的標本圖片訓練資料開始著手,並評估了約一千套神經網路,找出其中一套能以 90% 準確度來辨識染色標本的神經網路。
更進一步
這項成功鼓舞了研究團隊,決定研究他們的神經網路如何區分連訓練有素的眼睛看起來都相似無比的植物。他們建立了另一個資料集合,其中有著兩個難以區分之植物科別的一萬張圖片,在區分時的準確率達到了 96%。
史密森尼學會研究團隊跟哥斯達黎加理工大學的研究團隊一樣,也認為 GPU 能助他們的研究一臂之力。史密森尼學會的研究資料科學家 Rebecca Dikow 表示在整合了 CUDA 和 cuDNN 的 Wolfram Mathematica 上訓練神經網路,使用史密森尼學會運算叢集裡的兩個 NVIDIA Tesla GPU 加速器,較使用 CPU 省下了數百倍以上的時間。
「很多這類工作都涉及到重複運行許多不同參數、調整一些內容,再藉由另一個神經網路來運行它們。」Dikow 在描述運算需求時這麼說。
就跟 ITCR 與 Pl@ntNet 合作一樣,史密森尼學會研究團隊也將開展更大規模的合作,即與國家科學基金會資助的生物資料數位儲存庫 iDigBio 合作。Dikow 表示雙方聯手將為深度學習研究項目創造出最好的結果。
「每個進行這些研究的人都有著同樣感受。我們確實希望盡量創造出更健全的神經網路,未來各方肯定要攜手合作。」Dikow 說。