探索生命本源：AI模型讀取蛋白質，助力對抗COVID-19研究人員基於自然語言處理，進一步提升了新型生物學工具的準確性。

Ahmed Elnaggar 和 Michael Heinzinger 致力於幫助電腦輕鬆地讀取蛋白質，就像此刻你閱讀這句話一樣簡單。

他們將用於理解文本的最新 AI 模型應用於生物資訊領域。此舉有望加速生物體（例如冠狀病毒）表徵相關的研究工作進程。

他們的目標是在年底前建立一個網站。屆時，當研究人員在該網站輸入描述某種蛋白質的胺基酸序列後，幾秒鐘內即可獲取該蛋白質 3D 結構的詳情。這些訊息是了解如何用藥的關鍵。

當下，研究人員通常需要搜索資料庫獲取此類訊息。但隨著被定序蛋白質數量的增加，資料庫日益龐大。因此，採用這種方法搜索耗費的時間要比借助 AI 高出 100 倍之多，具體取決於蛋白質胺基酸序列的大小。

當遇到前所未見的特定蛋白質時，資料庫搜索便無法提供任何有用的結果，但 AI 卻可以。

計算生物學和生物資訊在讀博士生 Heinzinger 表示：“與 COVID-19 相關的 14 種蛋白質中，有 12 種與已知蛋白質相似。其餘兩種我們卻知之甚少。在這種情況下，借助於 AI 的方式就會大大派上用場。”

基於資料庫搜索的方式雖然很耗時，但其準確性比早期採用 AI 的方法高出了 7-8%。如今，採用最新的模型和資料集，可將與資料庫搜索方式間的準確性差距縮小一半，為日後 AI 的應用鋪平了道路。

AI模型和GPU助力深入探究生物學的奧秘

Heinzinger 表示：“在準確度方面， AI 演算法的改進速度非常快，讓我對消弭準確度的差距非常樂觀，同時，在資料集方面，計算生物學領域的增長比其他任何領域都要迅速，因此，我相信我們很快就會迎來新的突破。”

專注於遷移學習領域的 AI 專家 Elnaggar 博士表示：“這項工作在兩年前還是不可能完成的任務。如今，這些成果都要歸功於大量生物資訊資料、全新 AI 演算法、以及 NVIDIA GPU 的算力。”

Elnaggar 和 Heinzinger 都是慕尼黑工業大學Rostlab 實驗室的成員，該實驗室團隊引領了 AI 與生物學的跨學科研究。實驗室負責人 Burkhard Rost 於 1993 年撰寫了一篇具有開創性意義的論文，為研究指明了方向。

蛋白質讀取的語義學

背後的原理很簡單。蛋白質是生命的基本組成部分，由胺基酸序列構成。在讀取蛋白質時，需要按順序對胺基酸序列進行解讀，就像閱讀句子中的單詞一樣。

因此， Rost 等研究人員開始在研究中結合自然語言處理技術，以此了解蛋白質。但是，在九十年代，關於蛋白質的資料很少， AI 模型也遠不夠精細。

科技快速發展至今，已大不同於從前。

如今，定序變得更快速且成本更低，從而產生了海量資料集。同時，得益於現代 GPU ，在某些情況下，諸如 BERT 之類的高級 AI 模型能夠比人類更好地解讀語言。

AI模型複雜性增長6倍

AI 模型在自然語言處理方面的突破令人嘆為觀止。 18 個月前， Elnaggar 和 Heinzinger 發表了一份研究成果，研究中使用了一版包含 9,000 萬參數的循環神經網路模型。本月，他們又在研究中利用了具有 5.67 億參數的 Transformer 模型。

“Transformer 模型對算力的要求極高。因此，為了完成這項研究工作，我們在 Summit 超級電腦上使用了 5,616 個 GPU 。即便如此，部分模型的訓練也耗時兩日之久。” Elnaggar 表示。

而要在數千個 Summit 節點上運行模型，就更具挑戰。

Elnaggar 的這些經歷在超算領域不足為奇。他需要很有耐心，才能同步管理如此大規模的文件、儲存、通信、以及相關的開銷。他從小規模項目著手，基於幾個節點展開工作，一步步前行。

Elnaggar 表示：“好消息是，我們現在可以基於單一 GPU ，使用訓練後的模型，在實驗室中完成推理工作。”

預訓練AI模型現已面世

Elnaggar 和 Heinzinger 最新的論文於7 月發表。該論文描述了在各種工作任務下，應用幾種最新 AI 模型的優缺點。這項研究工作得到了COVID-19 高效能運算聯盟的資助。

他們還發布了首版預訓練模型。 Elnaggar 表示：“鑑於當下疫情，儘管項目仍在進展中，但我們覺得應儘早發布。”

Heinzinger 認為：“我們提出的方法有望改變蛋白質定序的方式。”

這項研究工作本身，可能並不能遏制冠狀病毒，但卻有望建立一個更高效率的全新研究平台，助力未來對抗病毒的工作。

跨學科合作

該專案也展現了科學領域兩條重要的經驗，即需要密切關注最新研究進展，並分享研究成果。

“正所謂擇善而從，適得其所。我們的研究進展正是得益於自然語言處理技術的進步。” Heinzinger 表示。

Elnaggar 對此也表示贊同：“正是通過跨學科合作，我們才能取得成功。”

主視覺顯示了經過訓練的語言模型，沒有標記的樣本會拾取DNA結合所需的蛋白質序列信號。