NVIDIA 將大型語言模型擴大用於生物學領域

各大製藥公司、生技新創公司與具創新精神的生物研究人員,利用 NVIDIA BioNeMo LLM 服務和框架開發人工智慧應用程式,以產生、預測和理解生物分子資料
作者 NVIDIA

科學家們在探索有關 DNA、蛋白質及其他生命組成部分的新洞察之際,今日在 NVIDIA GTC 大會上宣布推出的 NVIDIA BioNeMo 框架將助他們一臂之力,加速推動研究進度。

NVIDIA BioNeMo 框架用於以超級運算的規模訓練和部署大型生物分子語言模型,協助科學家們更深入認識疾病及找出治療患者的方法。這個大型語言模型(LLM)框架將支援化學、蛋白質、DNA 和 RNA 資料格式。

它是 NVIDIA Clara Discovery 系列的一員,這個系列集合了用於藥物發現的框架、應用程式和人工智慧模型。

正如同人工智慧透過 LLM 學習理解人類語言,NVIDIA BioNeMo 框架也在學習生物學和化學的語言。NVIDIA BioNeMo 框架讓用戶可以更輕鬆地使用生物分子資料來訓練大規模神經網路, 幫助研究人員在生物序列中發現新的模式和洞察,而研究人員可以將這些洞察與生物特性或功能,甚至是人類的健康狀況連結起來。

NVIDIA BioNeMo 框架讓科學家能夠利用更大的資料集來訓練大型語言模型,打造出效能更佳的神經網路。將透過 GPU 最佳化軟體中心 NVIDIA GPU Cloud 提供搶先試用服務

除了語言模型框架,NVIDIA BioNeMo 另有一個雲端 API 服務,將支援不斷增加的預先訓練人工智慧模型。

BioNeMo 框架支援更大的模型、提供更佳的預測結果

目前使用自然語言處理模型來處理生物資料的科學家,常常需要訓練相對較小的神經網路,而此舉需要進行自訂預先處理的內容。而科學家們在採用 BioNeMo 之後,便能使用有著數十億個參數的 LLM,這些參數可以取得與分子結構、蛋白質溶解度有關的資訊。

BioNeMo 是 NVIDIA NeMo Megatron 框架的一個延伸項目,用於在 GPU 上加速訓練大規模的自監督式語言模型。BioNeMo 框架用於特定領域,支援以 SMILES 符號表示化學結構的分子資料,以及以 FASTA 序列字串表示氨基酸及核酸的分子資料。

OpenFold 聯盟創始成員、哥倫比亞大學系統生物學系助理教授 Mohammed AlQuraishi 表示:「BioNeMo 框架讓醫療與生命科學產業裡的所有研究人員,可以善加利用他們手邊快速增長的生物和化學資料集,這麼一來便能更易於發現及設計精準針對疾病分子特徵的治療方法。」

BioNeMo 服務提供用於化學及生物學的 LLM

NVIDIA BioNeMo LLM 服務將提供四個預先訓練好的語言模型,讓開發者可以快一點把 LLM 用在數位生物學和化學領域。這些模型針對推論進行了最佳化,並將透過在 NVIDIA DGX Foundry 上運行的雲端 API,提供搶先試用服務。

  • ESM-1:這個最初由 Meta AI 實驗室發布的蛋白質 LLM,處理氨基酸序列以產生可用於預測多種蛋白質特性和功能的表徵。它還讓科學家更能深入理解蛋白質結構。
  • OpenFold:打造最先進蛋白質建模工具的公私立組織聯盟,將通過 BioNeMo 服務提供其開放原始碼的人工智慧管道。
  • MegaMolBART:使用14億個分子資料所訓練出的這個生成化學模型,可用於預測反應、最佳化分子及從頭產生分子。
  • ProtT5:由慕尼黑工業大學 RostLab 率領與 NVIDIA 等單位合作開發出的這個模型,將序列生成加入 ESM-1b 等蛋白質 LLM。

使用 BioNeMo LLM 服務的研究人員日後只要幾個小時,便能通過微調和使用 p-tuning 這一類新技術自訂 LLM 模型,以提高其應用程式的準確性。p-tuning 是一種訓練方法,它的資料集只要使用數百個樣本,無需用上數百萬個樣本。

新創公司、研究人員與製藥公司採用 NVIDIA BioNeMo

一批生物技術和製藥專家採用 NVIDIA BioNeMo 來進行藥物發現研究。

  • AstraZeneca 與 NVIDIA 利用 Cambridge-1 超級電腦開發 BioNeMo LLM 服務中的 MegaMolBART 模型。這家生物製藥公司將利用 BioNeMo 框架,幫助使用小分子、蛋白質,還有即將加入的 DNA 資料集來訓練一些全球最大的語言模型。
  • 麻省理工學院與哈佛大學攜手成立的 Broad Institute,其研究人員與 NVIDIA 合作利用 BioNeMo 框架開發下一代 DNA 語言模型。這些模型將納入由 Broad Institute、微軟及 Verily 共同開發的 Terra 雲端平台,生物醫學研究人員便能夠大規模安全地分享、取得與分析資料。這些人工智慧模型也將加入 BioNeMo 服務的集合中。
  • OpenFold 聯盟計畫使用 BioNeMo 框架來推動發展人工智慧模型,這些模型可以從氨基酸序列中預測分子結構,準確性接近實驗水準。
  • Peptone 專注於為缺乏穩定立體結構的無穩定構型蛋白質建立模型。Peptone 與 NVIDIA 合作使用 NeMo 框架開發 ESM 模型的版本,BioNeMo 也是基於這個框架。該項目預定在 NVIDIA 的 Cambridge-1 超級電腦上運行,將推動 Peptone 的藥物發現研究工作。
  • 位於芝加哥的 Evozyne 生技公司結合工程設計與深度學習技術設計新型蛋白質,以解決一直以來在治療與永續發展方面的難題。

Evozyne 聯合創辦人暨運算部門主管 Andrew Ferguson 表示:「BioNeMo 框架這種技術讓我們能夠在設計-建造-測試週期內高效發揮 LLM 的實力,利用資料來設計蛋白質。這將對我們設計新型功能蛋白質產生直接影響,可用於人類健康和永續發展方面。」

參與 NVIDIA Inception 計畫之生技新創公司 Peptone 的機器學習部門主管 Istvan Redl 表示:「在蛋白質領域內應用大型語言模型的程度日漸廣泛,能夠高效訓練 LLM 及快速調整模型架構變得極為重要。我們認為 BioNeMo 框架可以提供擴充性和快速實驗這兩項工程設計要素。。」

歡迎報名搶先試用 NVIDIA BioNeMo LLM 服務或 BioNeMo 框架。請向 NVIDIA LaunchPad 申請免費實驗室請向 NVIDIA LaunchPad 申請免費訓練和部署  LLM 的實驗室,便能在 BioNeMo 中實際體驗 MegaMolBART 化學模型。

在線上 GTC 大會發現人工智慧與醫療領域最新的研究成果,GTC 大會將進行至 9 月 22 日週四。免費報名

敬請觀看下方 NVIDIA 創辦人暨執行長黃仁勳精彩的 GTC 大會主題演講: