NVIDIA 將大型語言模型擴大用於生物學領域

科學家們在探索有關 DNA、蛋白質及其他生命組成部分的新洞察之際，今日在 NVIDIA GTC 大會上宣布推出的 NVIDIA BioNeMo 框架將助他們一臂之力，加速推動研究進度。

NVIDIA BioNeMo 框架用於以超級運算的規模訓練和部署大型生物分子語言模型，協助科學家們更深入認識疾病及找出治療患者的方法。這個大型語言模型（LLM）框架將支援化學、蛋白質、DNA 和 RNA 資料格式。

它是 NVIDIA Clara Discovery 系列的一員，這個系列集合了用於藥物發現的框架、應用程式和人工智慧模型。

正如同人工智慧透過 LLM 學習理解人類語言，NVIDIA BioNeMo 框架也在學習生物學和化學的語言。NVIDIA BioNeMo 框架讓用戶可以更輕鬆地使用生物分子資料來訓練大規模神經網路，幫助研究人員在生物序列中發現新的模式和洞察，而研究人員可以將這些洞察與生物特性或功能，甚至是人類的健康狀況連結起來。

NVIDIA BioNeMo 框架讓科學家能夠利用更大的資料集來訓練大型語言模型，打造出效能更佳的神經網路。將透過 GPU 最佳化軟體中心 NVIDIA GPU Cloud 提供搶先試用服務。

除了語言模型框架，NVIDIA BioNeMo 另有一個雲端 API 服務，將支援不斷增加的預先訓練人工智慧模型。

BioNeMo 框架支援更大的模型、提供更佳的預測結果

目前使用自然語言處理模型來處理生物資料的科學家，常常需要訓練相對較小的神經網路，而此舉需要進行自訂預先處理的內容。而科學家們在採用 BioNeMo 之後，便能使用有著數十億個參數的 LLM，這些參數可以取得與分子結構、蛋白質溶解度有關的資訊。

BioNeMo 是 NVIDIA NeMo Megatron 框架的一個延伸項目，用於在 GPU 上加速訓練大規模的自監督式語言模型。BioNeMo 框架用於特定領域，支援以 SMILES 符號表示化學結構的分子資料，以及以 FASTA 序列字串表示氨基酸及核酸的分子資料。

OpenFold 聯盟創始成員、哥倫比亞大學系統生物學系助理教授 Mohammed AlQuraishi 表示：「BioNeMo 框架讓醫療與生命科學產業裡的所有研究人員，可以善加利用他們手邊快速增長的生物和化學資料集，這麼一來便能更易於發現及設計精準針對疾病分子特徵的治療方法。」

BioNeMo 服務提供用於化學及生物學的 LLM

NVIDIA BioNeMo LLM 服務將提供四個預先訓練好的語言模型，讓開發者可以快一點把 LLM 用在數位生物學和化學領域。這些模型針對推論進行了最佳化，並將透過在 NVIDIA DGX Foundry 上運行的雲端 API，提供搶先試用服務。

ESM-1：這個最初由 Meta AI 實驗室發布的蛋白質 LLM，處理氨基酸序列以產生可用於預測多種蛋白質特性和功能的表徵。它還讓科學家更能深入理解蛋白質結構。
OpenFold：打造最先進蛋白質建模工具的公私立組織聯盟，將通過 BioNeMo 服務提供其開放原始碼的人工智慧管道。
MegaMolBART：使用14億個分子資料所訓練出的這個生成化學模型，可用於預測反應、最佳化分子及從頭產生分子。
ProtT5：由慕尼黑工業大學 RostLab 率領與 NVIDIA 等單位合作開發出的這個模型，將序列生成加入 ESM-1b 等蛋白質 LLM。

使用 BioNeMo LLM 服務的研究人員日後只要幾個小時，便能通過微調和使用 p-tuning 這一類新技術自訂 LLM 模型，以提高其應用程式的準確性。p-tuning 是一種訓練方法，它的資料集只要使用數百個樣本，無需用上數百萬個樣本。

新創公司、研究人員與製藥公司採用 NVIDIA BioNeMo

一批生物技術和製藥專家採用 NVIDIA BioNeMo 來進行藥物發現研究。

AstraZeneca 與 NVIDIA 利用 Cambridge-1 超級電腦開發 BioNeMo LLM 服務中的 MegaMolBART 模型。這家生物製藥公司將利用 BioNeMo 框架，幫助使用小分子、蛋白質，還有即將加入的 DNA 資料集來訓練一些全球最大的語言模型。
麻省理工學院與哈佛大學攜手成立的 Broad Institute，其研究人員與 NVIDIA 合作利用 BioNeMo 框架開發下一代 DNA 語言模型。這些模型將納入由 Broad Institute、微軟及 Verily 共同開發的 Terra 雲端平台，生物醫學研究人員便能夠大規模安全地分享、取得與分析資料。這些人工智慧模型也將加入 BioNeMo 服務的集合中。
OpenFold 聯盟計畫使用 BioNeMo 框架來推動發展人工智慧模型，這些模型可以從氨基酸序列中預測分子結構，準確性接近實驗水準。
Peptone 專注於為缺乏穩定立體結構的無穩定構型蛋白質建立模型。Peptone 與 NVIDIA 合作使用 NeMo 框架開發 ESM 模型的版本，BioNeMo 也是基於這個框架。該項目預定在 NVIDIA 的 Cambridge-1 超級電腦上運行，將推動 Peptone 的藥物發現研究工作。
位於芝加哥的 Evozyne 生技公司結合工程設計與深度學習技術設計新型蛋白質，以解決一直以來在治療與永續發展方面的難題。

Evozyne 聯合創辦人暨運算部門主管 Andrew Ferguson 表示：「BioNeMo 框架這種技術讓我們能夠在設計-建造-測試週期內高效發揮 LLM 的實力，利用資料來設計蛋白質。這將對我們設計新型功能蛋白質產生直接影響，可用於人類健康和永續發展方面。」

參與 NVIDIA Inception 計畫之生技新創公司 Peptone 的機器學習部門主管 Istvan Redl 表示：「在蛋白質領域內應用大型語言模型的程度日漸廣泛，能夠高效訓練 LLM 及快速調整模型架構變得極為重要。我們認為 BioNeMo 框架可以提供擴充性和快速實驗這兩項工程設計要素。。」

歡迎報名搶先試用 NVIDIA BioNeMo LLM 服務或 BioNeMo 框架。請向 NVIDIA LaunchPad 申請免費實驗室請向 NVIDIA LaunchPad 申請免費訓練和部署 LLM 的實驗室，便能在 BioNeMo 中實際體驗 MegaMolBART 化學模型。

在線上 GTC 大會發現人工智慧與醫療領域最新的研究成果，GTC 大會將進行至 9 月 22 日週四。免費報名。

敬請觀看下方 NVIDIA 創辦人暨執行長黃仁勳精彩的 GTC 大會主題演講：