無限的資料,無限的可能性:UF Health 與 NVIDIA 攜手打造全球最大的臨床語言生成器

作者 NVIDIA

佛羅里達大學的學術健康中心 UF Health 與 NVIDIA 合作,開發一套能夠生成合成臨床資料的神經網路 – 研究人員將使用這項強大資源來訓練醫療領域的其他人工智慧模型。

使用累積十年、超過兩百萬名患者的資料進行訓練而產生出 SynGatorTron 語言模型,可以模仿它用來學習的病歷資料,建立合成的患者檔案。這個有著 50 億個參數的模型,是醫療領域最龐大的語言生成器。

研究助理副總裁暨 UF 臨床與轉化科學研究所主任 Duane Mitchell 博士說:「合成資料其實不會跟真實的人扯上關係,它又有著與真實患者相似的特徵。像是 SynGatorTron 可以創造出數位糖尿病患者的病歷,又有著跟真實患者一樣的特徵。」

研究人員利用這些合成資料,便能建立工具、模型和任務,又沒有風險或隱私方面的問題。然後可以將這些用於實際資料,以提出臨床問題、尋找關聯性,甚至探索患者的結果。

使用合成資料,也讓各研究機構之間更容易合作和分享模型。由於可以合成出幾乎無限多的資料,研究人員能夠使用 SynGatorTron 生成的資料來強化罕病患者或少數族裔人群的小型資料集,以減少模型的偏差。

使用開放原始碼型態的 NVIDIA Megatron-LMNeMo 框架開發出的 SynGatorTron,以 UF Health 去年在 NVIDIA GTC 大會上公布的  GatorTron 模型為基礎。這些模型在該校的 NVIDIA DGX SuperPOD 系統 HiPerGator-AI 上進行訓練,這套系統躋身全球前 30 名超級電腦之列

GatorTron-S 是一款使用 SynGatorTron 產生之合成資料進行訓練所得出的 BERT 式 Transformer 模型,將於下個月在 NGC software hub 提供給開發者使用。

SynGatorTron 能夠產生出強大的訓練資料

醫生或許覺得人工智慧生成的病歷乍看之下顯得不切實際 – 它不代表真正的患者,在專家眼中也沒有邏輯可言。臨床醫生無法從中直接分析或診斷。但對於未經訓練的人工智慧來說,真實和合成的臨床資料都是非常寶貴的。

NVIDIA 醫療人工智慧部門全球負責人 Mona Flores 博士表示:「SynGatorTron 生成資料的能力是推動醫學領域自然語言處理發展的一大助力。綜合各類臨床記錄,解決資料稀疏和隱私問題,將使得建立各種依賴此類資料之應用程式的能力大眾化。」

在開放取得之後,UF Health 以外的研究機構便能用其本地化的資料,微調預先訓練好的 SynGatorTron 模型,並將其用於人工智慧專案。如果特定疾病或患者群體在衛生系統的臨床資料中代表性不足,可以提示 SynGatorTron 另外生成具有該疾病或群體特徵的資料。

這些人工智慧生成的紀錄可以用來補充和平衡用於訓練其它神經網路的真實醫療資料集,以便更好地代表不同的群體特徵。

合成訓練資料集模仿真實病歷,不會跟特定患者扯上關係,也能更容易地分享給其他研究機構,沒有隱私方面的問題。

Mitchell 說:「有能力模仿群體特徵,又不會跟真實患者綁在一起時,我們就能更發揮想像力,看看自己是否能產生更貼近實際的資料集,以找出我們過去因為無法獲得資料,或是感興趣的患者資訊有限,而無法回答的答案。」

臨床試驗便是其中一個潛在的應用方式,臨床試驗通常將患者分為治療組和對照組,以衡量新藥的效果。從 SynGatorTron 生成的資料所衍生出的應用程式,可以解析真實紀錄與建立患者病歷的數位孿生。這些紀錄可以當成臨床試驗的對照組,而非將安慰劑提供給真正患者而得到的對照組。

開發深度學習模型來研究某種罕見疾病,或是研究某種治療方法對特定群體之影響性的研究人員,同樣能使用 SynGatorTron 來擴大資料規模,產生更多訓練資料以補充真實病歷稀缺的不足之處。

GTC 大會的醫療領域最新發展動態

免費報名參加 3 月 21 至 24 日於線上舉行的 GTC 大會,發現人工智慧與醫療領域的最新發展動態。在3月23日上午7點(太平洋時間)舉行的《A Next-Generation Clinical Language Model》議程中,聽聽看 SynGatorTron 的合作者發表了哪些寶貴意見。

敬請觀看以下的 NVIDIA 創辦人暨執行長黃仁勳的主題演講精彩重播: