運用人工智慧加上標籤:新創公司協助為醫療保健訓練資料加入註釋

作者 Isha Salian

深度學習應用程式需要用到大量資料,要是開發人員把更多已經加上標籤的優質資料投入人工智慧模型,這個模型推論出的內容也就更準確。

NVIDIA Inception 虛擬加速器計畫成員 TrainingData.io 的執行長 Gaurav Gupta 卻表示,資料科學家與開發人員在開發機器學習模型的過程中,最大的難題便是建立完善的資料集。

這間新創公司建立了一個網路平台,出手幫助研究人員與企業執行其資料標記工作流程,並且使用有著人工智慧輔助的分割工具來提高訓練資料集的品質。

Gupta 說:「準確的標籤才能讓人工智慧模型更快進行學習,而且更快達到更高的準確度。」

TrainingData.io 的網路介面在 Google Cloud 環境的 NVIDIA T4 GPU 上進行推論作業,協助一個醫療放射領域的客戶將為資料集加入標籤的速度提高了十倍,也把錯誤加上標籤的比率降低了 15% 以上。

魔鬼藏在細節裡

資料的品質愈高,也就代表使用較少的資料,便能獲得更精準的結果。Gupta 說投入一百萬個低精度標籤影像來訓練一個機器學習模型所獲得的結果,假使是使用高精度標籤的影像資料,只要十萬個影像就能獲得相同結果。

第一次就要對資料加上正確的標籤,其實是件很棘手的事。許多開發者把為資料加上標籤的事外包給其它公司或眾包工人,可能得等上數週的時間才能取回已經加好註釋的資料集,而且標籤的品質通常很差。

我們用街道上一輛車粗略加上註釋的影像為例來說明,這輛車的四周或許有著一個分割多邊形,其中也包括部分路面,或者是沒有一直延伸到車頂。由於神經網路會按照每個像素來解析影像,每個錯誤加上標籤的像素都會降低模型的精度。

對於訓練一個最終將與現實環境中的人事物進行互動的神經網路來說,像是使用腦部 MRI 掃描影像來辨識腫瘤,或是操控一輛自動駕駛車,無法接受這般的誤差。

開發人員可以使用 TrainingData.io 的網路介面來管理其資料標記作業,管理員可以將影像加入標籤的工作交給註釋器、查看個別資料標記器的效能指標,以及查看實際的影像註釋內容。

使用人工智慧來訓練更高水準的人工智慧

一名資料科學家首度運行一個機器學習模型時,準確率或許只有 60%,接著開發人員反覆操作多次,每次都加入新的訓練資料,以提高神經網路的效能表現。

TrainingData.io 幫助各行各業的人工智慧開發人員利用其早期的機器學習模型,為日後版本的神經網路簡化替新的訓練資料加入標籤的過程,這個過程稱為主動學習。

透過這個技術,開發人員的早期機器學習模型便能在為下一組訓練資料加入註釋內容之際,採用第一遍的方法。註釋器無需從頭開始,只要仔細檢查和調整人工智慧生成的標籤,進而節省寶貴的時間和資源。

針對多個業界的資料標籤工作,這間新創公司提供主動學習技術,在為醫療資料加上標籤的工作方面,TrainingData.io 的平台加入了 NVIDIA Clara Train SDK,允許客戶使用軟體工具包,在有人工智慧輔助的情況下,對醫療資料集進行切割。

選擇你個人的註釋冒險

TrainingData.io 選擇將其平台部署在雲端環境的 GPU 上,以便隨著客戶需求輕鬆調整使用量。使用該工具的研究人員與企業可以選擇使用網路介面、連接到雲端環境的後端,還是使用在自己本地 GPU 系統上運行的容器化應用程式。

Gupta 說:「醫療保健領域的人工智慧團隊必須保護患者的個資,有時候他們得在私人網路的安全保障範圍內,管理資料註釋的作業流程和訓練機器學習模型。我們為此提供 Docker 影像來支援客戶在他們本地端對自己的資料集進行註釋作業。」

在瑞士協助放射科醫生建立深度學習模型的新創公司 Balzano,正是使用 TrainingData.io 平台的客戶,而他們的作法是讓這個平台連接到公司內部搭載 NVIDIA V100 Tensor Core GPU 的伺服器。該公司為了開發肌肉骨骼矯形人工智慧工具的訓練資料集,每個月都要替數百張放射影像加上標籤。Balzano 在採用 TrainingData.io 平台之後,與從頭開始打造相似解決方案所需的時間相比,為他們省下了約一年的工程設計工作量。

「TrainingData.io 的功能讓我們能夠更有效率地對膝蓋和軟骨的解剖特徵加上註釋及進行分割。隨著我們加快進行和加大註釋作業的範圍,這個平台使得我們可以善加使用人工智慧的能力,確保分割後能獲得優質影像。」Balzano 營運長暨產品經理 Stefan Voser 說,而 Balzano 同為 Inception 計畫的成員。

在12月1至6日於芝加哥舉行的北美放射學會年會中,Balzano 與 TrainingData.io 將雙雙藉由 NVIDIA 的展位(編號#10939號)向各界介紹該公司的最新力作。