BERT 進軍歐洲：人工智慧語言模型學習德語及瑞典語

利用 NVIDIA GPU 來調校文字處理技術。

BERT 進軍歐洲，在 NVIDIA 的產品及合作夥伴的協助下，執行多個產業與語言的自然語言處理相關作業。

BERT 人工智慧神經網路模型的正式名稱為 Bidirectional Encoder Representations from Transformers，是去年剛發表的最先進文字處理機器學習法。開發人員表示 BERT 雖是一款新技術，卻早就用在歐洲的航空電子設備、金融、半導體及電信領域，而開發人員現正針對德語和瑞典語在優化 BERT 模型。

「文字是企業最常擁有的資料類型之一，這使得 BERT 有著許多用途。」瑞典新創公司 Peltarion 的研究部門主管 Anders Arpteg 說，這間位於斯德哥爾摩的開發公司有著遠大的目標，即降低 BERT 這類最新的人工智慧技術的成本，讓企業更容易接受使用。

自然語言處理將超過當今人工智慧在電腦視覺領域的表現，原因在於「比起影像，文字可以用在更多應用程式上，我們正是基於這個假設而成立了公司。」位於柏林之新創公司 deepset 的執行長 Milos Rusic 說。他稱 BERT 是「一項革命，我們押寶在這個里程碑上。」

deepset 與資誠會計師事務所（PricewaterhouseCoopers）合作開發一套系統，利用 BERT 來協助晶片製造商 Infineon 的策略制定人員查詢成堆的年報和市場資料，以獲得其中深藏的重要見解。在另一案中，某製造商使用自然語言處理技術來搜尋技術文件，以加快產品保養速度與預測所需的維修活動。

NVIDIA Inception 計畫成員之一的 Peltarion，十一月時在其工具中加入對 BERT 的支援。該公司早就使用自然語言處理技術，來協助某大型電信公司自動執行部分回應產品及服務請求的流程，還利用這項技術讓某大型市研機構更容易地查詢其問卷資料庫。NVIDIA Inception 計畫提供技術給新創公司，並且協助其加入商業生態體系，以輔助新創公司成長。

用於語言本地化

Peltarion 現與其它三個組織合作，進行一個由政府支持的三年期專案，以針對瑞典語來優化 BERT。有趣的是，Facebook 所提出的 XLM-R 模型指出，同時針對多個語言來訓練 BERT 模型，說不定會比只針對單一語言來進行訓練會更為有效。

「在我們的初步結果中，Facebook 一次用一百種語言來訓練的 XLM-R，表現顯著勝過針對瑞典語來訓練的 BERT 基本版本。」Arpteg 說，他的團隊正在為這項分析結果製作報告。

儘管如此，三年前曾在音樂串流平台 Spotify 帶領一支人工智慧研究團隊，後來才加入 Peltarion 的 Arpteg 說，研究小組希望在夏天前能夠開發出首個表現良好的瑞典語 BERT 模型版本。

deepset 針對其德語 BERT 模型的分析結果。

deepset 六月時以開放源碼的型態，發表了一個針對德語進行優化的 BERT 模型版本。這個版本的表現只比原始模型高出幾個百分點，但在德國進行的年度 NLP 競賽中，倒是有兩支獲勝隊伍使用了 deepset 的模型。

工欲善其事，必先利其器

Arpteg 說針對文字分類、問題回答及情感分析等特定作業進行優化，也能對 BERT 模型帶來益處。Peltarion 的研究小組打算在 2020 年公布他們使用自己在醫學和法律等領域的字彙，調校 BERT 模型所獲益的分析結果。

deepset 為了問答這項極具策略意義的任務，運用自家的 FARM 遷移學習框架開發出 Haystack 這個版本，以處理這項工作。

Peltarion 與 deepset 在硬體方面皆使用最新的 NVIDIA GPU 來訓練大型自然語言處理模型。這一點都不奇怪，NVIDIA 在近期打破了降低 BERT 模型訓練時間的紀錄。

Arpteg 說：「BERT 模型基本版本有著一億個參數，XML-R 有 2.7 億個參數。」他的團隊最近購買了搭載 NVIDIA Quadro、TITAN GPU 及 48GB 記憶體的系統。該公司還使用了 NVIDIA DGX-1 伺服器，因為「我們需要這些超高速系統，才能從頭開始訓練語言模型。」

Rusic 說記憶體愈多愈好，他的德語 BERT 模型大小有 400MB。deepset 使用雲端環境的 NVIDIA V100 Tensor Core 100 GPU ，在本地端使用另一個 NVIDIA GPU。