我這句話在說些什麼?GPU 幫助研究人員破譯古梵語

作者 Isha Salian

十種動詞時態、八種名詞格、三種語法性別,還極為喜愛使用複合詞,光是要教人類學習梵語就一個頭兩個大了,更何況是要教人工智慧模型。

不過印度學家 Oliver Hellwig 接下了這個挑戰,訓練能夠分析四千年前古梵文文字的深度學習模型。一個逐字逐句解析的梵文作品數位文獻庫,讓研究人員更輕鬆地搜尋資訊,更佳地辨識有著相似上下文的段落。

現已有將人工智慧用來解讀德文和義大利文的歷史文件,還有日本古典文學,然而多數現有的自然語言處理模型都是偏向西方語言,這些語言遵循相似的語法、標點符號和格式規則。

對於開發人員來說,想要開發一套能轉錄和分析梵文類的軟體這可是一大難題。

因為梵文不像西方語言,它是從右到左閱讀的象形文字,不是語音文字,通常也不會在單字間使用字元間隔的文字,

與英語不同,梵語是一種變化極為複雜的語言,單字會因為在句子中的作用而改變形態。部分梵語動詞根據上下文,有超過兩百種形態變化;梵文又有著大量詞彙,光是表示「太陽」或「月亮」就有超過五十個單字,這使得研究員必須投入一個有著大量多元文字的資料集來訓練人工智慧模型。

身為瑞士蘇黎世大學博士後研究員的 Hellwig,十五年前便知道可以利用計算工具,為他的語言學研究開創出新的可能性,卻發現只有極少部分的梵文手稿已完成數位化,成為機器可讀的文字。

從那時之後,他每天幾乎花上半個小時,一點一滴地改變這種狀況,煞費苦心地解析梵文作品,然後把它們加入一個現有450萬個手工標記的單字資料庫內。

Hellwig 從頭開始打造梵語解析工具,先是統計模型,再發展到更複雜的光學字元辨識和自然語言處理模型。他現在使用 NVIDIA Quadro GPU 來訓練可以辨識梵文文件字元,以及找到單字結尾的深度學習模型。

轉錄梵文的人工智慧工具,有助於將大量歷史手稿進行數位化,其中包括史詩、宗教文件和阿育吠陀醫學。

對梵文進行切割

在訓練一個人工智慧模型來辨識使用拉丁字母的文字時,研究人員可以教神經網路偵測空白處,以判斷一個單字在哪裡結束,另一個單字又從哪裡開始。

對於梵文手稿,這一招並不管用。在梵文手稿中,一行文字可以由多個單字合併成一兩個複合字串。「sandhi」這個字的意思是「連接」,用以描述把這些字合併在一起的語音過程。

一個有效的梵語文字自然語言處理模型,必須能夠將串連起來的一行字,分割成各自獨立的單字,這對研究人員來說是一大挑戰。

「任何演算法都要在一定程度上理解一行字的語義,才能有效對這行字進行分割,取得每個獨立的單字。這在英語裡是稀鬆平常的事情,對梵語來說卻是最傷腦筋的問題。」Hellwig 說。

Hellwig 開發出用以將一行行的梵語分割為獨立單字的深度學習工具,其準確度較舊有方法提高了 10% 到 15%。

他說:「我很驚訝它的表現居然這麼好,這不是一項簡單的工作,對使用這些文字原始形態的人類讀者來說,也是一大挑戰。」

Hellwig 使用 NVIDIA GPU 將訓練人工智慧模型的速度提高了十倍。這種速度讓他能夠更快地評估錯誤,有效地開發更精確的模型。他的梵文連字分割工具,如今被用在一個名為 GRETIL 的大型梵文語料庫上。

許多歷史學家都在爭論梵文重要文件的年代,尤其是像《薄伽梵歌》這樣的宗教作品。Hellwig 希望把神經網路和 NVIDIA GPU 用在分析古梵語文字的語法結構和語言模式,以求促成此一學術對話。

Hellwig 希望將這項語言學證據與梵語長期變化的模型串連起來,以判斷這些重要文件的創作時間。

主圖是《摩訶婆羅多》手稿的其中一頁。《摩訶婆羅多》是一首擁有十萬個詩節的梵文史詩,現已為印度教經典的《薄伽梵歌》便是其中的一章。圖片由邁阿密大學圖書館數位典藏提供,取得可用於公共領域的授權。