用新技術解開古老文字之謎:深度學習如何解讀歷史文獻

作者 Isha Salian

深度學習研究人員嘔心瀝血地鑽研著史籍。

他們開發出人工智慧工具,逐字抄錄出有著數百年歷史之古老書冊裡的文字,為史籍研究人員創造出寶貴資源。

過去已藉由掃描或攝影的方式,將許多實體頁面上的古老文字進行數位化,專家們雖能閱讀希臘文裡那些草寫的小字,或是德文角尖體(Fraktur)那些古老的文字,廣大使用者卻不易閱讀那些掃描後得出的文字,電腦也無法搜尋它們。

僱用抄錄員將那些手寫文件變成電腦打字的文字,得花上不少時間和費用,開發人員為此開發出數位光學字元辨識工具,將印刷或手寫字元變成機器可判讀的形式。

深度學習大幅提升了這些工具的準確性。

人文科學的研究人員可以使用這些人工智慧解析出的文字,搜尋書裡的特定關鍵字、明白不同時期的流行語變化情況、分析語言的演變,或是通過人口普查和商業紀錄追蹤個人背景。

這項研究的另一個優點:若想測試深度學習神經網路辨識物體的能力,文字的影像是最適合的對象,原因在於跟辨識動物影像或街道場景裡各種元素不同,在判斷印刷文字是「c」或「o」時,只有一個正確答案。

「要是把一張狗狗的圖片給你的深度學習模型看,不確定會得到哪個正確答案,可能是『狗』、『動物』或是『短毛柯基犬』。而對於印刷文字,則一定會有明確的答案,我們會知道當中的對錯。」NVIDIA 研究員 Thomas Breuel 說。

看法一致

Breuel 從2004年開始便帶領第一支研究小組,使用遞歸神經網路類型的其中一種,即長短期記憶(LSTMs)神經網路來分析史籍。

「這在辨識率和錯誤率方面達到突破性進展。」當時是德國凱撒斯勞滕工業大學(University of Kaiserslautern)教授的 Breuel 說。

Breuel 說德國是古騰堡印刷機的誕生地,自然是研究史籍資料的理想地點。發明印刷機一事促使印刷機在文藝復興時期廣泛傳到歐洲各地。


從十六世紀到二十世紀初,在德國及受德國影響的國家廣泛
使用德文角尖體這種鉛字字體,上圖所示的是1885年出版的安
徒生丹麥文童話故事《養豬王子》(The Swineherd)
(圖片來自 Wikimedia Commons,取得公眾領域授權)

從十六世紀到二十世紀初的許多德文印刷書籍,都是使用德文角尖體這種藝術鉛字字體(如右圖所示)所印刷的。「人們現在無法再閱讀這種書寫體鉛字。」Breuel 說。

他的團隊在2007年開發出名為 OCRopus 的開放源碼系統(「OCR」為 optical character recognition 的縮寫,指光學字元辨識技術),以數位方式對使用德文角尖體的書籍進行抄錄。

Breuel 在 GitHub 上發布了這套軟體的最新版本 ocropus3。在抄錄拉丁文的書籍時,錯誤率僅為 0.1%。使用其它語言及書寫體鉛字來訓練神經網路後,研究人員將 OCRopus 用於辨識拉丁文、希臘文及梵文古籍。

另一名德國研究員 Uwe Springmann 發現 OCRopus 改變了他使用數位科技來研究人文學科的方式,他使用OCRopus 來辨識十五到十八世紀拉丁文和德文印刷品,字元辨識正確率從 85% 上升到 98%。

「這不只是漸進式的進步,而是向前跨出了一大步。」他說。

Springmann 與他經常合作撰寫報告的 Christian Reul,現在使用 NVIDIA GPU 及 Calamari 這套結合 LSTM 和卷積神經網路的開放源碼深度學習 OCR 引擎,。

維爾茨堡大學(University of Würzburg)語言學與數位中心數位化部門的代理主任 Reul 表示,使用 GPU 可以將訓練和推論速度提高十倍。

印刷書頁

歷史學家多年前把數百萬頁的書面內容進行數位化,變成掃描影像,「但就是無法抄錄其中的所有內容。」瑞典呂勒奧理工大學(Luleå University of Technology)機器學習教授 Marcus Liwicki 說。

藉由深度學習 OCR 工具,對特定政治人物感興趣的學者現在可以查詢機器可讀版本的史籍內容,找到提及該人物的各項內容。


在十四世紀早期結合聖詠經與時禱書的手稿劄記裡,
可以見到這種描述猿類決鬥的內容 (照片來自
Flickr,取得公眾領域授權)

許多文件上不只有印刷文字,還有藝術品、劄記或浮水印。Liwicki 打造深度學習工具來分析史籍上的這些特徵。

「GPU 改寫了以數位化方式進行人文學科研究的整個過程。」他說。

他手中名為 HisDoc 的專案使用神經網路來辨識文件裡更進階的特徵,像是出版時間和使用的字體,還有分析各頁面以判斷哪些地方有文字、哪些地方有圖片。

Liwicki 使用一組 NVIDIA GPU 叢集和有著八萬個浮水印的資料庫來訓練一套神經網路,學者們對於有著相同浮水印的文件感到興趣,暗示著是在同一地區和時間內製作出這些文件。

除了印刷文件以外

過去不只是使用印刷機來製作古籍,許多學者感興趣的著作還是以手寫方式製成,使得要以機器來讀取它們變得更為困難,像是作者常使用縮寫、每頁裡的筆跡都有所差異,手寫字不像印刷的文字一樣維持著完美的水平。

神經網路在這方面也派上了用場。

義大利羅馬第三大學的研究員 Paolo Merialdo、Donatella Firmani 與 Elena Nieddu,使用深度學習技術來抄錄梵蒂岡機密檔案館裡十二世紀的教宗書信。梵蒂岡機密檔案館是全球規模最大的史籍典藏機構。

他們使用 NVIDIA Quadro GPU 和卷積神經網路開發了一套系統,辨識手寫字元的準確率達 96%,還能按照拉丁語模型判斷每個字最有可能的抄錄結果。

烏克蘭基輔理工學院(Igor Sikorsky Kyiv Polytechnic Institute)的研究生則是更進一步,開發出一套神經網路來解釋基輔聖索菲亞大教堂石牆上刻的中世紀塗鴉作品。

報告的共同作者 Yuri Gordienko 表示學術界對於該如何解讀碑文,一直有著爭論,而在 NVIDIA GPU 的輔助下,該團隊的深度學習模型在辨識個別字元方面的正確率達到 99%。

文件分析是一個蓬勃發展的研究領域,在專屬會議與 CVPR 及 NeurIPS 等大型電腦視覺和機器學習會議上,皆有提出相關研究成果。