一張照片勝過千種食材:人工智慧幫你端出感恩節大餐的美味食譜

作者 Jamie Beckett

你準備要為一大家子準備首場感恩節晚宴,得拿出讓眾人讚不絕口的美味餐點,將美食雜誌裡那些擺盤精美的圖片重現在餐桌上。

人工智慧或許能幫你的忙。

只要上傳一張讓人挑動味蕾的照片,麻省理工學院(MIT)的 Pic2Recipe 就會說明這道菜使用的食材和烹調方式(就算你不善料理,跟大家介紹這是人工智慧幫忙挑選的菜色,也會引發客人的討論,總比都是聊政治好多了)。

「不管是史上最美味的火雞還是蘋果派,只要拍張照片和上傳到我們的技術演示網頁就好。」Pic2Recipe 研究報告主要作者之一的 Nick Hynes 說。現於加州大學柏克萊分校攻讀博士學位的 Hynes,加入 MIT 電腦科學與人工智慧實驗室團隊進行這項研究。

該實驗室的 GPU 加速深度學習系統不是只用於享用火雞大餐的感恩節。這套系統內有從巧克力碎片司康餅到充滿起士香的烤箱薯條百萬筆以上的食譜,還有超過八十萬張的美食照片。研究團隊表示這是全球最大的公開使用食譜資料庫,愈多人上傳照片,資料量愈豐富(可在 PC 或 Android 手機上使用演示網頁,目前尚未開放 iPhone 手機使用)。

人工智慧幫你找到食譜

我想為自家感恩節大餐找份餐點,用在網路上看到的照片嘗試 Pic2Recipe 的能力,包括下方這張看起來令人垂涎三尺的甘薯砂鍋燉菜圖片。


Pic2Recipe 按照下方圖片提供這道甘薯砂鍋燉菜的操作步驟(圖片提供:Glory Foods)。

Pic2Recipe 建議了五份食譜,其中三份可以順利操作(Bourbon Sweet Potato Casserole、Pecan Sweet Potato Bake、Sweet Potato Bake),另外兩份則是讓人一頭霧水(Caramel-Coated Spiced Nuts 和 Streusel Pumpkin)。

不過 Pic2Recipe 的能力可不限於食譜,它能夠偵測餐點裡的食材,研究團隊想要藉此更深入瞭解人們的飲食習慣,著眼於讓人們吃的更健康。

想知道再來一片披薩會吃進多少熱量?只要拍張照片就好。Hynes 表示要是你自己下廚的話,或許最終能通過 Pic2Recipe 來找到減少熱量或增加蛋白質的替代物。

牛肉在哪裡?

Hynes 表示這些食譜同時也為電腦視覺技術領域提出了不小的難題。

電腦雖能學習辨識蕃茄醬,卻無法自動判斷是切片、切塊還是切碎的蕃茄,也「看」不到糖或鹽這些未現身的食材,或者義式千層麵裡夾的是肉或菠菜。如果上傳一張蛋糕照片,Pic2Recipe 可以推論裡面包含糖這項食材,不太可能是使用甜菊這項食材。

Pic2Recipe 裡有著豐富的餅乾或馬芬糕食譜,在辨識它們時能發揮長處。這套系統目前還在努力辨識模糊照片裡使用了哪些食材。

那或許解釋了下方玉米麵包鼠尾草內餡的圖片會產生出兩種餡料食譜(但裡面沒有玉米),還出現了奶香蔬菜和馬鈴薯菠菜焗烤的食譜。


Pic2Recipe 偶爾無法辨識圖片看不到的食材,像是這道餡料食譜裡的玉米麵包(圖片提供:Maggie Hoffman via Creative Commons)。

這項工具也無法理解某些字眼,像是無法自動明白「混合所有材料」或「烤到完成為止」的句子。

「你我都知道該怎麼做,我們是人類,對於這些操作方式都有經驗。可是所有深度學習模型只知道這是食譜,不明白該怎麼料理或調味。」Hynes 說。

整體而言,Pic2Recipe 在前五項搜尋結果裡提供正確食譜的精準度為 55%,在前十項搜尋結果裡的精準度上升到 65%,Hynes 表示期望在投入更多資料後,精準度會更高。

開發這套食譜搜尋引擎的方法

Pic2Recipe 的研究團隊蒐羅分析了二十多個廣受歡迎的食譜和美食照片網站,建立一套資料組,並使用 NVIDIA GeForce GTX TITAN X GPU 及 cuDNN,搭配 PyTorch 深度學習架構來訓練模型。

GPU 也協助 Hynes 的深度學習模型進行推論作業。

「不用重新包裝一次在 CPU 上運作,可以非常輕鬆部署這套模型。GPU 讓我們的演示網頁有著極高的反應表現。」他說。

使用人工智慧來規畫一場美味晚宴

研究團隊希望未來能增進系統的辨識能力,以求更深入瞭解料理。這包括如何準備魚料理(像是燉或煨魚),或者是同一食材的不同變化方式,例如香芹義大利麵醬和蘑菇洋蔥義大利麵醬。

研究團隊或許日後也會將這套系統打造成「晚餐助手」,按照飲食喜好和冰箱裡的現有食材來推薦料理。

「飲食怎麼影響著人們的健康,我們想在這方面獲得新的看法。」Hynes 說。

如需更多資訊,請見 MIT 電腦科學與人工智慧實驗室(CSAIL)與卡達運算研究機構(Qatar Computing Research Institute)共同進行的《Learning Cross-modal Embeddings for Cooking Recipes and Food Images》研究報告。在加泰羅尼亞理工大學攻讀博士學位的 Amaia Salvador Hynes 同為這篇報告的作者。