你需要的就在這裡:來自推薦系統團隊的致勝策略建議

作者 NVIDIA

最後全力一搏取得三連勝。

NVIDIA 團隊在今年參加的第三場、也是最困難的推薦系統資料科學競賽中,於截止期限的前五分鐘提交了作品。這項技術被稱為 RecSys,是電腦科學領域中相對較新的分支,催生了機器學習中最廣泛使用的應用之一,幫助數百萬人找到他們想觀看、購買和遊玩的內容。

團隊將六款人工智慧模型擠進競賽規定的 20GB 限制內,全都是從研究了 7.5 億個資料點中篩選出來的結晶。競賽中有一項特別的規定:模型在雲端 CPU 的單一核心上不得執行超過 24 小時。

他們按下提交按鈕後,開始耐心等待。23 小時 40 分鐘後收到一封電子郵件:他們在排行榜上拿下第一。

最後一刻才見分曉

6 月 28 日正式宣佈結果,由七人組成的 NVIDIA 團隊第二度贏得 2021 年 ACM RecSys 挑戰賽

其中一名團隊成員 Chris Deotte 表示:「我們就在最後一刻收到電子郵件,若再晚個 20 分鐘我們就超出時間了。」Chris 同時也是資料科學界的線上奧運會 ── Kaggle 競賽的高手。

協助設計 NVIDIA Merlin 的隊友 Benedikt Schifferer 也說:「我們真的差一點就失敗了。」Merlin 是可以幫助使用者快速建立自有推薦系統的框架。

GPU 本來就能在很短的時間內完成推論任務。對於將任務調整到單一 CPU 核心上運作,團隊中居住於巴西的 Kaggle 高手 Gilberto “Giba” Titericz 表示:「就像回到遙遠的過去一樣。」

事實上,在比賽結束的時候,該團隊就證明了在 CPU 核心上耗費近 24 小時才完成的推論任務,可以用單個 NVIDIA A100 Tensor 核心 GPU 在五分半的時間內就完成。

每天分類 4,000 萬件物品

Twitter 在 28 天的競賽期間內,每天提供數百萬個資料點給參賽者,並要求他們預測用戶會喜歡或轉發哪些推文。這場業界級強度的挑戰賽是由 RecSys 的頂尖技術大會舉辦,吸引了來自 Facebook、Google、Spotify 和其他公司的頂尖工程師參加。

挑戰 RecSys 的部分團隊成員:Bo Liu (左上)、Benedikt Schifferer (右上)、
Gilberto Titericz (右下)及 Chris Deotte (左下)

這個領域非常困難,但也非常實用。推薦系統能驅動數位經濟,提供比傳統搜尋更快速、更智慧的建議。業界競賽有助於推動各個領域的發展,無論是想為另一半尋找完美的禮物,或想在網路上尋找老朋友的人都能受惠。

五個月內囊括三場勝利

今年稍早,NVIDIA 率領一支 40 人的團隊參加 Booking.com 挑戰賽。他們使用數百萬個匿名資料點,準確預測在歐洲的遊客會選擇到訪的最後一個城市。

六月時,在另一場頂尖的 RecSys 競賽 SIGIR eCommerce Data Challenge 中立下了更高的門檻。這場資訊檢索專業小組 (Special Interest Group on Information Retrieval;SIGIR) 的年度會議吸引了來自阿里巴巴和 Walmart Labs 等數家公司的專家。其 2021 年的挑戰提供 3,700 萬個線上購物活動的資料點,並要求參賽者預測用戶會購買哪些商品。

成功挑戰 SIGIR 的團隊成員:Ronay Ak (左上)、Sara Rabhi (右上)、
Md Yasin Kabir (右下) 和隊長 Gabriel Moreira (左下)

因為這場競賽的時程與 ACM 競賽重疊,NVIDIA 團隊不得不分成兩組,在兩場比賽之間互相配合。壓力日益升高的同時,部分團隊成員還得埋頭苦幹,撰寫 ACM RecSys 會議的論文。

團隊合作的藝術

NVIDIA 五人團隊的成員所在地橫跨巴西、加拿大、法國和美國,其中有兩個重要因素驅使團隊達到最好的整體表現,在每個排行榜上都奪得第一或第二名。他們放手一搏,全心全意專注於 Transformer 這個專為自然語言處理開發且日漸應用於推薦系統的模型上,而且他們深知接力合作的重要性。

負責帶領 Merlin 團隊的隊長 Even Oldridge 表示:「當一位成員要去睡覺時,另一位就在不同的時區接手工作。這個方式在分秒必爭的時候非常有效。我們也在去年強化了團隊的知識,並在推薦系統社群中佔有一席之地,讓我們在五個月內贏得三場重要的比賽,我對這樣的成就感到不可思議。」

尊重用戶隱私

在競賽中,模型必須在只知道用戶目前瀏覽中資訊的狀況下,預測用戶的行為。

位於聖保羅的 Merlin 資深研究員,同時也是 NVIDIA SIGIR 團隊隊長的 Gabriel Moreira 表示:「這是一項重要的任務,因為有時候用戶希望以匿名方式瀏覽,且有些隱私權法規對於取得歷史資訊有所限制。」

這是團隊第一次在競賽的關鍵環節只使用 Transformer 模型來解決問題。Moreira 的團隊目標是讓所有使用 Merlin 的客戶都能更輕鬆地使用龐大的神經網路。

NVIDIA 大獲全勝

6 月 30 日,我們在 RecSys 競賽中取得四連勝,可說是大獲全勝。業界基準測試組織 MLPerf 宣佈 NVIDIA 及其合作夥伴在所有最新的訓練基準測試 (包含一項推薦系統測試) 中都創下了記錄

幕後團隊表示,在 14 個 NVIDIA DGX 系統上訓練推薦系統,只花費不到一分鐘就完成,速度相比一年前提交成果時提升 3.3 倍。

經驗分享

這些競賽激發了對新技術的創意,並最終融入像 Merlin 這樣的推薦系統框架、相關工具、論文,以及由 NVIDIA 深度學習機構舉辦的線上課程中,最終目標就是要協助每個人都獲得成功。

NVIDIA 的推薦系統專家在採訪中大方地分享了他們的知識,其中一部分是關於藝術,一部分是關於科學。

關於推薦系統的專家密技

最佳作法是運用互相搭配時能相得益彰的多種模型。

在 ACM RecSys 挑戰賽中,團隊同時使用了樹狀和神經網路模型。在稱為堆疊 (stacking) 的過程中,一個階段的輸出變成下個階段的輸入。

NVIDIA Kaggle 高手團隊的最新成員 Bo Liu 表示:「單一模型可能會因為資料錯誤或收斂問題而出錯,但如果將幾個模型組合在一起,就會非常強大。」

與推薦系統專家線上見面

在 7 月 29 日,你可以與來自 Facebook、NVIDIA 和 TensorFlow 的推薦系統專家們見面,深入瞭解如何打造出色的推薦系統。