什麼是推薦系統?

作者 Brian Caulfield

搜索,你可能會獲得你想要的訊息。

當你在互聯網上花費足夠久的時間,你想要的訊息就會在你需要的時候主動找上門來。

這就是當今互聯網的主要驅動力。

我們稱他為推薦系統,而他也是當今世界上最重要的應用。

因為在訊息大爆炸的今天,面對海量的選擇,用戶無法去瀏覽搜索得到的所有結果。

例如,在某知名電商網站上,共有超過 20 億件商品。假設一個人在手機 APP 上滑一次約 1 秒鐘,顧客想要完整瀏覽整個商品目錄,需要花費 65 年,幾乎是一輩子的時間。

這正是如今互聯網變得如此個性化的原因之一。否則,對於全球數十億的互聯網用戶而言,從數以千億計的訊息中找到對於他們各自的產品,服務甚至專業知識,是一件根本不可能的事情。

此外,當您向他人尋求建議時,或徵詢反饋的時候,就是在尋求一個推薦。

如今,在海量用戶的偏好數據驅動下,推薦系統也在競相進步。

互聯網已經知道很多有關你的訊息:你的名字,住址,或者你的出生地。但是,推薦系統更希望了解的是你的喜好,甚至於比那些認識你的人更關心你的喜好。

想要開始使用推薦系統了嗎? 閱讀有關 NVIDIA Merlin 的更多訊息,這是 NVIDIA 用於深度推薦系統的應用程式框架。

網路公司成功的關鍵

推薦系統其實不是新玩意。Jussi Karlgre n於 1990 年就提出了推薦系統或者“數位書架(Digital bookshelf)”的概念。在接下來的20年裡,來自麻省理工學院(MIT)和貝爾實驗室(Bellcore)的研究人員進一步推進完善了這項技術。

這項技術真正引起大眾的關注是在 2007 年,當時,營運方式還是通過郵寄方式出租 DVD 的 Netflix 推出了一項公開競賽,獎金高達 100 萬美元。Netflix 的競賽要求參賽者能夠提供一套協同過濾演算法,幫助 Netflix 將其推薦系統的精確度提高 10%。最終,獎金於 2009 年被人贏走。

在接下來的十年中,這種推薦系統成為了 Netflix,亞馬遜,Facebook,阿里和百度等互聯網公司成功的關鍵。

良性數據循環

新一代的基於深度學習的推薦系統為企業市場推廣注入了魔力,讓企業能夠為用戶提供他們更關注的內容,從而提高點擊率。

如今,這種收集數據,處理數據,利用數據訓練AI模型替換這些模型部署到其業務之中,從而幫助用戶找到他們想要的訊息的能力,已經成為了大型互聯網公司他們所擁有的最大競爭優勢一個。

而且,它正在推動著一個良性的循環,更好的技術將帶來更加優質的推薦結果,而更好的推薦又能吸引更多的用戶,讓這些公司能夠負擔得起更好的技術。

以上所講的是商業模式。那麼這項技術究竟是如何工作的呢?

收集訊息

推薦系統首先需要收集訊息,記錄你的請求,某些你在影像串流 APP 上搜索了那些電影,你對於這些電影的打分和評論,你的購買記錄,以及你過去所採取的其他行動。

也許,更重要的是,它們能夠跟踪你所做的選擇:你點擊了什麼,你如何瀏覽訊息。例如,你看一部電影時,看了多長時間;你點開了那些廣告,或者你和哪些朋友有過互動。

所有這些訊息都將匯聚到大型資料中心,並編譯成複雜的多維表格。這些表格會很快變大,而且會像汽球一樣膨漲迅速。資料大小可能達到數百 TB,並且還會一直增長。

數據量如此之大不是因為它從單一用戶的身上收集到大量的數據,而是因為它要從許多用戶的身上去收集各式各樣的少量數據。

換句話說,這些表格是非常稀疏的,對於這些類別中的大多數,大多數服務對我們大多數別所具有的大多數訊息為零。

但是,總的來說,這些表格所包含的訊息體現了大部分人的喜好偏向。

這將有助於公司根據特定類型用戶的喜好,做出明智的決策。

內容過濾,協同過濾

雖然推薦演算法和技術有很多,但大體上可以分為兩大類:協同過濾和內容過濾。

協同過濾能夠通過找到與你相似的用戶,來幫助你找到你所喜歡的內容。

儘管推薦系統可能對於你的音樂品味一無所知,但如果它知道你和另一個用戶在讀書方面有著相似的喜好品味,那麼推薦系統就有可能會向你推薦一首這位用戶喜歡的歌曲。

內容過濾,與協同過濾不同,則是通過分析了解每個產品的基本特性。

例如,如果推薦系統發現你喜歡看由湯姆·漢克斯和梅格·萊恩主演的《電子情書》和《西雅圖夜未眠》,那麼它就有能會向你推薦另一部由他們主演的電影,例如《跳火山的人》。

當然,這些都是極其簡單的例子。

數據為王

實際上,正是因為這些系統需要從如此多的人那裡獲取如此多的數據,而且其部署規模也如此之大,因此哪怕只是一點小小的改進,都能為企業帶來數千萬甚至數億美元的業務增長。

一個企業也許並不知道每個人的想法,但是根據大數法則,它可以發現一些統計學上的訊息。或者它可以知道如果你向 100 萬人推出某項推薦,最終會有 1 %的人接受。(如此小的比例都可以帶來巨大的商業收入改善)

更好的推薦系統能夠帶來巨大的潛在收益,但同時也意味著巨大的挑戰。

例如,那些成功的互聯網公司,他們需要能夠以更快的速度處理更多的查詢需求,同樣地,他們也需要在基礎設施上加大投資以應付未來的數據挑戰。

相比之下,那些非技術型的公司則需要利用可以存取的工具,這樣他們就不必僱用整支資料科學家團隊。

隨著推薦系統逐漸被套用到從醫療健康到金融服務等各個行業當中,它們需要變得更加觸手可及。

GPU 加速

這正是 GPU 的價值所在。

當然,NVIDIA GPU 長期以來一直被用於加速神經網路的訓練時間,從而激發了現代 AI 的繁榮,因為它們的平行處理能力使它們能夠處理數據密集型任務。

現在,由於數據規模不斷的擴大,GPU 也更廣泛的應用到各個領域。加速資料科學和分析流程加速的軟體函式庫工具,例如 RAPIDS,就讓數據科學家們能夠更快速的完成更多的分析工作。

NVIDIA 剛剛宣布了 Merlin 推薦器應用程式框架,為推薦系統提供 GPU 加速的數據提取,模型訓練和模型部署。

這些系統將能夠充分利用基於 NVIDIA Ampere 架構的全新 NVIDIA A100 GPU,幫助企業建構更快速,更經濟實惠的推薦系統。

我們的建議?如果你想嘗試推薦系統,現在就是最好的時機!

想開始使用推薦系統嗎?了解更多關於 NVIDIA Merlin,NVIDIA 的深度學習推薦系統應用框架