終結分析癱瘓的局面:NVIDIA 與 MapD 解決各產業普遍面臨的大數據頭痛問題

作者 Renee Yao

在整部人類發展史裡,過去兩年應該是產生數據資料量的最高潮,而為了以視覺化的方式來呈現,以及更深入理解這些數據背後所代表的意義,MapD 提出一項由 NVIDIA GPUs 加速運算的新方法。

在無需加上索引或進行優化的情況下,MapD 的資料庫會聰明地在各 GPU 上分割、壓縮和快取資料,將使用者查詢資料庫的速度提高100倍;搭配 MapD Immerse 分析前端工具時,系統可立即對擁有數十億筆紀錄的資料組,以視覺化的圖形方式呈現深入的分析見解內容。

來自英國,擁有顧問、部落客和資料庫迷多重身分的 Mark Litwintschik,日前使用去年底首次發布的一項海量資料組,測試了超過12種不同的資料庫及組態設定。此一資料組涵括詳盡的12億筆五年間紐約市個人計程車、豪華禮賓車及 Uber 的行車路跡資料,包括完整的 GPS、交易類型、乘客人數及時間戳記。

以視覺化方式呈現紐約甘迺迪國際機場的交通活動。
以視覺化方式呈現紐約甘迺迪國際機場的交通活動。

Litwintschik 多數的前期工作是在採用 CPU 技術的系統上進行,而使用 NVIDIA GPU 來測試 MapD,則是將效能提高55倍。

Litwintschik 說:「我自己覺得未來商業情報報表的發展會採用 GPU 技術。這些測試標準搭配的繪圖卡,是使用兩代以前的舊架構,比起某些我見過的情況,包括大型叢集 CPU 解決方案在內,它的查詢時間快上55倍。」

Litwintschik 表示商業情報領域「的未來極為明亮」。其實 NVIDIA 與 MapD 早就攜手合作協助多個產業裡的企業在未出現延遲的情況下,篩選和以視覺化的方式呈現海量資料組的內容。

MapD 使用 NVIDIA GPUs,對 NYC 交通數據資料等這一類複雜的海量資料組進行即時分析。
MapD 使用 NVIDIA GPUs,對 NYC 交通數據資料等這一類複雜的海量資料組進行即時分析。

Verizon 調校資料庫以應付數據產生的數量和速度

在企業的行銷、業務、網路及內容營運等各方面,講到資料量和資料產生的速度,很少有產業能贏過電信業。無論是找出通話中斷的原因、感應器資料、日誌檔案、客戶流失、裝置統計或資料中心績效,資料川流不息地流入。即時見到資料的需求讓事情變得更複雜,難以進行模式辨識及根本原因分析的作業。

Verizon 將 MapD 經 GPU 調校後的資料庫用在監控電信網路內智慧型手機的難題上,以評估多項量表內容。在使用 MapD 前,得花上數小時才能完成查詢,所以 Verizon 只會偶爾進行這項作業;而在使用 MapD 後,只要幾毫秒的時間便能完成相同的查詢作業,並且立刻就會呈現出畫面,使得 Verizon 能快速找出問題的根本原因,協助客戶及公司的營運和後勤團隊。

「資料庫採用 GPU 真正的運算能力,可以說幾乎立即就將資料投入給處理器。」Verizon 資深解決方案架構師 Abdul Subhan 說。

數十億美元危若累卵之際

金融相關企業已投資數十億美元在高速網路、 巨大的資料儲存空間和交易演算模式等核心技術上,以求創造出競爭優勢。在查詢和視覺化數十億筆紀錄時,需要產生假說及測試,使用CPU 技術會出現延遲或等待的狀況顯然不適用。

NVIDIA 與 MapD 跟某避險基金客戶合作發展出一個隨著時間大幅成長,有著豐富內容的專屬資料組,而該公司有效率對該資料組提問的能力卻未與時俱進。以該基金規模而言,單筆交易出現些許延遲的情況,相當於損失數百萬美元的機會成本。

該客戶使用 MapD 的產品,便能在數毫秒的時間內查詢,並以圖形顯示結果,如此一來即為該客戶在資訊方面成就出競爭優勢。通過 MapD 採用 GPU 技術的資料探索平台,就能立即測試新的投資想法,為經理、交易員和分析師創造出更流暢且具創意的投資組合作業流程。

應付 JavaScript 領域的需求

每天在 Twitter、Facebook 和 Snapchat 上有數百萬個圖片和影片按讚而登上頭條的紀錄,機器和人都是在背後推動資料出現爆炸性成長的因素。客戶活動、使用者、交易、應用程式、伺服器、行動裝置和網路這些不起眼的資訊,會當成機器資料而累積起來。

這些高維度資料,加上驚人的產生數量和速度,使得採用 CPU 技術的處理方式不知所措。最多人使用的 JavaScript 套件管理工具公司 npm, Inc. 看上 NVIDIA 與 MapD 的卓越效能,而選擇它們來解決資料庫方面的難題。

Npm 擁有超過25萬件可再次使用的程式碼套件,每天全球有400萬名開發人員使用,加總起來一個月的要求量超過200億件。GPU 的平行處理能力和 MapD 經 GPU 調校後之資料庫,使得 npm 能在幾毫秒內便查詢完畢,而過去則是要幾分鐘的時間,隨時都能正確掌握 JavaScript 圈裡的情勢變化,成本只要效能不佳之解決方案的零頭罷了。

npm 技術長 Laurie Voss 說:「一個月200億筆查詢內容,我們要求一套執行速度快如閃電、能應付臨時性資料分析需求的工業級資料庫。我們要求這個資料庫有著出色性能和擴充性,能處理大型複雜的查詢內容,而 MapD 正是我們要的。」

NVIDIA DGX-1 深度學習超級電腦。
NVIDIA DGX-1 深度學習超級電腦。

DGX-1:效能方面的大躍進

電信、金融和科技產業的客戶只是這股浪潮的開端,MapD 與 NVIDIA 密切合作開發新的裝置:NVIDIA DGX-1。這具搭配八具 Tesla P100 GPUs 和 128GB GPU 記憶體的超級電腦,可提供相當於250具傳統伺服器的運算產出能力。

採用 GPU 技術運算速度更快、性能表現更優秀的解決方案,可加惠遍及零售、保險、製造、醫療等產業裡的業者。