AT&T 如何借助資料科學抓住新機遇

作者 NVIDIA

AT&T 通過無線網路連接了從阿留申群島到佛羅里達礁島群的 1 億多名用戶,催生出一片大數據海洋。

Abhay Dabholkar 管理著一個研究小組,他們如同閃耀的燈塔,在數據海洋中尋找最佳導航工具。

作為在 AT&T 工作十餘年的傑出 AI 架構師,Dabholkar 表示:“我們可以使用新工具來改變在 AT&T 的日常工作,這一過程十分有趣,並且當我們為員工提供最新的核心工具時,他們會對自己的工作感到更滿意。

” 近期,該團隊在 GPU 助力的伺服器上測試了適用於 Apache Spark 的 NVIDIA RAPIDS 加速器,該軟體可將工作分配到叢集中的各節點。

在本次測試中,僅 5 小時便處理完一個月的移動數據 – 2.8 萬億行資料。相較於先前的測試,速度提升 3.3 倍,而成本則降低 60%。

驚嘆時刻

Dabholkar 表示:“這真是令人驚嘆,因為在 CPU 叢集上,僅處理 7 天的數據我們就需要耗費超過 48 小時的時間。過去儘管我們擁有數據,但卻無法充分利用,因為處理這些數據需要很長時間。”

具體而言,該測試對所謂的 ETL(即提取、轉換和加載流程)進行了基準測試,以便篩選出無用數據,然後再用篩選後的數據訓練 AI 模型,發現全新見解。

他還表示:“目前我們認為 GPU 可用於 ETL 以及我們在 Spark 中執行的所有批處理作業負載,因此我們正在探索其他 RAPIDS 函式庫,將工作從特徵工程擴展到 ETL 和機器學習。”

目前 AT&T 在 CPU 伺服器上運行 ETL,然後將數據轉移至 GPU 伺服器進行訓練。他補充道,在單個 GPU 工作流中完成所有工作可以節省時間和成本。

提高客戶滿意度,加速網路設計

時間和成本的節省在眾多使用案例中都有所體現。

例如,用戶可以更快獲取最佳連接,從而提高客戶滿意度並減少客戶流失率。 Dabholkar 表示: “我們還能更快確定 5G 信號塔和天線的參數。”

負責監督 RAPIDS 測試的團隊高級成員 Chris Vo 表示,要確定在哪些 AT&T 光纖覆蓋區域推出支持卡車,需要進行耗時的地理空間計算,而 RAPIDS 和 GPU 可以加速這一過程。

Dabholkar 說: “這項技術給我們帶來極大影響,我們每天可能會收到 300-400TB 的新數據,先前需要耗費兩三週以上的時間製作報告,而現在只需幾小時便可完成。”

三個使用案例和統計結果

研究人員正在與 AT&T 數據平台團隊成員分享他們的研究成果。

他說:“如果作業時間過長,且您擁有大量數據,我們建議您開啟 GPU ,並藉助 Spark,讓在 CPU 上運行的代碼也可以在 GPU 上運行。”

目前為止,各個團隊在三個不同的使用案例中各有收穫;其他團隊也計劃著測試其作業負載。

Dabholkar 樂觀地表示,業務部門會將其測試結果引入生產系統中。 他說:“我們是一家擁有各類數據集的電信公司,每天都需要處理 PB 級數的數據,這種方法可以大大節省我們的時間和成本。” 此外,包括美國國家稅務局在內的其他企業用戶也紛紛選擇使用這項技術。現有超過 13000 家公司(包括 400 家《財富》500 強公司)使用 Apache Spark,這表明大多數公司都願意選擇這種方式。

歡迎免費報名參加 GTC 大會,傾聽來自 AT&T 的 Chris Vo 談論他的工作,在這些會議中了解有關資料科學的更多資料,並聆聽 NVIDIA 執行長黃仁勳先生的主題演講