在本地與在雲端開發人工智慧,兩者有什麼差別?

作者 Paresh Kharya

要在本地 GPU 系統與雲端之間做出選擇,有點像是到底要買房子還是租房子一樣。

租房子的話,不用準備太多的頭期款,可以慢慢按照要用的內容再付錢,像是洗烘衣機或是修理漏水的屋頂,或許是交給房東來處理。如果他們的千禧世代子女終於搬出去了,那麼是時候搬到另一個大小的房子了,房客只要在合約規定的期限內留在這裡即可。

租用雲端環境裡的 GPU,就能享受到進入的財務門檻較低、雲端服務提供商的支援,還能快速擴大或縮小到不同規模的運算叢集等好處。

而在另一方面,買房子是一次性的固定成本,也就是買好了房子,愛住多久就住多久。除非他們是跟青少年住在一起,不然屋主對房子裡發生的一切擁有完全的主權。這裡沒有租約,只要房子塞的下,就能邀請親友一直住下去。

投資建立本地 GPU 系統也是一樣的道理。在硬體能夠應付的程度內,可以盡量多次使用本地 GPU 系統來執行眾多項目,在不用考慮成本的情況下更輕鬆反覆嘗試各種辦法。財務資訊或醫療紀錄等這類高敏感度資料,也必須放在組織的防火牆後面。

開發人員按照手上有的用途案例及所涉及的資料類型,可以選擇在桌面系統、本地資料中心或雲端環境裡打造人工智慧工具。更有可能的是,他們會在從初期實驗到大規模部署這個過程中的不同時間點,從一個環境搬到另一個環境。

使用雲端環境裡的 GPU

可以將雲端環境裡的 GPU 用來處理多種作業,像是訓練多語人工智慧語音引擎、檢測糖尿病引發失明的早期跡象,還有開發媒體壓縮技術。新創公司、學界與創作者可以很快上手、探索新的想法和進行實驗,不用一直綁死在特定的 GPU 規模或配置上。

使用者可以透過 Alibaba CloudAmazon Web ServicesGoogle CloudIBM CloudMicrosoft Azure 及 Oracle Cloud Infrastructure 等主要的雲端平台來取得 NVIDIA 資料中心 GPU。

雲端服務提供商提供開發工具、預先訓練好的神經網路,還有技術支援等有用資源給開發人員,以協助用戶進行設定和排除故障狀況。出現大量訓練資料、啟動試點項目或出現大量新用戶之際,雲端環境也讓企業能夠輕鬆擴大其基礎設施,以因應運算資源需求的波動情況。

在雲端環境裡進行研究、容器化應用程式、實驗或其它時間不緊迫之案子的開發人員,要是使用過剩容量,更能享受高達 90% 的價格折扣,如此一來還能提高成本效益。這種稱為「Spot 實例」(Spot Instance)」的作法,可以有效轉租其他客戶不用的雲端 GPU 空間。

只要雲端運算服務供應商更新了產品,長期在雲端環境裡進行運算作業的用戶,也可以升級到使用最新、功能最強大的資料中心 GPU,通常還能因為繼續使用該平台而享有折扣。

使用本地的 GPU

使用龐大資料集來建立複雜的人工智慧模型時,長期項目的營運成本有時候會超出預算。這可能會造成開發人員得小心翼翼從事每一次的反覆運算或訓練活動,無法自由進行實驗。只花一次固定金額購買的本地 GPU 系統,就能讓開發人員無限制地反覆進行運算和測試。

使用本地 GPU 的資料科學家、學生及企業不用計算他們用了多長時間的系統,也不用計算他們在特定期間內可以承受的運行次數。

要是新方法第一次就失敗了,無需再投入額外資源來試行不同的程式碼,這樣可以鼓勵開發人員提出其它想法。愈是更常使用本地 GPU 系統,開發人員的投資報酬也就愈高。

從強大的桌上型 GPU 到工作站企業系統,本地的人工智慧機器有多種選擇。從開發人員對價格和效能的需求來看,一開始或許能先選擇使用單具 NVIDIA GPU 或工作站,最終再發展到一個人工智慧超級電腦叢集

NVIDIA 與 VMware 運用 vComputeServer 軟體和 NVIDIA NGC 容器 registry 來支持現代的虛擬化資料中心,這些協助組織簡化了在使用 GPU 伺服器的虛擬環境中,部署及管理人工智慧工作負載的作業。

醫療保健公司人權組織金融服務業都對資料主權及隱私權有著極為嚴格的標準,本地深度學習系統可以讓這些業者更容易接納人工智慧,同時又能遵守相關規定,將網路安全風險降到最低。

使用混合式雲端架構

許多企業覺得只選擇使用上述其中一種方法是不夠的。混合雲端運算環境結合了雲端及本地兩套 GPU 系統,發揮本地系統的安全性和管理性,再加上雲端服務提供商的公共雲端資源。

需求量很大並且本地 GPU 資源已經爆掉,此時可以使用稱為「雲爆發」(cloud bursting)的混合式雲端架構。不然企業可以使用自家本地的資料中心來處理最機密的資料,同時又在混合雲端環境裡中運行高動態且需要大量運算作業的任務。

許多企業資料中心已經進行虛擬化,且想要部署與公司現有運算資源相一致的混合雲端架構。NVIDIA 與 VMware Cloud on AWS 合作,提供加速 GPU 服務給現代企業,以用在人工智慧、機器學習和資料分析工作流程等應用項目上。

混合雲端服務的使用者可以透過這項服務,在資料中心的 GPU 加速虛擬伺服器與 VMware 雲端環境之間,流暢編配與即時遷移人工智慧工作負載。

發揮兩者的優勢:開發人員的人工智慧發展藍圖

在企業或研究團隊展開一項人工智慧研究案之前,到底該使用雲端還是本地 GPU 系統,並非一試定生死的問題。開發人員可以在專案生命週期的多個階段裡,不斷問自己這個問題。

一間新創公司可能會在雲端環境裡製作早期原型,接著換到桌面系統或 GPU 工作站來開發和訓練其深度學習模型。在針對正式生產環境擴大規模之際再回到雲端環境,根據客戶需求量來調整使用的叢集量。隨著該公司建立其全球基礎設施,或許會投資建設本地的 GPU 資料中心。

部分建立人工智慧模型來處理極機密資訊的組織,可能從頭到尾都堅持在本地使用機器來處理。其它單位可能會優先使用雲端環境,永遠不會建立本地的資料中心。

組織的重點考量之一,便是要投入訓練的資料放在什麼地方。要是企業的資料在雲端伺服器裡,那麼在雲端環境裡開發人工智慧模型可能是最划算的,這樣就不用把資料搬到本地系統進行訓練;如果訓練資料集放在本地的伺服器上,那麼建立本地 GPU 叢集或許是一個不錯的選擇。

無論團隊採用哪一種方法來透過 GPU 加快開發人工智慧的速度,工程師們都能藉由 NVIDIA 開發人員資源取得 SDK、容器及開放源碼的專案內容。NVIDIA 深度學習學院也提供實作訓練活動,協助開發人員、資料科學家、研究人員和學生瞭解怎麼使用加速運算工具。

請至 NVIDIA 深度學習與人工智慧網頁,以取得更多資訊。

本頁主圖由 MyGuysMoving.com提供,獲得 Flickr CC BY-SA 2.0使用授權。