在 SC18 發表的全新多節點容器、與 Singularity 容器的相容性及 NGC-Ready 計畫,讓更多人能接觸到資料科學、人工智慧和 HPC。
這是一種良性循環。資料科學和高效能運算(HPC)領域使用 GPU 來加速處理工作的情況愈來愈普遍,促成科學領域出現更廣泛的突破性發展,包括入圍今年戈登貝爾(Gordon Bell)獎決賽的六組選手,就有五組使用 GPU。這些進步促進了思想共享,本週在美國德州達拉斯召開的 SC18 大會上,GPU 成為多場會議、演示活動及新品介紹的主角。
我們讓使用者能藉由 NGC 容器登錄服務簡化軟體部署作業來補足這一塊,預先整合和優化的容器在 NVIDIA GPU 上將符合產業標準的軟體進行最新一波的增強及性能改進。隨著登錄內容的增長(容器數量在去年成長了兩倍),使用者有更多方法可以利用 GPU 運算的優點。
更多應用程式、新的多節點容器和 Singularity
NGC 容器登錄服務現在提供了41項用於深度學習、HPC 和 HPC 視覺化的框架和應用程式(去年為18個)。近期增加的內容包括 CHROMA、Matlab、MILC、ParaView、RAPIDS 及 VMD。我們還增加了它們的功能,使它們更容易部署。
我們在 SC18 大會發表新的多節點 HPC 及視覺化容器,讓超級電腦的用戶可以在大規模叢集上進行運算。
大型部署活動通常會用到訊息傳遞介面(MPI)這項技術,跨越多個伺服器來執行作業。不過有太多定義 HPC 系統的變數(像是排程器、網路堆疊、MPI 和各版本的驅動程式),要建立一個使用 MPI 的應用程式容器有其難度。
NGC 容器登錄服務最早便推出五個支援多節點部署的容器,讓這件事變得簡單,使得在多個節點(各節點又有著多個GPU)上運行大量計算工具,是一件極為輕鬆的事。
今後可以在 Singularity 容器裡使用 NGC 容器,更簡化了部署工作。Singularity 是一種超級電腦設施廣泛採用的容器技術。
全新的 NGC-Ready 計畫
我們宣布了全新的 NGC-Ready 計畫,讓使用者能有更多地方運行 HPC 應用程式,搭載 NVIDIA GPU 之強大系統的用戶可以安心進行部署。伺服器業者推出的最早一波 NGC-Ready 系統有:
- ATOS BullSequana X1125
- Cisco UCS C480ML
- Cray CS Storm NX
- Dell EMC PowerEdge C4140
- HPE Apollo 6500
- Supermicro SYS-4029GP-TVRT
搭載 NVIDIA Quadro GPU 的 NGC-Ready 工作站提供了一個平台,讓研究人員快速建構、訓練和發展深度學習項目所需的效能和靈活性。以下是工作站業者所推出的 NGC-Ready 系統:
- HPI Z8
- Lenovo ThinkStation P920
大型業者結合 NGC 容器與 NGC-Ready 系統,讓使用者有一種可以複製的容器化方式,將 HPC 應用程式從開發環境推向正式的生產環境。
NGC 容器登錄服務的容器可以在多種平台上運行,包括 Amazon EC2、Google 雲端平台、Microsoft Azure、Oracle Cloud Infrastructure、NVIDIA DGX 系統,以及特定的 NVIDIA TITAN 及 Quadro GPU。
頂尖超級計算中心部署的 NGC 容器
NGC 容器登錄服務的用戶來自多個產業和學界,從大型企業到個體研究人員,其中包括克萊門森大學和亞利桑那大學這兩處美國的高等教育研究機構。
使用者一直請求克萊門森大學 Palmetto 叢集的研究人員支援同一應用程式的多個版本。安裝、升級和維護不同版本,要用掉大量時間和資源,而維護不同版本會使得支援人員捉襟見肘,用戶的工作效率也不佳。
克萊門森大學團隊在其 Palmetto 系統上,成功對來自 NGC 容器登錄服務的 GROMACS 和 TensorFlow 這一類 HPC 及深度學習容器完成測試。他們現在建議用戶將 NGC 容器用於其研究項目上。容器還能在 Singularity 部署環境裡運行,更容易在整個系統中提供支援。克萊門森大學的 Palmetto 用戶在使用 NGC 容器之後,便能運行自己喜好的應用程式版本,又不會打斷其他研究人員的工作,或是要求系統管理員進行部署。
而在亞利桑那大學,推出新版本的 TensorFlow 深度學習框架時,用戶就會紛紛要求 Ocelote 叢集系統的管理員進行更新。在 HPC 系統上安裝 TensorFlow 是件很麻煩的事,要花上幾天的時間,人手不足的團隊又無法撥出資源來處理,用戶常對此感到不滿。
亞利桑那大學首席 HPC 系統管理員 Chris Reidy 表示:「我們更新叢集環境的速度,無法快到追上深度學習工作流程的要求。我們花了重金購買 NVIDIA GPU,NGC 容器則是妥善利用了那些 GPU。我們對 NAMD 這類傳統分子動力學的程式碼、機器學習和深度學習等領域,都有著極高的興趣,加上採用經過優化和全面測試的軟體堆疊來構建 NGC 容器,讓我們能快速進行研究。」
Reidy 在其叢集上使用 Singularity 容器測試了 NGC 的多種 HPC、HPC 視覺化和深度學習容器。他按照 NGC 文件裡的指示,可以輕鬆啟動和運行 NGC 容器。它們現在是運行這些應用程式的首選方式。
現已可免費下載 NGC 容器。請至 NGC 容器登錄服務以開始使用。