日本速度最快的超級電腦採用 NGC,輕鬆使用深度學習框架

作者 Chintan Patel

系統管理員可以透過新的 NGC Container Replicator,讓用戶立即取得最新的 HPC 和 AI 軟體。

從發現新藥到找出黑洞的位置,再到尋求更安全的核能源,各地的高效能運算系統紛紛在不同的科學領域創下突破性成就。

日本速度最快的超級電腦 ABCI,搭載著 NVIDIA Tensor Core GPU,發揮人工智慧的長才同樣也協助科學領域奪下開創性成就。這套系統是全球首款大規模開放式人工智慧基礎設施,幫助研究人員、工程師及工業用戶推動科學發展。

用於推動這些進步的軟體,跟運行軟體的伺服器一樣重要。在 HPC 叢集上安裝應用程式卻是一件極為複雜又耗時的事。研究人員和工程師在等待開啟軟體時,根本就沒有任何生產力,而他們申請安裝應用程式的動作又會分散系統管理員的注意力,無法完成手邊的重要工作。

HPC 系統用戶可以透過內有軟體及相關依賴項目的容器,在系統上開啟和運行軟體,又不用實際安裝軟體,對於用戶和系統管理員來說是件雙贏的事。

NGC:讓人們易於使用人工智慧、機器學習和 HPC 軟體的推手

NGC 提供超過五十個 GPU 優化容器,可用於在 Docker 和 Singularity 上運行的深度學習框架、機器學習演算法及 HPC 應用程式。

HPC 應用程式在節點內和節點之間的 GPU 上,提供可以擴張的效能。NVIDIA 不斷優化重點深度學習框架和函式庫,且每個月發布更新內容,讓用戶可以取得對所有人工智慧項目進行訓練及推論所需的最佳效能。

ABCI 運行 NGC 容器

研究人員與工業用戶利用 ABCI,處理從核物理到製造等各領域的人工智慧科學運算工作。其他人則是利用該系統的分散式運算能力,突破加快人工智慧訓練速度的極限。

必須備有正確的軟體和硬體工具集合才能達到這項目標,這正是 ABCI 採用 NGC 的原因。

AIST 人工智慧研究中心團隊負責人小川宏高說。「從源頭安裝深度學習框架,是件十分複雜的事,對軟體進行升級以追上頻繁發布的內容,也消耗許多資源。NGC讓我們可以使用最新的人工智慧框架來支援用戶,而用戶也能享受他們使用 NVIDIA GPU 所能達到的最高效能。」

ABCI 採用容器是因為使用者另一考量-可攜性。

「我們的大多數用戶來自工業領域,他們想要在本地系統與 ABCI 之間有著可攜性。在使用 NGC 和 Singularity 之後,用戶可以在不同平台上大規模進行開發、測試和部署活動。我們的抽樣資料顯示在 Singularity 上運行的十萬多件工作中,有八成使用了 NGC 容器。」小川說。

NGC Container Replicator 讓系統管理員與用戶可以輕鬆使用 HPC 系統

超算中心與大學裡的 HPC 系統管理員,現在可以下載 NGC 容器並存在其叢集上,讓用戶可以更快取得軟體、減輕網路流量和節省儲存空間。

NVIDIA 提供 NGC Container Replicator,可以協助系統管理員自動檢查和下載最新版本的 NGC 容器。

系統管理員根本就不用動手,就能確保用戶受益於最新軟體的卓越效能和最新功能。

不只是應用程式容器

NGC 不只是深度學習容器,還針對物體偵測、自然語言處理和文字到語音等熱門的使用案例,提供了六十種已預先訓練好的模型及十七種模型腳本。

針對使用案例調整已經預先訓練好的模型,要比從零開始快上許多。研究人員使用這些已預先訓練好的模型,便能快速微調神經網路,或是針對特定使用案例需求在已經完成優化的神經網路上進行其它作業。

模型訓練腳本遵守最佳實踐內容,擁有最先進的準確性和卓越效能。想要從頭開始按照個人喜好建立神經網路的研究人員及資料科學家,最適合使用這些腳本。

這些模型和腳本使用在 NVIDIA Tensor Core GPU 助力下的混合精度,而與前幾代產品相比,在深度學習效能方面的速度提升了三倍。

先行試用 NGC

已完成建構和測試的 NGC 容器可在本地及雲端運行,還支援混合和多雲部署。請至 ngc.nvidia.com,將你的應用程式容器放在任何 GPU 系統或主要雲端執行個體上,看看你下一次要啟動和運行的科學研究活動,會是一件多麼輕鬆的事。