AI風暴:危機之下,我們如何在三週內打造美國最強大的工業電腦

作者 rick

製作 Selene 背後蘊含的是一個將高效能運算帶入資料中心的系統專業故事。

在疫情席捲全球之際,一個小團隊用不到一個月的時間就成功組裝了全球速度排名第七的超級電腦。

如今,此稱為 Selene 的大型系統足以在 Slack 上與操作員進行通訊,擁有自己的機器人服務生,還推動 AI 在汽車,醫療保健和自然語言處理領域的發展。

許多超級電腦採用外來的專有設計,但這樣的設計經常需要花費數月時間才能完成, Selene 則是根據 NVIDIA 與客戶共享的開放式架構。

位於芝加哥附近的阿貢國家實驗室正在使用根據 DGX SuperPOD 設計的 Selene 建構的系統來研究阻止新冠病毒的方法。佛羅里達大學將使用該設計建構學術界最快的 AI 電腦

DGX SuperPOD 也正推動著大陸集團在汽車領域,微軟在雲端運算服務領域的業務成果。

AI系統的誕生

NVIDIA 如何打造 Selene ,又為何要打造 Selene 呢?故事要從 2015 年說起。

NVIDIA 工程師出於兩個動機,啟心動念了他們的首個系統設計。他們希望建立一種通用工具,既能使同事為自動駕駛汽車而製造的 AI 模型進行訓練,同時適用性夠強能夠滿足所有深度學習研究人員的需求。

2016 年,他們的研究成果是運用 NVIDIA Pascal GPU 的 SATURNV 叢集誕生了。一年後,功能更強大的 NVIDIA Volta GPU 首次面世。此時,尚處萌芽期的系統團隊的研究動力和設計能力也大幅提升。

AI的用武之地不止於加速器

該系統團隊負責人,首席架構師 Michael Houston 表示:“我們正在根據研究人員的反饋來預測未來發展方向,打造用途多且壽命長的機器,並同時提升處理,記憶體和儲存能力。”

 “早在 2017 年,我們就注意到,新的應用將推動對多節點訓練的需求,這要求系統之間能夠進行高速通信,從而存取高速儲存。”

AI 模型發展迅速,需要多 GPU 來進行處理。工作量的增長導致需要新的運算方式,例如模型平行化,以跟上步調。

因此,該團隊很快就打造了當時最大的基於 V100 的 NVIDIA DGX-2 系統,我們稱它為 DGX POD。他們最初使用 32 個 DGX-2 節點,隨後使用 64 個,最終打造了稱為DGX SuperPOD的 96-節點架構。

他們以一位極具魅力的希臘女神“ Circe”命名。 Circe 於 2019 年 6 月面世,當時在全球超級電腦 TOP500 排名中位列第 22 位,目前位列第 23 位。

在電腦的叢林中,對電纜快刀斬亂麻

在此過程中,團隊學習了有關網路,儲存,功率和熱能的課程。他們將這些經驗都整合到了最新的 NVIDIA DGX 系統,參考架構,以及目前的 280-節點 Selene 中。

從當時最大的效益到 Circe ,一路走來,有些經驗教訓著實來之不易。

“我們所有的東西都磨了兩次,實際上是打掉重練。 這是往前進最快的方法,但是仍然有很多停機時間和成本。 因此,我們發誓不再做任何事情,並將易於擴展和增量部署作為基本設計原則。” Houston 說。

團隊重新設計了整個網路,以簡化系統組裝。

他們定義了由 20 個節點組成的模組,這些模組可通過相對簡單的“薄型交換機”連接。這些“可擴展單元”中的每一個都可被單獨添加,以相同的模式,啟動運行並進行測試,然後再添加下一個。

這樣的設計讓工程師能夠指定一定長度的電纜,與工廠的 Velcro 捆綁在一起。通過對機架進行標記和映射,根本地簡化在機架上填充數百個系統的過程。

InfiniBand助力實現運算加倍

早期,該團隊學會了將運算,儲存和管理結構分割為獨立的面板,再來,將它們分佈在更多,更快的網路介面卡上。

NIC 與 GPU 的比例增加了一倍,達到了 1 : 1 。因此,速度也提升了一倍,從 Circe 的每秒 100 Gbit InfiniBand 到 Selene 的 200G HDR InfiniBand 。結果是有效節點的頻寛增加了 4 倍。

同樣地,記憶體和儲存連結的容量和總量也增加,以處理有熱儲存,溫儲存和冷儲存需求的作業。四個儲存層跨越了 100 TB /秒的記憶體,連接到 100 GB /秒的儲存池。

功率和熱能維持在風冷限制內。替代設計的使用租用資料中心中典型的 35kW 機架,但對於最強大的超級電腦中心,可擴展到 50kW 以上,而某些電信公司使用的機架則可縮至 7kW 。

Selene 資料一覽

打造平衡的大型系統

最終成果是打造了更加平衡的設計,能夠處理當前各種不同的作業負載。這種整合讓研究人員能夠自由地探索 AI 和高效能運算的全新發展方向。

Julie Bernauer 說:“從某種程度上來講,高效能運算和 AI 都需要最高的效能,但是你必須仔細考慮如何在功率,儲存和網路以及原始處理方面實現這樣的效能。”她領導的團隊參與了 NVIDIA 所有大型系統的開發工作。

團隊骨幹嚴守規章制度

2020 年初,付出得到了回報。

在疫情爆發幾天後,首批NVIDIA Ampere 架構 GPU面世了,工程師們面對著組裝 280 節點 Selene 的嚴峻工作。

在最理想的情況下,數十名工程師可能需要花費幾個月的時間,進行超級電腦級系統的組裝,測試和調試。而 NVIDIA 必須在幾週之內就讓 Selene 啟動運行,以參加行業基準測試,並完成對 Argonne 等客戶的義務。

工程師必須嚴格遵守疫情期間的公共衛生準則。

Bernauer 表示:“我們的骨幹團隊必須嚴守相關規章制度,以確保員工的健康。”

“在拆箱組裝系統時,我們以兩人為一組,各組之間互不接觸,同組人員甚至會同時休假。在佈線時,人員距離保持六英尺。這確實是一種內置系統的新方式。”她說。

即使有 COVID-19 疫情的種種設限,工程師每天也能建構超過 60 個系統,這是他們裝卸平台的上限。通過虛擬登錄,管理員可以遠程驗證電纜連接,並在部署 20 個模組的同時進行測試。

Bernauer 的團隊實現了層層自動化。進而減少了對 Selene 位於的協同區域內部人員的需求,該場所距離 NVIDIA 矽谷總部只有一個街區。

通過Slack與超級電腦溝通

Selene 可以像同事一樣通過 Slack 頻道與員工交談。它會報告電纜鬆動,並隔離出現故障的硬體,以維持系統持續運行。

“我們不希望因為出現問題而得在半夜爬起來處理。”

如果客戶照著 DGX POD 和 SuperPOD 架構中的指導,可以實現一定程度的自動化。

得益於這種方法的其中一例是,佛羅里達大學將 14 節點的擴充整合至其 HiPerGator 系統,並致力於在交付後的 10 天內就開始運行學術界最強大的 AI 超級電腦。

作為補充, NVIDIA 團隊從 Double Robotics 購買了一個遠程機器人。如此一來,居家辦公的非必需設計人員可與 Selene 保持日常聯繫。他們半開玩笑地幫它取名為“ Trip (意為絆倒)” ,因為擔心它可能會撞上現場的重要技術人員。

Trip 由NVIDIA Jetson TX2模組趨動,這對那些預想自己未來可能會修改其編程的團隊成員來說,是一個額外的亮點。

Trip robot with Selene
Trip 幫助工程師在建造 Selene 時進行檢查。

自 7 月下旬以來,工程師們經常使用 Trip ,以虛擬方式穿行於 Selene 的過道,並通過機器人的攝影機和麥克風來觀察系統。

Bernauer 表示:“Trip 並不能取代人類操作員,但有了 Trip 的幫助,如果你擔心凌晨 2 點會出現問題,不用開車到資料中心,也能進行檢查。”

大規模交付高效能運算和人工智慧成果

最終還是結果為王,而且結果來的很迅速。

6 月, Selene 在超級電腦的 TOP500 榜單中位列第 7 ,在最節能系統的 Green500 榜單中位列第 2 。 7 月, Selene 在最新的 MLPerf 基準測試中對 AI 訓練效能的所有八項系統測試中均創下紀錄

Houston 表示:“對我而言,最大的驚喜是,在我們使用新的處理器和開發板的情況下,一切都進展非常順利。我感謝一路以來所有的測試,幫助團隊致力於提高這台機器的效能,緊鑼密鼓地進行一系列嚴格的基準測試,帶給團隊很大的能力提升。”

為阿貢國家實驗室進行NGC容器和 HPC 軟體的預測試工作更加令人滿意。 該實驗室已經著手解決蛋白質對接和量子化學中的難題,以期進一步了解冠狀病毒。

另外, Circe 將其許多免費周期捐贈給與 COVID 對抗的 Folding @ Home 計劃

同時, NVIDIA 研究人員正在使用 Selene 來訓練自動駕駛汽車完善對話式 AI,立即逐步快速取得進展。然後,有超過一千個工作在該系統同時運行。

同時,該團隊已經在白板上提出了下一步的想法。 Bernauer 說:“賦予效能的工程師足夠的動力和電纜,他們將找出令人驚奇的事情。”

最上方主視覺:藝術家渲染的 Selene 的一部分。