大型語言模型的一切都很龐大—巨型模型在數千個 NVIDIA GPU 上的海量資料集上進行訓練。
這可能會為追求生成式人工智慧的公司帶來許多巨大的挑戰。NVIDIA NeMo 是一個用於建置、客製化和運行大型語言模型的框架,有助於克服這些挑戰。
在 Amazon Web Services 中,一個由經驗豐富的科學家和開發人員組成的團隊在過去幾個月中一直在使用 NVIDIA NeMo,為用於基礎模型的生成式人工智慧服務 Amazon Bedrock 創建 Amazon Titan 基礎模型。
AWS 資深應用科學家 Leonard Lausen 說:「我們與 NeMo 合作的一個關鍵原因是它是可擴展的,並且具有最佳化功能,使我們能夠以高度使用 GPU 運行,同時還使我們能夠擴展到更大的叢集,以便我們可以更快地訓練模型並向客戶交付模型。」
非常大規模的思考
NeMo 中的平行技術可實現大規模的高效的大型語言模型訓練。 當與 AWS 的 Elastic Fabric Adapter 結合使用時,團隊可以將其 大型語言模型分佈在多個 GPU 上以加速訓練。
EFA 為 AWS 客戶提供 UltraCluster 網路基礎設施,可直接連接超過 10,000 個 GPU,並使用 NVIDIA GPUDirect 繞過作業系統和 CPU。
這一組合使 AWS 科學家能夠提供卓越的模型品質,這是僅依靠資料並行方法無法大規模實現的。
適合所有規模的框架
Lausen 表示:「NeMO 的彈性讓 AWS 能夠針對新 Titan 模型、資料集和基礎設施的特定情況客製化訓練軟體。」
AWS 的創新包括從 Amazon Simple Storage Service(Amazon S3)到 GPU 叢集的高效能串流。「整合這些改進很容易,因為 NeMo 建立在 PyTorch Lightning 等廣泛使用的函示庫的基礎上,這些函示庫標準化了大型語言模型訓練管道組件」Lausen 說。
AWS 和 NVIDIA 的目標是將從合作中學到的經驗注入到像是 NVIDIA NeMo 和 Amazon Titan 這樣的產品,以造福客戶。