人多力量大:NVIDIA 和生成式紅隊挑戰賽於 DEF CON 安全會議派出數千人來審查 AI 安全

掌握最新技術是駭客引以為傲的傳統。數千人將於本週在拉斯維加斯深入研究最新的人工智慧安全工具
作者 DANIEL ROHRER

這週在拉斯維加斯,數千個駭客將會微調、扭轉和探索最新的生成式人工智慧平台,這是為了建立更值得信賴且具有包容性的人工智慧。NVIDIA正與駭客社群合作,建立測試下一代人工智慧的最佳實踐方法,包括對 NVIDIA NeMo 和 NeMo Guardrails 等領先業界的大型語言模型解決方案進行首次的測試。

AI Village、SeedAI 和 Humane Intelligence 主持的生成式紅隊挑戰賽 (Generative Red Team Challenge) 將是 NVIDIA 領導者們在拉斯維加斯舉行的 Black HatDEF CON 安全會議上舉辦的一系列研討會、培訓課程和露面活動之一。

這項挑戰為駭客提供了許多可利用的漏洞,是實際檢驗新興人工智慧技術的首次機會。

SeedAI 創辦人暨生成式紅隊挑戰賽主辦者 Austin Carson 說:「人工智慧使個人能夠創造和建構以前不可能實現的事物,但若沒有一個龐大且多元的社群來測試和評估這項技術,人工智慧將只是反映其創造者,而將大部分社會拋在身後。」

與駭客社群的合作,正值全球積極推動人工智慧安全且為新聞熱議話題之際。上個月,美國拜登-賀錦麗政府(Biden-Harris Administration)已成功取得發展尖端生成式模型的領先人工智慧公司的自願性承諾。

AI Village 創辦人暨生成式紅隊挑戰賽的合辦者 Sven Cattell 表示:「AI Village 聚集了關心人工智慧系統影響的社群,關注針對惡意使用和對社會造成的影響。在 DEFCON 29 上,我們與 Rumman Chowdhury 在 Twitter 時的團隊合作,舉辦了第一次演算法偏見賞金獵人活動,這是首次有一家公司允許公眾對其模型進行審查。」

本週的挑戰是人工智慧發展進程中關鍵的一步,這要歸功於秉持懷疑精神、獨立性和透明度的駭客群體在建立和實測新興安全標準方面所扮演的領導角色。

NVIDIA 的技術對於人工智慧至關重要,而且 NVIDIA 在生成式人工智慧革命初期即已參與其中。在 2016 年,NVIDIA 的創辦人暨執行長黃仁勳親自遞交第一台 NVIDIA DGX AI 超級電腦給 OpenAI — 該電腦是支持 ChatGPT 大型語言模型突破的引擎。

NVIDIA DGX 系統最初被用作 AI 研究工具,現在正在世界各地企業中全天候運行,以精煉資料和處理 AI。

管理顧問公司麥肯錫估計,生成式 AI 每年可以在全球 63 個使用情形中為全球經濟增加相當於 2.6 兆美元到 4.4 兆美元。這使得安全性和信任成為整個產業共同關注的問題。

正因此,NVIDIA 員工參與了上週匯集安全專家的 Black Hat 會議以及本週的 DEF CON 聚會,與兩會的參加者進行交流。

在 Black Hat 會議上,NVIDIA 舉辦了為期兩天的機器學習培訓課程,並就網絡規模訓練資料集中毒的風險進行簡介。同時,還贊助一場探討人工智慧對安全領域有潛在好處的座談會。

在 DEF CON,NVIDIA 贊助了一場關於侵入基板管理控制器風險的演講。這些專用的服務處理器監控電腦、網路伺服器或其他硬體裝置的物理狀態。

並透過 AI Village 快速檢測研討會 (AI Village Prompt Detective) 中的生成式紅隊挑戰賽 (Generative Red Team Challenge),數千名 DEF CON 參與者將能演示快速注入、嘗試引發不道德行為並測試其他技術以獲得不適當的回應。

Anthropic、Cohere、Google、Hugging Face、Meta、NVIDIA、OpenAI 和 Stability 構建的模型以及 Microsoft 的參與,將在 Scale AI 開發的評估平台上進行測試。

結果,所有人都變得更聰明。

AI Village 領導團隊成員亦是負責設計這些挑戰的非營利組織 Humane Intelligence 共同創辦人Rumman Chowdhury說:「我們促進思想和資訊交流,同時處理風險和機會。駭客社群接觸到不同的想法,社群合作夥伴獲得新的技能,為他們的未來打下基礎。」

NVIDIA 於四月份以開源軟體的形式發布了 NeMo Guardrails,這可以幫助開發人員引導生成式人工智慧應用程式創造令人印象深刻、保持在正軌上的文字回應,確保智慧的、大型語言模型驅動的應用程式是準確的、適當的、與主題相關且安全的。

為確保透明度並使這項技術能夠在各種環境中發揮作用,經過數年研究的 NeMo Guardrails 是開源的,而且大部分的 NeMo 對話式人工智慧框架已經以開源程式碼的形式在 GitHub 上提供,這為開發者社群在 AI 安全方面的巨大能量和開發工作做出了貢獻。

與 DEF CON 社群的互動進一步擴展了這一點,使 NVIDIA 能夠分享它在 NeMo Guardrails 方面所學到的知識,同時也從社群中學習。

這項活動的主辦單位包括 SeedAI、Humane Intelligence 和 AI Village,他們將分析這些資料和發表他們的研究成果,包括過程和學習,以幫助其他組織進行類似的練習。

上週,主辦單位亦號召徵集研究提案,並在24 小時內就收到了數份來自領先研究人員的提案。

Chowdhury 說:「由於這是首個大規模生成式人工智慧系統上的實時駭客事件,我們將一同學習。能夠複製這個練習,將 AI 測試交到數千人手中,這是其成功的關鍵。」

DEF CON 31 於 8 月 10 日至 13 日在拉斯維加斯凱撒論壇舉行,生成式紅隊挑戰將於 DEF CON 31 中的 AI Village 進行。