利用 ComfyUI 與 NVIDIA RTX AI PC 開始使用生成式 AI 進行內容創作

作者 Michael Fukuyama

ComfyUI 是開源的節點架構繪圖介面,可為內容創作執行及建構生成式 AI 工作流程,過去一個月發布的重大更新包括,NVIDIA RTX GPU 的效能提升達 40%,以及支援全新的 AI 模型,包括 Wan 2.2、Qwen-Image、FLUX.1 Krea [dev] 與 Hunyuan3D 2.1。  

NVIDIA 也以 NVIDIA NIM 微服務的形式,發布了 Stable Diffusion 3.5 與 FLUX.1 Kontext 等熱門擴散模型的 NVIDIA TensorRT 最佳化版本,讓使用者在 ComfyUI 執行這些模型的速度最高提升 3 倍,而耗用的 VRAM 則減少 50%。 

此外,讓模改玩家重製經典遊戲的平台 NVIDIA RTX Remix 今日發布更新,加入先進的路徑追蹤粒子系統,提供令人驚豔的視覺效果,為經典遊戲注入全新生命。 

ComfyUI v3.57 運用 RTX 大幅提升效能

NVIDIA 與 ComfyUI 合作,讓 AI 模型效能大幅提升 40%。具體來說,GPU 世代升級通常只能提升 20-30% 的效能。 

在搭載 Intel Core i9 14900K 的 GeForce RTX 5090 測量。所有模型都在 ComfyUI 採用 20 個步驟,以 1024×1024 解析度執行。

有興趣將 App 擴散模型效能與效率最佳化的開發者,可前往開發者論壇閱讀更多資訊,瞭解 NVIDIA 如何協助加速這些工作負載。 

RTX 加速的尖端 AI 模型

過去幾週陸續發布的非凡 AI 內容創作模型,目前皆可在 ComfyUI 使用。 

Wan 2.2 是全新的影片模型,可針對在 PC 生成影片提供非凡的品質與控制力。這是創作 AI 平台 Wan AI 的最新模型,提供令人驚嘆的 AI 模型陣容,包括文字轉影像、文字轉影片、影像轉影片,以及語音轉影片。GeForce RTX 與 NVIDIA RTX PRO GPU 是唯一能在 ComfyUI 執行 Wan 2.2 14B 模型的 GPU,而且輸出不會大幅延遲。看看下方這個以單一提示生成的範例:「機器人正在打蛋,但卻不小心把蛋打在碗外。」 

Qwen-Image 是阿里巴巴全新的影像生成基礎模型,在複雜的文字渲染和精確的影像編輯方面突飛猛進。它擅長渲染複雜的文字、處理精細的編輯工作,以及在生成的影像兼顧語義與視覺準確度。相較於 Apple M3 Ultra,該模型在 GeForce RTX 5090 執行的速度提升 7 倍。 

Qwen-Image 擅長影像生成以及用多種語言生成文字。

Black Forest Labs 的全新 FLUX.1 Krea [dev] AI 模型是 Krea 1 的公開權重版本,效能強大,經訓練後可生成更逼真的多樣化影像,而且不含飽和度過高的紋理。Black Forest Labs 稱之為「有主見」的模型,因為它提供各式各樣視覺效果有趣的影像。相較於 Apple M3 Ultra,這款模型在 GeForce RTX 5090 執行的速度提升 8 倍。 

Black Forest Labs 全新的 FLUX.1 Krea [dev] 模型提供更逼真且多樣化的影像。
Hunyuan3D 2.1 是完全開源的正式環境就緒 3D 生成系統,可將輸入的影像或文字轉換為具備符合物理定律之渲染材質的高擬真度 3D 素材。核心元件包括有 33 億參數的形狀生成用模型,以及有 20 億參數的紋理分析用模型,可迅速生成更逼真的材質。在 Blackwell RTX GPU 執行的速度更快。 

利用 Hunyuan3D 2.1 快速將影像變成 3D 模型。

開始使用先進的視覺生成技術 

視覺生成式 AI 這項工具雖然功能強大,但即使是技術專家,入門可能也不簡單,更何況學習如何使用較先進的技術,通常需要花上好幾個月的時間。 

ComfyUI 提供可達成特定任務的範本或預設節點,讓使用者輕輕鬆鬆就能展開先進的工作流程,例如讓不同代的角色保持一致、調整影像光線,或是載入微調模型。這樣一來,即使是不懂技術的藝術家,也能輕鬆使用先進的 AI 工作流程。 

以下是開始使用生成式 AI 的 10 項關鍵技術: 

  • 定義開始畫格和結束畫格,引導影片生成:上傳開始畫格和結束畫格,以及影片片段開始和結束的方式。接著,Wan 2.2 可生成順暢的過渡動畫效果,填補中間的畫格,製作出連貫的動畫。這項技術很適合製作動畫、轉換場景或定義姿勢。 
  • 升頻影像或影片:以較低解析度拍攝影像或影片,然後加入逼真的高頻細節提高解析度,讓細節品質更優異。 
  • 控制區域構圖:控制影像特定區域的視覺元素排列與版面設計,以更精細的方式控制影像生成。 
  • 重新設計影像風格:使用 FLUX Redux 打造出不同版本的影像,同時保留核心視覺元素和細節。 
  • 將音訊轉換為影片:直接從語音、音樂或環境聲音等音訊輸入內容建立影片片段或動畫。 

X 關注 ComfyUI,掌握創作範本與工作流程的最新消息。 

擴充 ComfyUI 區域

ComfyUI 外掛程式可讓使用者將生成式 AI 工作流程加入現有的應用程式。ComfyUI 社群已開始為幾款熱門的創作應用程式打造外掛程式。 

Adobe Photoshop 外掛程式讓使用者自行執行流程,為特定工作選擇專門的模型,與 Photoshop 原生 Firefly 模型相輔相成。此外,本機推論可實現低延遲的無限生成式填充。 

3D 引導生成式 AI 用的 NVIDIA AI Blueprint 具備 Blender 外掛程式,讓使用者能連接 2D 與 3D 工作流程。藝術家可使用 3D 場景控制影像生成,或是先在 ComfyUI 創造紋理,然後分別套用至 3D 素材。 

Foundry Nuke 外掛程式與 Blender 相似,可連接 2D 與 3D 工作流程,因此使用者無需按下 Alt-Tab 鍵,在不同應用程式之間切換。 

Unreal Engine 外掛程式可直接在 Unreal Engine 使用者介面使用 ComfyUI 節點,利用生成式擴散模型快速打造及微調場景紋理。請參閱下方範例。 

在 ComfyUI 執行 NVIDIA RTX GPU 的超最佳化模型

NVIDIA RTX GPU 的最佳使用方式是 TensorRT 函式庫這款高效能深度學習推論引擎,可讓 NVIDIA RTX GPU 的 Tensor 核心發揮極致速度。 

NVIDIA 與頂尖 AI 實驗室合作,將 TensorRT 整合至各種模型,例如 Black Forest Labs 的模型Stability AI 的模型。這些模型也有量化版本,也就是經過壓縮的網路版,耗用的 VRAM 減少 50-70%,推論速度最快達 2 倍,並且維持相似的品質。 

TensorRT 最佳化模型可透過 TensorRT 節點直接在 ComfyUI 執行,目前支援 SDXL、SD3 與 SD3.5,以及 FLUX.1-dev 和 FLUX.1-schnell 模型。這個節點會將 AI 模型轉換為 TensorRT 最佳化模型,然後為使用者的 GPU 生成 TensorRT 最佳化引擎 (如何以最佳效率針對特定硬體執行該模型的指南),大幅提升速度。 

然而,將模型量化的過程稍微繁瑣一點。針對有興趣執行量化 TensorRT 最佳化模型的使用者,NVIDIA 在稱為 NIM 微服務的簡單容器提供預先設定的檔案。使用者可透過 ComfyUI 的 NIM 節點載入這些容器,並使用量化版本的模型,例如 FLUX.1-devFLUX.1-schnellFLUX.1 KontextSD3.5 LargeMicrosoft TRELLIS 

Remix 更新新增路徑追蹤的粒子系統

今日透過 NVIDIA App 發布的全新 RTX Remix 更新,新增先進的粒子系統,可讓模改玩家強化傳統的火焰與煙霧效果,以及電玩遊戲《傳送門》這類更如夢似幻的效果。 

利用 RTX Remix,經典遊戲舊有的粒子效果,如今可以用路徑追蹤技術呈現,讓粒子能投射逼真的光線,打造許多更生動的場景畫面。但事實上,這些粒子仍是 20 多年前的舊作品,無論細節、質感或動畫效果流暢度都顯得不足。 

RTX Remix 的新粒子屬性符合物理定律,可與遊戲的光照等效果互動。這樣一來,粒子便能碰撞、隨著風和其他力量精確移動、在表面反射、投射陰影,以及自行指定陰影。 

如需全新粒子系統的完整解析,請參閱 GeForce 文章 

RTX AI Garage 部落格系列每週都會發表社群推動的 AI 創新成果和內容,讓有興趣的人深入瞭解 NVIDIA NIM 微服務和 AI Blueprint,以及如何在 AI PC 和工作站打造 AI 代理、創作工作流程,以及生產力 App 等。 

FacebookInstagramTikTokX 關注 NVIDIA AI PC,並且訂閱 RTX AI PC 電子報,掌握最新消息。加入 NVIDIA Discord 伺服器,與社群開發者和 AI 愛好者交流,討論 RTX AI 可實現哪些可能性。 

LinkedInX 關注 NVIDIA 工作站。 

請參閱軟體產品資訊通知