靈活敏捷:全新影像生成模型在 RTX AI 電腦和工作站上運行速度最快

Black Forest Labs 的最新模型可在 NVIDIA RTX GPU 上產生高品質影像並提供高效能。
作者 Unnikrishnan A R

編者按:本文為「解碼 AI 」系列文章,以深入淺出的方式解密AI,並介紹 RTX PC 的新硬體、軟體、工具與加速功能。

影像生成模型是生成式AI下熱門的一個項目,可解析及理解書面語文,然後幾乎可將文字轉化成任何形式的影像。

Black Forest Labs 全新系列模型在 GeForce RTXNVIDIA RTX GPU 上執行速度最快,現可在PC和工作站試用,展現影像生成可能性的先進技術。

靈活功能

FLUX.1 AI是由 Black Forest Labs 開發的文字轉影像生成模型套件。模型採用擴散轉換器 (DiT) 架構,可讓具有大量參數的模型保持效率。Flux 模型採用 120 億個參數訓練,可產生高品質影像。

DiT 模型有效率且能進行密集運算,而 NVIDIA RTX GPU 是處理這些新模型的必要條件,其中最大型的模型若未經重大調校,便無法在非 RTX 的 GPU 上執行。Flux 模型現在支援 NVIDIA TensorRT 軟體開發套件,效能最高可提升至 20%。使用者可在 ComfyUI 中試用 Flux 和其他模型。

提示:一張雜誌照片,圖中猴子在暴風雪中泡温泉,水面冒出蒸氣。資料來源:NVIDIA

Flux 特點

FLUX.1 擅長透過優異的提示遵循(prompt adherence)能力產生高品質、多樣化的影像,這涉及AI如何準確解讀及執行指令。高度的提示遵循能力表示產生的影像非常符合文字提示所描述的元素、風格和心情。若提示遵循度低,則影像可能部分或完全偏離指定的指令。

FLUX.1 以準確渲染人體解剖結構而聞名,包括手和臉部等具挑戰性的複雜特徵。FLUX.1 也能顯著改善影像中清晰文字的生成,解決了文字轉影像模型面臨的另一個常見難題。由此可見,FLUX.1 模型適合需要精確文字呈現的應用程式,例如宣傳材料和書籍封面。

FLUX.AI 提供三種變體,可讓使用者選擇最適合他們的工作流程,又能兼顧品質:

  • 1 pro:提供最先進的品質,適用於企業使用者;可透過應用程式介面取得。
  • 1 dev:FLUX.1 pro 的免費精簡版,仍可提供高品質。
  • 1 schnell:最快的模型,適合本機開發與個人使用;具備 Apache 2.0 授權。

dev 和 schnell 模型為開放原始碼,且 Black Forest Labs 提供了在熱門平台 Hugging Face 的權重存取權。這可讓研究人員和開發人員建立及強化模型,鼓勵影像生成社群創新與協作。

受到社群擁戴

Flux 模型的 dev 和 schnell 變體自發佈以來不到三週,在 Hugging Face 的下載次數便超過了 200 萬次。

使用者稱讚 FLUX.1 能以絕佳的細節和真實感產生視覺震撼的影像,而且無須大量參數調整便可處理複雜的提示。

提示:一張高解析度專業近照圖,圖中在伊比薩島戶外的電子舞曲夜間演唱會中,一隻孟加拉虎 DJ 身穿白色織紋坦克背心、眼戴墨鏡、耳機掛頸,在舞台上用腳掌刷碟;煙霧縷縷與焦散燈光的派對氛圍。資料來源:NVIDIA
提示:「一張繁華城市街景攝影照,圖中傍晚陰雨交加,黃色計程車停靠路邊,頭燈亮著反射濕漉漉的路面。一名身穿紅色大衣的女生正撐著鮮綠色的雨傘,注視自己的智慧型手機。左邊有一家咖啡館,上面的霓虹燈招牌寫著藍色字母:『Café Mocha』。店裡陳設大面窗,可以看到客人正在享用飲品。街燈照亮了這個區域,為街景照射出暖暖的光芒,對比雨滴在空中營造出霧氣朦朧的效果。在背景中,一棟高樓前的大型數位時鐘顯示時間為晚上 8:45。」資料來源:NVIDIA

此外,FLUX.1 對於處理各種藝術風格展現多樣性,及其快速產生影像的效率,使其成為個人和專業專案的有用工具。

開始使用

使用者可利用 ComfyUI 等的熱門社群網頁存取 FLUX.1。由社群管理的 ComfyUI Wiki 提供著手使用的逐步説明。

許多 YouTube 創作者也提供 Flux 模型的影片教學,例如 MDMZ 的下列教學課程:

 

使用 #fluxRTX 標籤在社群媒體分享生您產生的影像,就有機會在 NVIDIA AI 頻道獲得專文介紹。

生成式AI正在顛覆各種遊戲、視訊會議與互動體驗。訂閲解碼AI電子報,瞭解最新消息與趨勢。