跳转到内容

Stable Diffusion

维基百科,自由的百科全书

这是本页的一个历史版本,由Benlisquare留言 | 贡献2022年10月10日 (一) 07:41 建立内容为“{{Infobox software | name = Stable Diffusion | logo = | screenshot = File:A photograph of an astronaut riding a horse 2022-08-28.png | screenshot size = 250px | caption = 由Stable Diffusion根據文本提示「一張宇航員騎馬的照片」產生的圖像。 | developer = StabilityAI | released = 2022年08月22日 | latest release version = 1.5 (模型)<ref>{{cite web |url=https://mobile.twitter.com/EMostaque/status/1567067419750825985…”的新页面)编辑。这可能和当前版本存在着巨大的差异。

(差异) ←上一修订 | 最后版本 (差异) | 下一修订→ (差异)
Stable Diffusion
由Stable Diffusion根據文本提示「一張宇航員騎馬的照片」產生的圖像。
由Stable Diffusion根據文本提示「一張宇航員騎馬的照片」產生的圖像。
開發者StabilityAI
首次发布2022年08月22日
当前版本1.5 (模型)[1](2022年08月31日)
源代码库github.com/CompVis/stable-diffusion
编程语言Python
操作系统任何支持CUDA內核函數的操作系統
类型文本到圖像模型​(英语
许可协议Creative ML OpenRAIL-M
网站stability.ai

Stable Diffusion是由初創公司StabilityAI於2022年發布的深度學習文本到圖像模型​(英语。它主要用於根據文本的描述產生詳細圖像,儘管它也可以應用於其他任務,如修復、外畫,以及在文本提示​(英语指導下產生圖像到圖像的翻譯。[2]

它是一種潛在擴散模型,由慕尼黑大學的研究人員開發的各種生成性人工神經網絡。它是由Stability AI,慕尼黑大學與Runway合作開發的,並得到EleutherAI和LAION​(英语的支持。[3][4][5] 截至2022年9月,Stability AI正在洽談以高達10億美元的估值籌集資金。[6]

Stable Diffusion的代碼和模型權重已經公開發布,它可以在大多數配備有適度GPU的電腦硬件上運行。這標誌著與以前的專有文本到圖像模型(如DALL-EMidjourney)不同,這些模型只能通過雲端服務訪問。[7][8]

技術架構

Stable Diffusion使用的潛在擴散結構圖。

Stable Diffusion是一種擴散模型(diffusion model)。擴散模型是在2015年推出的,其目的是消除對訓練圖像的連續應用高斯噪聲,可以將其視為一系列去噪自動編碼器。它使用了一種被稱為「潛在擴散模型」(latent diffusion model; LDM)的變體。與其學習去噪圖像數據(在「像素空間」中),而是訓練自動編碼器將圖像轉換為低維潛在空間。添加和去除噪聲的過程被應用於這個潛在表示,然後將最終的去噪輸出解碼到像素空間中。每個去噪步驟都由一個U-Net架構完成。研究人員指出,降低訓練和生成的計算要求是LDM的一個優勢。[3][9]

去噪步驟可以以文本串、圖像或一些其他數據為條件。調節數據的編碼通過交叉注意機制(cross-attention mechanism)暴露給去噪U-Net的架構。為了對文本進行調節,一個Transformer模型被訓練來對文本提示進行編碼。[9]

用法

File:Algorithmically-generated AI artwork of Hakurei Reimu (part 1 of 4).png
演示當指示繪製同一主題時,不同的文本提示如何影響由Stable Diffusion模型產生的圖像輸出。每一行代表輸入到模型中的不同文本提示,每一行之間的藝術風格也有變化,根據短語的差異。提示部分片段如下:
第一行: art style of artgerm and greg rutkowski
第二行: art style of makoto shinkai and akihiko yoshida and hidari and wlop
第三行: art style of Michael Garmash
第四行: Charlie Bowater and Lilia Alvarado and Sophie Gengembre Anderson and Franz Xaver Winterhalter, by Konstantin Razumov, by Jessica Rossier, by Albert Lynch

Stable Diffusion模型支持通過使用文本提示來產生新的圖像,描述要包含或省略的元素,[4]以及重新繪製現有的圖像,其中包含文本提示中描述的新元素(該過程通常被稱為「指導性圖像合成」(guided image synthesis)[10])通過使用模型的擴散去噪機制(diffusion-denoising mechanism)。[4] 此外,該模型還允許通過文本提示在現有的圖中進行修復和外畫來部分更改,當與支持這種功能的用戶界面使用時,其中存在許多不同的開源軟件[11]

Stable Diffusion建議在10GB以上的VRAM下運行, 但是VRAM較少的用戶可以選擇以float16的精度加載權重,而不是默認的float32,以降低VRAM使用率。[12]

文本到圖像生成

演示負面文本提示對圖像生成的影響。
  • : 無負面文本提示
  • : "綠樹"
  • : "圓形石頭"

Stable Diffusion中的文本到圖像採樣腳本,稱為"txt2img",接受一個文本提示,以及包括採樣類型(sampling type),圖像尺寸,和隨機種子​(粤语的各種選項參數,並根據模型對提示的解釋生成一個圖像文件。[4] 生成的圖像帶有不可見的數位浮水印標籤,以允許用戶識別由Stable Diffusion生成的圖像,[4]儘管如果圖像被調整大小或旋轉,該水印將失去其有效性。[13] SD模型是在由512×512分辨率圖像組成的數據集上訓練出來的,[4][14]這意味著txt2img生成圖像的最佳配置也是以512×512的分辨率生成的,偏離這個大小會導致生成輸出質量差。[12]

每一個txt2img的生成過程都會涉及到一個影響到生成圖像的隨機種子;用戶可以選擇隨機化種子以探索不同生成結果,或者使用相同的種子來獲得與之前生成的圖像相同的結果。[12] 用戶還可以調整採樣器的推理步驟數(inference steps);較高的值需要較長的運行時間,但較小的值可能會導致視覺缺陷。[12] 另一個可配置的選項,即無分類指導比例值,允許用戶調整生成圖像與提示的緊密程度(classifier-free guidance scale value);[15]更具實驗性或創造性的用例可以選擇較低的值,而旨在獲得更具體輸出的用例可以使用較高的值。[12]

負面文本提示(negative prompt)是包含在Stable Diffusion的一些用戶界面軟件中的一個功能,它允許用戶指定模型在圖像生成過程中應該避免的提示,適用於由於用戶提供的普通文本提示,或者由於模型最初的訓練,造成圖像輸出中出現不良的圖像特徵。[11] 與使用強調標記(emphasis marker)相比,使用負面文本提示在降低生成不良的圖像的頻率方面具有高度統計顯著的效果;強調標記是另一種為提示的部分增加權重的方法,被一些Stable Diffusion的開源實現所利用,在關鍵詞中加入括號以增加或減少強調。[16]

圖像修改

Stable Diffusion包括另一個取樣腳本,稱為"img2img",它接受一個文本提示、現有圖像的文件路徑和0.0到1.0之間的強度值,並在原始圖像的基礎上產生一個新的圖像,該圖像也具有文本提示中提供的元素;強度值表示添加到輸出圖像的噪聲量,值越大,圖像變化越多,但在語義上可能與提供的提示不一致。[4] 圖像升格是img2img的一個潛在用例,除此之外。[4]

內畫修改與外畫擴大

Stable Diffusion模型的許多不同用戶界面軟件提供了通過img2img進行圖像修改的其他用例。內畫修改(inpainting)由用戶提供的蒙版描繪的現有圖像的一部分,根據所提供的文本提示,用新生成的內容填充蒙版的空間。[11] 相反,外繪將圖(outpainting)像擴展到其原始尺寸之外,用根據所提供的文本提示生成的內容來填補以前的空白空間。[11]

在Stable Diffusion中使用img2img的內畫修改與外畫擴大技術的演示
第一步: 使用txt2img生成新圖像。巧合的是,它無意中生成了這個缺少一隻手臂的人。
第二步: 通過外畫擴大,圖像底部被擴展了512像素,並被AI生成的內容所填充。
第三步: 在準備內畫修改時,使用GIMP中的畫筆繪製了一個臨時的手臂。
第四步: 在臨時手臂上應用修復蒙版,img2img生成一個新手臂,同時保持圖像的其餘部分保持不變。

許可證

DALL-E等模型不同,Stable Diffusion提供其源代碼[17][4]以及預訓練的權重。其許可證禁止某些使用案例,包括犯罪,誹謗騷擾人肉搜索,「剝削…未成年人」,提供醫療建議,自動創建法律義務,偽造法律證據,以及「基於…社會行為或…個人或人格特徵…或受法律保護的特徵或類別而歧視或傷害個人或群體」。[18][19] 用戶擁有其生成的圖像的權利,並可自由地將其用於商業用途。[20]

模型培訓

Stable Diffusion是在LAION-5B的圖片和標題對上訓練的,LAION-5B是一個公開的數據集,源自從網絡上抓取的Common Crawl​(英语數據。該數據集由LAION​(英语創建,LAION是一家德國非營利組織,接受StabilityAI的資助。[14][21] 該模型最初是在LAION-5B的一個大子集上訓練的,最後幾輪訓練是在「LAION-Aesthetics v2 5+」上進行的,這是一個由6億張帶標題的圖片組成的子集,人工智能預測人類在被要求對這些圖片的喜歡程度打分時至少會給5/10打分。[14][22] 這個最終的子集也排除了低分辨率的圖像和被人工智能識別為帶有水印的圖像。[14] 對該模型的訓練數據進行的第三方分析發現,在從所使用的原始更廣泛的數據集中抽取的1200萬張圖片的較小子集中,大約47%的圖像樣本量來自100個不同的網站,其中Pinterest佔8.5%子集,其次是WordPressBlogspotFlickrDeviantArt維基共享資源等網站。[14]

該模型是在亞馬遜網絡服務上使用256個NVIDIA A100 GPU進行訓練的,共計15萬個GPU小時,成本為60萬美元。[23][24][25]

社會影響

由Stable Diffusion生成的逼真圖像示例,其中弗拉基米爾·普京跪下親吻烏克蘭國旗。一個普遍的擔憂是,[25][18]由Stable Diffusion等模型生成的圖像,特別是逼真的圖像,可能被用來誤導或造成其他形式的傷害。

由於藝術風格構圖不受版權保護,因此通常認為使用Stable Diffusion生成藝術品圖像的用戶不應被視為侵犯視覺相似作品的版權,[26] 但是如果生成的圖像中所描述的真人被使用,他們仍然受到人格權的保護,[26] 而且諸如可識別的品牌標識等知識產權仍然受到版權保護。儘管如此,藝術家們表示擔心Stable Diffusion等模型的廣泛使用最終可能導致人類藝術家以及攝影師、模特、電影攝影師和演員逐漸失去與基於人工智能的競爭對手的商業可行性。[21]

與其他公司的類似機器學習圖像合成產品相比,Stable Diffusion在用戶可能產生的內容類型方面明顯更加寬容,例如暴力或性暴露的圖像。[27]

StabilityAI的首席執行官Emad Mostaque解決了該模型可能被用於濫用目的的擔憂,他解釋說:「人們有責任了解他們在操作這項技術時是否符合道德、道德和法律」,[8]將Stable Diffusion的能力交到公眾手中會使該技術在整體上提供淨收益,即使有潛在的負面後果。[8] 此外,Mostaque認為,Stable Diffusion的開放可用性背後的意圖是結束大公司對此類技術的控制和主導地位,他們之前只開發了封閉的人工智能係統進行圖像合成。[8][27]

參見

參考文獻

  1. ^ Mostaque, Emad. Stable Diffusion 1.5 beta now available to try via API and #DreamStudio, let me know what you think. Much more tomorrow…. Twitter. 2022-06-06. (原始内容存档于2022-09-27) (英语). 
  2. ^ Diffuse The Rest - a Hugging Face Space by huggingface. huggingface.co. [2022-09-05]. (原始内容存档于2022-09-05) (英语). 
  3. ^ 3.0 3.1 Stable Diffusion Launch Announcement. Stability.Ai. [2022-09-06]. (原始内容存档于2022-09-05) (英语). 
  4. ^ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022 [17 September 2022] (英语). 
  5. ^ Revolutionizing image generation by AI: Turning text into images. LMU Munich. [17 September 2022] (英语). 
  6. ^ Cai, Kenrick. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion. Forbes. [2022-09-10] (英语). 
  7. ^ The new killer app: Creating AI art will absolutely crush your PC. PCWorld. [2022-08-31]. (原始内容存档于2022-08-31) (英语). 
  8. ^ 8.0 8.1 8.2 8.3 Vincent, James. Anyone can use this AI art generator — that’s the risk. The Verge. 15 September 2022 (英语). 
  9. ^ 9.0 9.1 Rombach; Blattmann; Lorenz; Esser; Ommer. High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA: 10684–10695. June 2022. arXiv:2112.10752可免费查阅 (英语). 
  10. ^ Meng, Chenlin; He, Yutong; Song, Yang; Song, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations. arXiv (arXiv). August 2, 2021. doi:10.48550/arXiv.2108.01073 (英语). 
  11. ^ 11.0 11.1 11.2 11.3 Stable Diffusion web UI. GitHub (英语). 
  12. ^ 12.0 12.1 12.2 12.3 12.4 Stable Diffusion with 🧨 Diffusers. Hugging Face official blog. August 22, 2022 (英语). 
  13. ^ invisible-watermark README.md. GitHub (英语). 
  14. ^ 14.0 14.1 14.2 14.3 14.4 Baio, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator. Waxy.org. 30 August 2022 (英语). 
  15. ^ Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. arXiv (arXiv). July 26, 2022. doi:10.48550/arXiv.2207.12598 (英语). 
  16. ^ Johannes Gaessler. Emphasis. GitHub. September 11, 2022 (英语). 
  17. ^ Stable Diffusion Public Release. Stability.Ai. [2022-08-31]. (原始内容存档于2022-08-30) (英语). 
  18. ^ 18.0 18.1 Ready or not, mass video deepfakes are coming. The Washington Post. 2022-08-30 [2022-08-31]. (原始内容存档于2022-08-31) (英语). 
  19. ^ License - a Hugging Face Space by CompVis. huggingface.co. [2022-09-05]. (原始内容存档于2022-09-04) (英语). 
  20. ^ Katsuo Ishida. 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能. Impress Corporation. August 26, 2022 (日语). 
  21. ^ 21.0 21.1 Heikkilä, Melissa. This artist is dominating AI-generated art. And he's not happy about it.. MIT Technology Review. 16 September 2022 (英语). 
  22. ^ LAION-Aesthetics | LAION. laion.ai. [2022-09-02]. (原始内容存档于2022-08-26) (英语). 
  23. ^ Mostaque, Emad. Cost of construction. Twitter. August 28, 2022 [2022-09-06]. (原始内容存档于2022-09-06) (英语). 
  24. ^ Stable Diffusion v1-4 Model Card. huggingface.co. [2022-09-20] (英语). 
  25. ^ 25.0 25.1 This startup is setting a DALL-E 2-like AI free, consequences be damned. TechCrunch. [2022-09-20] (英语). 
  26. ^ 26.0 26.1 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI. Automaton Media. August 24, 2022 (日语). 
  27. ^ 27.0 27.1 Ryo Shimizu. Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由. Business Insider Japan. August 26, 2022 (日语). 

外部鏈接