Stable Diffusion
开发者 | StabilityAI |
---|---|
首次发布 | 2022年08月22日 |
当前版本 | 1.5 (模型)[1](2022年08月31日) |
源代码库 | github |
编程语言 | Python |
操作系统 | 任何支持CUDA内核函数的操作系统 |
类型 | 文本到图像模型 |
许可协议 | Creative ML OpenRAIL-M |
网站 | stability |
Stable Diffusion是由初创公司StabilityAI于2022年发布的深度学习文本到图像模型 。它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如修复、外画,以及在文本提示 指导下产生图像到图像的翻译。[2]
它是一种潜在扩散模型,由慕尼黑大学的研究人员开发的各种生成性人工神经网络。它是由Stability AI,慕尼黑大学与Runway合作开发的,并得到EleutherAI和LAION 的支持。[3][4][5] 截至2022年9月,Stability AI正在洽谈以高达10亿美元的估值筹集资金。[6]
Stable Diffusion的代码和模型权重已经公开发布,它可以在大多数配备有适度GPU的电脑硬件上运行。这标志着与以前的专有文本到图像模型(如DALL-E和Midjourney)不同,这些模型只能通过云端服务访问。[7][8]
技术架构
Stable Diffusion是一种扩散模型(diffusion model)。扩散模型是在2015年推出的,其目的是消除对训练图像的连续应用高斯噪声,可以将其视为一系列去噪自动编码器。它使用了一种被称为“潜在扩散模型”(latent diffusion model; LDM)的变体。与其学习去噪图像数据(在“像素空间”中),而是训练自动编码器将图像转换为低维潜在空间。添加和去除噪声的过程被应用于这个潜在表示,然后将最终的去噪输出解码到像素空间中。每个去噪步骤都由一个U-Net架构完成。研究人员指出,降低训练和生成的计算要求是LDM的一个优势。[3][9]
去噪步骤可以以文本串、图像或一些其他数据为条件。调节数据的编码通过交叉注意机制(cross-attention mechanism)暴露给去噪U-Net的架构。为了对文本进行调节,一个Transformer模型被训练来对文本提示进行编码。[9]
用法
Stable Diffusion模型支持通过使用文本提示来产生新的图像,描述要包含或省略的元素,[4]以及重新绘制现有的图像,其中包含文本提示中描述的新元素(该过程通常被称为“指导性图像合成”(guided image synthesis)[10])通过使用模型的扩散去噪机制(diffusion-denoising mechanism)。[4] 此外,该模型还允许通过文本提示在现有的图中进行修复和外画来部分更改,当与支持这种功能的用户界面使用时,其中存在许多不同的开源软件。[11]
Stable Diffusion建议在10GB以上的VRAM下运行, 但是VRAM较少的用户可以选择以float16的精度加载权重,而不是默认的float32,以降低VRAM使用率。[12]
文本到图像生成
Stable Diffusion中的文本到图像采样脚本,称为"txt2img",接受一个文本提示,以及包括采样类型(sampling type),图像尺寸,和随机种子 的各种选项参数,并根据模型对提示的解释生成一个图像文件。[4] 生成的图像带有不可见的数位浮水印标签,以允许用户识别由Stable Diffusion生成的图像,[4]尽管如果图像被调整大小或旋转,该水印将失去其有效性。[13] SD模型是在由512×512分辨率图像组成的数据集上训练出来的,[4][14]这意味着txt2img生成图像的最佳配置也是以512×512的分辨率生成的,偏离这个大小会导致生成输出质量差。[12]
每一个txt2img的生成过程都会涉及到一个影响到生成图像的随机种子;用户可以选择随机化种子以探索不同生成结果,或者使用相同的种子来获得与之前生成的图像相同的结果。[12] 用户还可以调整采样器的推理步骤数(inference steps);较高的值需要较长的运行时间,但较小的值可能会导致视觉缺陷。[12] 另一个可配置的选项,即无分类指导比例值,允许用户调整生成图像与提示的紧密程度(classifier-free guidance scale value);[15]更具实验性或创造性的用例可以选择较低的值,而旨在获得更具体输出的用例可以使用较高的值。[12]
负面文本提示(negative prompt)是包含在Stable Diffusion的一些用户界面软件中的一个功能,它允许用户指定模型在图像生成过程中应该避免的提示,适用于由于用户提供的普通文本提示,或者由于模型最初的训练,造成图像输出中出现不良的图像特征。[11] 与使用强调标记(emphasis marker)相比,使用负面文本提示在降低生成不良的图像的频率方面具有高度统计显著的效果;强调标记是另一种为提示的部分增加权重的方法,被一些Stable Diffusion的开源实现所利用,在关键词中加入括号以增加或减少强调。[16]
图像修改
Stable Diffusion包括另一个取样脚本,称为"img2img",它接受一个文本提示、现有图像的文件路径和0.0到1.0之间的强度值,并在原始图像的基础上产生一个新的图像,该图像也具有文本提示中提供的元素;强度值表示添加到输出图像的噪声量,值越大,图像变化越多,但在语义上可能与提供的提示不一致。[4] 图像升格是img2img的一个潜在用例,除此之外。[4]
内画修改与外画扩大
Stable Diffusion模型的许多不同用户界面软件提供了通过img2img进行图像修改的其他用例。内画修改(inpainting)由用户提供的蒙版描绘的现有图像的一部分,根据所提供的文本提示,用新生成的内容填充蒙版的空间。[11] 相反,外绘将图(outpainting)像扩展到其原始尺寸之外,用根据所提供的文本提示生成的内容来填补以前的空白空间。[11]
许可证
与DALL-E等模型不同,Stable Diffusion提供其源代码[17][4]以及预训练的权重。其许可证禁止某些使用案例,包括犯罪,诽谤,骚扰,人肉搜索,“剥削…未成年人”,提供医疗建议,自动创建法律义务,伪造法律证据,以及“基于…社会行为或…个人或人格特征…或受法律保护的特征或类别而歧视或伤害个人或群体”。[18][19] 用户拥有其生成的图像的权利,并可自由地将其用于商业用途。[20]
模型培训
Stable Diffusion是在LAION-5B的图片和标题对上训练的,LAION-5B是一个公开的数据集,源自从网络上抓取的Common Crawl 数据。该数据集由LAION 创建,LAION是一家德国非营利组织,接受StabilityAI的资助。[14][21] 该模型最初是在LAION-5B的一个大子集上训练的,最后几轮训练是在“LAION-Aesthetics v2 5+”上进行的,这是一个由6亿张带标题的图片组成的子集,人工智能预测人类在被要求对这些图片的喜欢程度打分时至少会给5/10打分。[14][22] 这个最终的子集也排除了低分辨率的图像和被人工智能识别为带有水印的图像。[14] 对该模型的训练数据进行的第三方分析发现,在从所使用的原始更广泛的数据集中抽取的1200万张图片的较小子集中,大约47%的图像样本量来自100个不同的网站,其中Pinterest占8.5%子集,其次是WordPress,Blogspot,Flickr,DeviantArt和维基共享资源等网站。[14]
该模型是在亚马逊网络服务上使用256个NVIDIA A100 GPU进行训练的,共计15万个GPU小时,成本为60万美元。[23][24][25]
社会影响
由于艺术风格和构图不受版权保护,因此通常认为使用Stable Diffusion生成艺术品图像的用户不应被视为侵犯视觉相似作品的版权,[26] 但是如果生成的图像中所描述的真人被使用,他们仍然受到人格权的保护,[26] 而且诸如可识别的品牌标识等知识产权仍然受到版权保护。尽管如此,艺术家们表示担心Stable Diffusion等模型的广泛使用最终可能导致人类艺术家以及摄影师、模特、电影摄影师和演员逐渐失去与基于人工智能的竞争对手的商业可行性。[21]
与其他公司的类似机器学习图像合成产品相比,Stable Diffusion在用户可能产生的内容类型方面明显更加宽容,例如暴力或性暴露的图像。[27]
StabilityAI的首席执行官Emad Mostaque解决了该模型可能被用于滥用目的的担忧,他解释说:“人们有责任了解他们在操作这项技术时是否符合道德、道德和法律”,[8]将Stable Diffusion的能力交到公众手中会使该技术在整体上提供净收益,即使有潜在的负面后果。[8] 此外,Mostaque认为,Stable Diffusion的开放可用性背后的意图是结束大公司对此类技术的控制和主导地位,他们之前只开发了封闭的人工智能系统进行图像合成。[8][27]
参见
参考文献
- ^ Mostaque, Emad. Stable Diffusion 1.5 beta now available to try via API and #DreamStudio, let me know what you think. Much more tomorrow…. Twitter. 2022-06-06. (原始内容存档于2022-09-27) (英语).
- ^ Diffuse The Rest - a Hugging Face Space by huggingface. huggingface.co. [2022-09-05]. (原始内容存档于2022-09-05) (英语).
- ^ 3.0 3.1 Stable Diffusion Launch Announcement. Stability.Ai. [2022-09-06]. (原始内容存档于2022-09-05) (英语).
- ^ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Stable Diffusion Repository on GitHub. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022 [17 September 2022] (英语).
- ^ Revolutionizing image generation by AI: Turning text into images. LMU Munich. [17 September 2022] (英语).
- ^ Cai, Kenrick. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion. Forbes. [2022-09-10] (英语).
- ^ The new killer app: Creating AI art will absolutely crush your PC. PCWorld. [2022-08-31]. (原始内容存档于2022-08-31) (英语).
- ^ 8.0 8.1 8.2 8.3 Vincent, James. Anyone can use this AI art generator — that’s the risk. The Verge. 15 September 2022 (英语).
- ^ 9.0 9.1 Rombach; Blattmann; Lorenz; Esser; Ommer. High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA: 10684–10695. June 2022. arXiv:2112.10752 (英语).
- ^ Meng, Chenlin; He, Yutong; Song, Yang; Song, Jiaming; Wu, Jiajun; Zhu, Jun-Yan; Ermon, Stefano. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations. arXiv (arXiv). August 2, 2021. doi:10.48550/arXiv.2108.01073 (英语).
- ^ 11.0 11.1 11.2 11.3 Stable Diffusion web UI. GitHub (英语).
- ^ 12.0 12.1 12.2 12.3 12.4 Stable Diffusion with 🧨 Diffusers. Hugging Face official blog. August 22, 2022 (英语).
- ^ invisible-watermark README.md. GitHub (英语).
- ^ 14.0 14.1 14.2 14.3 14.4 Baio, Andy. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator. Waxy.org. 30 August 2022 (英语).
- ^ Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. arXiv (arXiv). July 26, 2022. doi:10.48550/arXiv.2207.12598 (英语).
- ^ Johannes Gaessler. Emphasis. GitHub. September 11, 2022 (英语).
- ^ Stable Diffusion Public Release. Stability.Ai. [2022-08-31]. (原始内容存档于2022-08-30) (英语).
- ^ 18.0 18.1 Ready or not, mass video deepfakes are coming. The Washington Post. 2022-08-30 [2022-08-31]. (原始内容存档于2022-08-31) (英语).
- ^ License - a Hugging Face Space by CompVis. huggingface.co. [2022-09-05]. (原始内容存档于2022-09-04) (英语).
- ^ Katsuo Ishida. 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能. Impress Corporation. August 26, 2022 (日语).
- ^ 21.0 21.1 Heikkilä, Melissa. This artist is dominating AI-generated art. And he's not happy about it.. MIT Technology Review. 16 September 2022 (英语).
- ^ LAION-Aesthetics | LAION. laion.ai. [2022-09-02]. (原始内容存档于2022-08-26) (英语).
- ^ Mostaque, Emad. Cost of construction. Twitter. August 28, 2022 [2022-09-06]. (原始内容存档于2022-09-06) (英语).
- ^ Stable Diffusion v1-4 Model Card. huggingface.co. [2022-09-20] (英语).
- ^ 25.0 25.1 This startup is setting a DALL-E 2-like AI free, consequences be damned. TechCrunch. [2022-09-20] (英语).
- ^ 26.0 26.1 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI. Automaton Media. August 24, 2022 (日语).
- ^ 27.0 27.1 Ryo Shimizu. Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由. Business Insider Japan. August 26, 2022 (日语).