StableDiffusion到底有多少种模型？他们都是干嘛的？分别该如何用？

三月 26, 2023

StableDiffusion到底有多少种模型？他们都是干嘛的？分别该如何用？

StableDiffusion模型种类繁多，一般的新手看到都是焦头烂额，很难搞清楚他们分别有什么左右？又有什么区别？该如何使用？

首先我们常用的模型有checkpoint,vae，embedding,hypernetwork,lora、upscale模型等等，这些资源在C站都可以下载到，C站也是目前AI绘画资料最全的网站，每天都有很多新的模型上传，这个宝藏级网站一定要用明白。

C站模型分类检索筛选

看了上图你是不是更晕了，模型不就是模型吗？怎么有这么多种类，接下来我们按使用频率来讲解几个主要模型，其中有必须模型和选用模型。

一、必须模型有checkpoint和vae，不过有部分checkpoint模型融合了vae模型，所以不需要单独下载和配置，这个可以看模型的说明信息，另外一个办法就是如果你发现你生成的图片偏灰，那么大概率是使用了一个没有融合VAE的模型导致，这时最好就要下载匹配的VAE模型，这两个模型是绘图必须的。在额外调用VAE时会自动覆盖掉原来的SD VAE。checkpoint又叫底模或者大模型，是对绘画内容影响最大的模型，一定要下载和你需求匹配的模型来绘图。

二、选用的模型就比较多了，其中最常用的有LoRa模型、ControlNet模型、HypernetWork模型、embedding模型（TEXTUAL INVERSION），这些模型和checkpoint相比，体积比较小，训练难度也相对较小。

1、LoRa模型，一般几十兆到一两百兆，是使用最多的可选模型，LoRA: Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术，主要用于处理大模型微调的问题。简单来说，lora模型为我们提供了更便捷更自由的微调模型，能够使我们在底膜的基础上，进一步指定整体风格、指定人脸等等，而且lora模型非常的小，大部分都只有几十MB，非常的方便！目前LoRa的使用介绍资料最多，暂时不展开介绍，后面有需要再单独在写一篇文章详细介绍。

2、ControlNet模型的比较大，不过有人做过精简，这个目前主要主要有八大功能，有制定生成Pose、线稿与图片相互转化等神奇功能，相见可以见我写的相关介绍文章。

ControlNet有什么神奇效果？为什么是ControlNet给StableDiffusion装上了翅膀？

3、HypernetWork模型，中文叫超文本网络模型，这个HYPENETWORK是一种可以生成神经网络架构的模型，它可以用来生成各种类型的神经网络。在AI绘画中，HYPERNETWORK可以用来生成一些高分辨率、高质量的图像。

具体来说，HYPERNETWORK模型可以通过学习已知的高分辨率图像集合，用于影响会话的风格，然后生成可以生成新的高分辨率图像的神经网络。这个神经网络可以被看作是一个生成器，它可以接收一些随机噪声作为输入，并输出一张高分辨率的图像。，后面单独在写一篇文章详细介绍。

4、embedding模型，即文本倒置（Textual Inversion），大家也称呼为私炉，Textual Inversion 的优势是轻量级、简单上手。它可以对主体（object）进行训练，让 AI 记住这个“人”或“物”，也可以对画风（style）进行训练，比如可以记住某位在世艺术家的画风然后让 AI 以此画风来画任何事物

，这个，后面单独在写一篇文章详细介绍。

5、upscale模型，即我们常说的放大模型，这个模型主要用途是放大图片，增补细节，让生成更高质量的图片，不过这个放大模型可以在生成时调用，也可以在生成后在附加功能中批量处理，这个看各自需要。

其他还有一些例如Wildcards之类的模型，由于目前使用的人比较少，后面再补充介绍。

下载这些模型就去C站，这个上面资源最多。

另外在使用上，他们都有对应的模型放置地点，能外还要先安装对应的插件，默认一般是这样的，当然有可以变更位置，用其他方式调用，这个等大家学习多了自然会了解到。

checkpoints: models/Stable-diffusion

vae: models/VAE

loras: extensions/sd-webui-additional-networks/models/lora

upscale_models: |

models/ESRGAN

models/SwinIR

embeddings: embeddings

controlnet: models/ControlNet

有空，可以听下下面这个

搜索此博客

AI绘画StableDiffusion研究社