全部文章

AI 图像生成

Stable Diffusion、ComfyUI、Civitai 模型与本地部署指南

目录 30 节

AI 图像生成

这页适合作为“AI 出图工具与本地工作流入口”。想把图像生成真正用顺,通常要同时考虑平台选择、模型类型、提示词结构、工作流工具和显存预算,而不是只盯着单个模型名。

先按目标选

  • 想要最快出效果:优先在线平台
  • 想做长期迭代与批量工作流:优先 ComfyUI
  • 想要传统一站式界面:优先 Stable Diffusion WebUI
  • 想做文字排版、海报、Logo:优先 Ideogram、Recraft 这类强文字与设计平台
  • 想要高度可控的本地生成:优先本地模型 + 节点工作流

在线平台

平台说明定价
Midjourney艺术风格最强,社区活跃$10/月起
DALL-E 3ChatGPT 内置,易用性最佳ChatGPT Plus $20/月
Ideogram文字渲染能力最强免费 / $8/月起
Recraft设计师向,Logo/图标/UI 素材免费 / $25/月
Leonardo AI游戏角色和概念艺术免费 / $12/月起
Adobe FireflyAdobe 生态集成,商用安全Creative Cloud 订阅
Microsoft Designer微软 AI 设计,免费免费
StitchGoogle AI 设计工具免费
CivitaiAI 模型社区,可在线生成免费 / 按量

选择建议

场景推荐
艺术创作Midjourney
照片级写实Flux 2 / Midjourney
图中文字Ideogram / GPT Image
Logo 和 UI 素材Recraft
游戏角色Leonardo AI
商用安全Adobe Firefly
免费使用Microsoft Designer / Ideogram Free

推荐工具组合

快速创作组合

  • 在线平台出第一版
  • 满意方向后再补高分辨率或局部重绘

适合海报、封面、社媒图和灵感探索。

本地可控组合

  • 模型管理:Civitai / Hugging Face
  • 工作流:ComfyUI
  • 素材后处理:FFmpeg / 图像工具 / PS 类软件

适合需要 LoRA、ControlNet、角色一致性和批量出图的场景。

开源模型

Flux

Black Forest Labs 推出的开源文生图模型,目前最强的开源方案:

版本说明
Flux.1 Dev开发版,质量高,速度适中
Flux.1 Schnell快速版,4 步出图
Flux 2最新版,照片级写实
Flux Kontext支持图像编辑和角色一致性

可在 ComfyUI 中使用 Flux 模型:

# 下载 Flux.1 Dev(需 Hugging Face 账号)
# 放入 ComfyUI/models/checkpoints/

Stable Diffusion

版本说明
SD 1.5经典版,LoRA 生态最丰富
SDXL高分辨率,质量提升明显
SD 3.5最新版,文字理解增强

本地部署

Stable Diffusion WebUI

最流行的本地 AI 图像生成界面:

# 克隆
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui

# 启动(首次会自动下载依赖)
./webui-user.bat

访问 http://localhost:7860

ComfyUI

节点式工作流,更灵活的图像生成:

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py

访问 http://localhost:8188

硬件要求

  • 显存:最低 4GB(SDXL 建议 8GB+)
  • 推荐 NVIDIA GPU(CUDA 加速)
  • 内存:16GB+

推荐落地顺序

建议按下面顺序上手:

  1. 先用在线平台验证提示词和风格方向
  2. 再选一个本地工作流工具
  3. 再下载最少量的基础模型和常用 LoRA
  4. 再补 ControlNet、修脸、放大、局部重绘流程
  5. 最后再做批量生成和风格资产库管理

这样可以避免一开始就下载一堆模型,结果目录混乱、显存也不够用。

模型资源

Civitai

AI 图像生成模型社区,包含 Checkpoint、LoRA、VAE 等:

Hugging Face

模型托管平台:

Ollama(本地大模型)

winget install Ollama.Ollama

# 运行图像理解模型
ollama run llava

模型类型

类型说明大小
Checkpoint基础模型2-7 GB
LoRA微调模型,叠加使用10-200 MB
VAE色彩解码器~300 MB
Embedding文本嵌入~100 KB
ControlNet姿态/边缘控制~1.5 GB

常见问题

出图很糊或细节差

优先检查:

  • 基础模型是否适合当前题材
  • 分辨率是否过低
  • 采样步数和采样器是否合理
  • 是否需要高分修复、放大或二次重绘

手部、文字、结构总是崩

这是图像生成常见问题。可以优先尝试:

  • 更强的基础模型
  • 局部重绘
  • ControlNet / 参考图
  • 专门擅长文字的在线平台

本地跑不动

先不要急着堆插件和大模型。更稳的做法是:

  • 先跑轻量模型或 Schnell 版本
  • 降低分辨率
  • 关闭不必要的附加节点
  • 确认 CUDA、驱动和显存占用是否正常

风险提醒

  • 模型站内容复杂,下载前先确认来源和许可范围
  • 商业用途要额外确认平台和模型许可
  • LoRA、Embedding、VAE 过多时要做好目录与命名管理
  • 浏览器在线出图工具方便,但敏感素材和私有项目更适合本地流程

延伸阅读

提示词技巧

正面提示词结构

主题描述, 画面质量, 风格, 光照, 细节

例:
1girl, white dress, standing in flower field,
masterpiece, best quality, ultra detailed,
soft lighting, bokeh, depth of field

负面提示词

lowres, bad anatomy, bad hands, text, error,
missing fingers, extra digit, fewer digits,
cropped, worst quality, low quality, blurry

常用参数

参数推荐值说明
Steps20-30采样步数
CFG Scale7-9提示词相关度
SamplerDPM++ 2M Karras采样器
分辨率512x512 / 1024x1024根据模型选择

参考链接

阅读建议
  • - 先读标题和摘要,再结合目录决定从哪个章节开始精读。
  • - 看到具体命令、配置或步骤时,尽量在自己的环境里同步验证。
  • - 如果你只是快速查资料,可先看目录和相关文档,再决定是否深入全文。
适合谁看
  • - 希望把零散经验整理成长期可复用工作流的人
  • - 正在使用 AI 工具、Agent 或自动化工作流的人
  • - 希望阅读时顺手建立自己的操作清单或收藏体系的人
执行前检查
  • - 先浏览标题、摘要和目录,带着问题阅读会更高效
  • - 确认模型供应商、API Key、CLI 工具链与本地资源是否已准备好
  • - 如果页面里提到相关文档,尽量一起打开对照,效果通常更完整
同类内容
← 上一篇AI 提示词工程