AI 图像生成
这页适合作为“AI 出图工具与本地工作流入口”。想把图像生成真正用顺,通常要同时考虑平台选择、模型类型、提示词结构、工作流工具和显存预算,而不是只盯着单个模型名。
先按目标选
- 想要最快出效果:优先在线平台
- 想做长期迭代与批量工作流:优先 ComfyUI
- 想要传统一站式界面:优先 Stable Diffusion WebUI
- 想做文字排版、海报、Logo:优先 Ideogram、Recraft 这类强文字与设计平台
- 想要高度可控的本地生成:优先本地模型 + 节点工作流
在线平台
| 平台 | 说明 | 定价 |
|---|---|---|
| Midjourney | 艺术风格最强,社区活跃 | $10/月起 |
| DALL-E 3 | ChatGPT 内置,易用性最佳 | ChatGPT Plus $20/月 |
| Ideogram | 文字渲染能力最强 | 免费 / $8/月起 |
| Recraft | 设计师向,Logo/图标/UI 素材 | 免费 / $25/月 |
| Leonardo AI | 游戏角色和概念艺术 | 免费 / $12/月起 |
| Adobe Firefly | Adobe 生态集成,商用安全 | Creative Cloud 订阅 |
| Microsoft Designer | 微软 AI 设计,免费 | 免费 |
| Stitch | Google AI 设计工具 | 免费 |
| Civitai | AI 模型社区,可在线生成 | 免费 / 按量 |
选择建议
| 场景 | 推荐 |
|---|---|
| 艺术创作 | Midjourney |
| 照片级写实 | Flux 2 / Midjourney |
| 图中文字 | Ideogram / GPT Image |
| Logo 和 UI 素材 | Recraft |
| 游戏角色 | Leonardo AI |
| 商用安全 | Adobe Firefly |
| 免费使用 | Microsoft Designer / Ideogram Free |
推荐工具组合
快速创作组合
- 在线平台出第一版
- 满意方向后再补高分辨率或局部重绘
适合海报、封面、社媒图和灵感探索。
本地可控组合
- 模型管理:Civitai / Hugging Face
- 工作流:ComfyUI
- 素材后处理:FFmpeg / 图像工具 / PS 类软件
适合需要 LoRA、ControlNet、角色一致性和批量出图的场景。
开源模型
Flux
Black Forest Labs 推出的开源文生图模型,目前最强的开源方案:
| 版本 | 说明 |
|---|---|
| Flux.1 Dev | 开发版,质量高,速度适中 |
| Flux.1 Schnell | 快速版,4 步出图 |
| Flux 2 | 最新版,照片级写实 |
| Flux Kontext | 支持图像编辑和角色一致性 |
可在 ComfyUI 中使用 Flux 模型:
# 下载 Flux.1 Dev(需 Hugging Face 账号)
# 放入 ComfyUI/models/checkpoints/
Stable Diffusion
| 版本 | 说明 |
|---|---|
| SD 1.5 | 经典版,LoRA 生态最丰富 |
| SDXL | 高分辨率,质量提升明显 |
| SD 3.5 | 最新版,文字理解增强 |
本地部署
Stable Diffusion WebUI
最流行的本地 AI 图像生成界面:
# 克隆
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
# 启动(首次会自动下载依赖)
./webui-user.bat
访问 http://localhost:7860
ComfyUI
节点式工作流,更灵活的图像生成:
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
python main.py
访问 http://localhost:8188
硬件要求
- 显存:最低 4GB(SDXL 建议 8GB+)
- 推荐 NVIDIA GPU(CUDA 加速)
- 内存:16GB+
推荐落地顺序
建议按下面顺序上手:
- 先用在线平台验证提示词和风格方向
- 再选一个本地工作流工具
- 再下载最少量的基础模型和常用 LoRA
- 再补 ControlNet、修脸、放大、局部重绘流程
- 最后再做批量生成和风格资产库管理
这样可以避免一开始就下载一堆模型,结果目录混乱、显存也不够用。
模型资源
Civitai
AI 图像生成模型社区,包含 Checkpoint、LoRA、VAE 等:
Hugging Face
模型托管平台:
Ollama(本地大模型)
winget install Ollama.Ollama
# 运行图像理解模型
ollama run llava
模型类型
| 类型 | 说明 | 大小 |
|---|---|---|
| Checkpoint | 基础模型 | 2-7 GB |
| LoRA | 微调模型,叠加使用 | 10-200 MB |
| VAE | 色彩解码器 | ~300 MB |
| Embedding | 文本嵌入 | ~100 KB |
| ControlNet | 姿态/边缘控制 | ~1.5 GB |
常见问题
出图很糊或细节差
优先检查:
- 基础模型是否适合当前题材
- 分辨率是否过低
- 采样步数和采样器是否合理
- 是否需要高分修复、放大或二次重绘
手部、文字、结构总是崩
这是图像生成常见问题。可以优先尝试:
- 更强的基础模型
- 局部重绘
- ControlNet / 参考图
- 专门擅长文字的在线平台
本地跑不动
先不要急着堆插件和大模型。更稳的做法是:
- 先跑轻量模型或 Schnell 版本
- 降低分辨率
- 关闭不必要的附加节点
- 确认 CUDA、驱动和显存占用是否正常
风险提醒
- 模型站内容复杂,下载前先确认来源和许可范围
- 商业用途要额外确认平台和模型许可
- LoRA、Embedding、VAE 过多时要做好目录与命名管理
- 浏览器在线出图工具方便,但敏感素材和私有项目更适合本地流程
延伸阅读
提示词技巧
正面提示词结构
主题描述, 画面质量, 风格, 光照, 细节
例:
1girl, white dress, standing in flower field,
masterpiece, best quality, ultra detailed,
soft lighting, bokeh, depth of field
负面提示词
lowres, bad anatomy, bad hands, text, error,
missing fingers, extra digit, fewer digits,
cropped, worst quality, low quality, blurry
常用参数
| 参数 | 推荐值 | 说明 |
|---|---|---|
| Steps | 20-30 | 采样步数 |
| CFG Scale | 7-9 | 提示词相关度 |
| Sampler | DPM++ 2M Karras | 采样器 |
| 分辨率 | 512x512 / 1024x1024 | 根据模型选择 |
参考链接
- Stable Diffusion WebUI — GitHub
- ComfyUI — GitHub
- Civitai — 模型社区
- Midjourney — 官网
- Ideogram — 文字生成最强
- Recraft — 设计师向工具
- Flux Models — Hugging Face
- LoRA 训练教程 — Kohya 训练脚本