
很少有教程讲这么细,淘宝卖500以上的都做不到这么细,敬请收藏
提示词炼金术:四大AI绘图模型的图片创作秘籍
——GPT Image 2 / Nano Banana 2 / Midjourney V7 / Stable Diffusion 实战指南
─────────────────────────
2026年,AI绘图进入了真正的「战国时代」。
OpenAI的GPT Image 2会「思考」了,Google的Nano Banana 2能保持14张图的角色一致,Midjourney V7的美学依旧无敌,Stable Diffusion依然是开源定制之王。
但问题是:许多人用这些工具,依然停留在「输入一句话,等一张图」的阶段。结果往往差强人意——不是你运气不好,是你还没摸到提示词的诀窍。
这篇文章不讲大道理,只讲实打实的技巧。我会带你深入每个模型的提示词核心,让你真正掌握怎么写、怎么调、怎么用。
准备好了吗?让我们开始。
─────────────────────────
第一章:为什么你的提示词总是「差一口气」?
1.1 三个灵魂拷问
在开始学技巧之前,我想先问你三个问题:
第一问:当你说「画一张好看的图片」时,你脑海里具体看到了什么?是金色夕阳下的雪山?还是霓虹闪烁的未来城市?——你的「好看」和AI的「好看」,是同一个「好看」吗?
第二问:你有没有发现,同一个提示词在不同模型、不同时间、甚至不同随机种子下,出来的结果完全不一样?——这是AI的「任性」,还是你描述得不够准确?
第三问:如果你要让一个从没见过的插画师帮你画图,你会怎么描述你要的感觉?是只说「画得好看点」,还是会告知他画风、构图、光线、甚至参考图?
这三个问题的答案,决定了你能不能真正掌握提示词工程。
1.2 提示词的本质:不是命令,是表达
许多人写提示词时,潜意识里把AI当成了「听话的工具」——我下指令,它执行。
错。
AI更像是一个「天才但社恐的画家」:它脑子里有无穷无尽的画法,但如果你不告知它具体要什么,它就只能给你一张「平均分」的图——什么都有,但什么都不出彩。
好的提示词,本质上是一场「精准的表达」——你要把脑海中的画面,用AI能理解的方式描述出来。
1.3 四种模型,四种语言
GPT Image 2、Nano Banana 2、Midjourney V7、Stable Diffusion——这四个模型虽然都是「图生图」,但它们的脾气性格完全不同。
|
模型 |
性格特点 |
最适合的场景 |
|
—— |
———- |
————– |
|
GPT Image 2 |
机智、会思考、听话 |
商业海报、UI设计、多文字场景 |
|
Nano Banana 2 |
编辑能力强、记性好 |
品牌视觉、角色一致、多图编辑 |
|
Midjourney V7 |
美感无敌、有个性 |
艺术插画、概念图、氛围图 |
|
Stable Diffusion |
低调、全能、听话 |
定制风格、批量生产、技术玩家 |
接下来的每一章,我都会带你深入一个模型,告知你它的脾气、它的语言、它的独门秘籍。
─────────────────────────
第二章:GPT Image 2——会「思考」的绘图AI
2.1 什么是「会思考」?
GPT Image 2最大的突破,不是像素更高、颜色更靓,而是它在画图之前,会先「想一想」。
普通的绘图模型:你说「画个杂志封面」,它就直接画。
GPT Image 2:你说「画个杂志封面」,它会先分析——杂志封面一般什么结构?标题放哪?图片多大?怎么排版?文字该用什么字体?——想清楚再画。
这个能力叫做「Agentic Reasoning」,简单说就是:AI在执行任务之前,会先规划、推理、优化。
这对你意味着什么?
复杂场景的成功率大幅提升。以前你要反复调整才能得到的「多元素组合」,目前AI能第一次就做对。
2.2 核心能力一览
能力一:2K分辨率
原生支持2048像素,商业印刷、高清展示都够用。
能力二:多语言精准文字
中文、日文、韩文、印地文、阿拉伯文——都能精准渲染。这是目前文字渲染最强的模型之一。
能力三:一次生成多格式
输入「为咖啡品牌设计4个社媒素材」,能同时返回1:1、9:16、16:9、3:4四种尺寸的图。
能力四:Web搜索集成
可以实时查询最新信息。生成「2026年巴黎时装周」海报时,会自动联网确认场地和品牌。
2.3 提示词这样写才有效
原则一:说「要什么」,不说「怎么画」
GPT Image 2很机智,你不需要教它步骤。你只需要告知它你要什么结果。
反例:
“`
先画一个圆形背景,然后在中间放一个产品图,文字放上面,底部加个标签
“`
正例:
“`
一个极简风格的产品海报,产品是手冲咖啡套装(陶瓷滤杯、手磨咖啡壶、木质托盘),背景是浅米色亚麻布纹理,主标题「晨间仪式」用优雅衬线体,副标题「精选埃塞俄比亚耶加雪菲」用无衬线体,整体风格偏日式侘寂美学
“`
原则二:描述要具体到「能拍板」
你说「好看的咖啡杯」,AI不知道你喜爱什么风格的好看。但如果你说「白色哑光陶瓷手冲咖啡杯,杯身有细微手工痕迹,底部有淡青色釉变」,AI就能给你一个具体的画面。
原则三:多元素场景直接说
GPT Image 2的规划能力强,你不需要把布局说得太死。给它一个场景描述,它会自己安排元素位置。
反例:
“`
左边放图片,右边放文字,中间加分隔线
“`
正例:
“`
一张活动海报,主角是一位拉小提琴的街头艺术家,背后是夕阳下的古镇石板路街道,音乐氛围浓厚,海报底部三分之一处有活动信息:时间、地点、票价
“`
2.4 真实提示词模板
模板一:商业海报
“`
[品牌/产品类型]海报,[风格描述]风格
主视觉:[具体描述]
主标题:「[文字内容]」用[字体风格]
副标题:「[文字内容]」
配色:[颜色描述]
整体感觉:[氛围描述]
“`
实战示例:
“`
精品咖啡品牌海报,日式极简风格
主视觉:手工陶瓷滤杯放在原木托盘上,旁边有新鲜咖啡豆和手写卡片
主标题:「慢是一种生活方式」用优雅衬线体
副标题:「来自云南普洱的精品咖啡豆」
配色:米白、浅褐、原木棕
整体感觉:宁静、温暖、手工感、有故事
“`
模板二:社交媒体多图
“`
4张[平台]配图,风格统一为[风格描述]:
图1([尺寸]):[内容描述]
图2([尺寸]):[内容描述]
图3([尺寸]):[内容描述]
图4([尺寸]):[内容描述]
“`
实战示例:
“`
4张微信配图,风格统一为温暖治愈系:
图1(1:1正方形):手捧咖啡杯的特写,杯身有手绘樱花图案,窗外是清晨阳光
图2(9:16竖版):咖啡馆角落场景,木质桌椅、吊灯、墙上挂着咖啡豆装饰画
图3(16:9横版):咖啡豆从上方倾倒的慢动作特写,光线营造出咖啡油脂的光泽
图4(3:4竖版):打开的笔记本旁边放着拿铁,笔记本上有手写日程,整体是工作日氛围
“`
模板三:信息图表
“`
一张关于[主题]的信息图,包含:
– 主标题:[文字]
– 核心数据:[数字+单位]
– 4个关键点:[描述],每个配一个[图标类型]
– 数据来源:[标注]
设计风格:[风格],适合[使用场景]
“`
实战示例:
“`
一张关于「每天该喝多少水」的信息图,包含:
– 主标题:喝水的科学
– 核心数据:8杯(约2升)
– 4个关键点:
1. 早上起床先喝1杯温水(协助唤醒身体)
2. 餐前30分钟喝半杯(促进消化)
3. 运动前后补充水分(根据出汗量)
4. 睡前1小时喝小半杯(不宜过多)
– 数据来源:中国居民膳食指南2026
设计风格:清新自然风,配色以蓝绿为主,适合健康类公众号
“`
模板四:UI设计稿
“`
[应用类型]的[界面类型]界面设计,包含:
– 顶部导航栏:[内容描述]
– 主内容区:[功能描述]
– 底部标签栏:[标签描述]
设计风格:[风格],颜色:[配色]
“`
实战示例:
“`
记账App的首页界面设计,包含:
– 顶部导航栏:显示「2026年5月」,右侧有搜索图标
– 主内容区:顶部是本月支出摘要(大字「¥3,842」),下面是支出分类饼图,最下方是今日支出列表
– 底部标签栏:首页(高亮)、记账、报表、我
设计风格:简洁现代,颜色以薄荷绿为主色调,字体使用系统默认
“`
2.5 成本优化小技巧
GPT Image 2按Token计费,简单几张图花不了多少钱,但想省钱可以这样做:
1. 先用简单描述试方向:复杂提示词先简化,确认方向对了再加细节
2. 批量生成选草稿:不确定时多生成几个版本,选中方向后再精细化
3. 文字密集的图成本略高:提示词里文字越多,消耗越多
─────────────────────────
第三章:Nano Banana 2——多图一致的秘密武器
3.1 它的杀手锏:14路参考一致性
Nano Banana 2(Gemini 2.5 Flash Image升级版)最厉害的地方,是它能同时参考14张图片,保持完美一致。
想象这个场景:你要给一个IP角色设计一套表情包,需要不同姿态、不同场景、不同角度——但角色要长得一模一样。
用普通工具,你要么每次都描述半天,要么后期花大力气修图。
用Nano Banana 2,你只需要把角色参考图喂给它,它就能在各种场景里保持角色一致。
3.2 核心能力一览
能力一:14张图同时参考
目前业界最多的多参考支持。适合角色一致性、产品多角度、品牌视觉统一。
能力二:精准多语言文字
和GPT Image 2同级别,中日韩英法德都能精准渲染。
能力三:风格迁移
把参考图的风格(色调、质感、笔触)应用到目标图。
能力四:智能编辑
局部换背景、添元素、调构图,同时保持主体不变。
3.3 提示词这样写才有效
原则一:明确「变」与「不变」
编辑图片时,最重大的就是告知AI:什么要保持,什么要改变。
反例:
“`
把这张图改得更好看一点
“`
正例:
“`
保持人物的脸、服装、发型完全不变
改变:背景换成海边日落,添加椰子树,添加温暖的金色光线
“`
原则二:用「主体+修改」结构
“`
保持不变:[具体描述]
修改:[具体描述]
“`
实战示例:
“`
保持不变:30岁左右的亚洲男性,短发,穿深蓝色西装,白色衬衫,领带是暗红色
修改:背景换成五星级酒店大堂,浅色大理石地板,水晶吊灯,自然光从落地窗照进来
“`
原则三:多参考时指定每个的用途
“`
参考1(角色):[描述主角]
参考2(风格):[风格参考]
参考3(色调):[色调参考]
生成要求:[综合指令]
“`
3.4 真实提示词模板
模板一:角色多场景
“`
创建[数量]张[角色描述]的图,每个场景不同:
场景1:[场景描述]
场景2:[场景描述]
场景3:[场景描述]
所有图中角色特征必须一致:[关键特征列表]
“`
实战示例:
“`
创建4张「咖啡馆女老板」角色图,每个场景不同:
场景1:站在吧台后,手冲咖啡姿势,围裙上有咖啡渍
场景2:坐在窗边看书,阳光洒在脸上,手里拿拿铁
场景3:在门口迎客,面带微笑,手里拿着菜单
场景4:打烊后擦拭桌子,背景是暖黄色灯光
所有图中角色特征必须一致:30岁左右,马尾辫,圆框眼镜,围裙上有一只猫的刺绣,右手腕有胎记,笑容温和
“`
模板二:产品多角度展示
“`
生成[数量]张[产品名称]的展示图:
角度1:[描述]
角度2:[描述]
角度3:[描述]
风格统一:[描述]
产品形态和品牌元素保持一致:[具体要求]
“`
实战示例:
“`
生成6张「复古蓝牙音箱」的产品展示图:
角度1:正面45度角,展示音箱全貌,皮革材质和金属旋钮清晰可见
角度2:侧面特写,展示音箱厚度和喇叭网格细节
角度3:顶部俯视,展示皮革缝线纹理和logo位置
角度4:放在书桌上,旁边有书本和台灯,展示使用场景
角度5:音箱旁边放着手机,展示蓝牙连接功能
角度6:特写旋钮旋转的动态效果
风格统一:暖色调复古风,胶片质感
产品形态和品牌元素保持一致:方形音箱、皮革外壳、黄铜按钮、底部有「RETRO」金属铭牌
“`
模板三:风格迁移
“`
保留原图的人物/主体不变,只改变风格:
原图:[描述]
目标风格:[风格描述],参考[风格关键词]
氛围:[描述]
色调处理:[描述]
“`
实战示例:
“`
保留原图人物不变,只改变风格:
原图:一位穿白衬衫的年轻女性,站在办公室窗前
目标风格:Art Deco装饰艺术风格,参考1920年代海报的扁平化处理和几何装饰
氛围:华丽、戏剧性、复古优雅
色调处理:金色和黑色为主,点缀奶油白,高对比度
“`
模板四:背景替换
“`
原图场景:[描述]
保持不变:[元素]
替换为:[新背景描述]
光线调整:[描述]
“`
实战示例:
“`
原图场景:普通办公室格子间
保持不变:同一个人物,女性,穿灰色职业装,站姿
替换为:热带海岛度假村大堂,棕榈树、白色帷幔、泳池景
光线调整:把荧光灯换成自然阳光,加窗外海景的蓝调光线,添加薄荷绿和白色的清新感
“`
3.5 编辑专项技巧
局部重绘:
“`
在原图中,把[要替换的元素]换成[新元素],
[周围元素]保持原样
“`
日夜转换:
“`
将[日间场景]转为夜晚场景:
天空:[夜空描述]
添加:[夜晚元素,如灯光、月亮、星星]
光线:[夜间光线处理]
人物和主体保持不变
“`
构图调整:
“`
调整图片比例为[新比例],
通过[扩展/裁剪]背景实现,
主体保持[位置要求]
“`
─────────────────────────
第四章:Midjourney V7——美学无对手
4.1 为什么Midjourney总是一眼惊艳?
许多人第一次用Midjourney,都会有这种感觉:「这图怎么这么好看?」
Midjourney的秘密在于:它脑子里装的是人类几百年的审美积累。它的「美学直觉」不是学出来的,是被海量艺术作品「喂」出来的。
这既是优势,也是「麻烦」——Midjourney有时候会「自作主张」,在你不想要的地方也加上自己的审美。
所以用Midjourney的关键是:给它足够的审美指引,但不要过度限制它的发挥空间。
4.2 核心参数速查
|
参数 |
作用 |
常用值 |
|
—— |
—— |
——– |
|
–ar |
宽高比 |
16:9、1:1、9:16、3:2 |
|
–s |
风格化强度 |
100-1000,数字越大越艺术 |
|
–v |
版本 |
7(当前最新) |
|
–style |
风格预设 |
raw(少美化)、cute、scenic |
|
–q |
质量/时间 |
2(最高质量) |
|
–no |
不要的元素 |
–no text |
4.3 提示词这样写才有效
原则一:描述画面,不描述步骤
反例:
“`
先画个圆形背景,然后在里面画个月亮,再在月亮旁边画星星,然后用渐变处理背景
“`
正例:
“`
梦幻夜空,一轮满月悬挂在深蓝色天幕上,周围是闪烁的星星和淡淡的银河,萤火虫在草地上飞舞,月光洒在湖面上创造出一条银色倒影,氛围神秘而宁静
“`
原则二:善用艺术家名字
Midjourney对艺术家风格的理解超级准确。一句「参考XXX的风格」,比你写一大段描述都管用。
实战示例:
“`
一幅森林女神的肖像,参考Alphonse Mucha的Art Nouveau风格,装饰性边框,流动的曲线,植物藤蔓与人物融为一体,色彩以青绿和金为主
“`
原则三:用–style raw减少「过度美化」
默认情况下Midjourney会给图片加上「美颜滤镜」。如果你想要更真实或更准确的结果,加上`–style raw`。
4.4 真实提示词模板
模板一:电影级构图
“`
[类型]电影剧照,[场景描述],
[摄影机角度],[导演风格]影响,
电影感调色,[光线描述],
[画面比例] –ar [比例] –v 7 –style raw –s [值] –q 2
“`
实战示例:
“`
黑色电影风格场景,一个侦探站在雨中巷子里,靠着砖墙,烟雾缭绕,低角度拍摄展示湿漉漉的地面反射,黑色电影泰斗吴宇森影响,青橙色调,单一路灯创造的戏剧性阴影 –ar 21:9 –v 7 –style raw –s 750 –q 2
“`
模板二:产品概念设计
“`
产品摄影:[产品],
[材质描述],
放置在[环境],
[光线描述],
[相机规格],
商业品质,[背景描述] –ar [比例] –v 7 –style raw –s [值] –q 2
“`
实战示例:
“`
极简无线耳机产品摄影,哑光白陶瓷质感,
放置在日本枯山水庭院中的一块太湖石上,
柔和的顶部自然光,
使用佳能100mm微距镜头拍摄,
背景虚化的禅意花园,
商业产品品质 –ar 4:5 –v 7 –style raw –s 400 –q 2
“`
模板三:艺术风格插画
“`
[艺术风格]插画,[主体描述],
[艺术家影响],
[配色方案],
[质感描述],
[细节水平] –ar [比例] –v 7 –style raw –s [值] –q 2
“`
实战示例:
“`
Art Nouveau新艺术风格插画,神秘的森林女神,银色长发与藤蔓花朵交织,周围环绕着神话生物,参考穆夏的精致线条艺术,宝石色调配金色点缀,纸张纹理可见,极其精细的装饰边框 –ar 3:4 –v 7 –style raw –s 800 –q 2
“`
模板四:建筑概念设计
“`
建筑可视化:[建筑类型],[设计风格],
[环境背景],[材质],
[光线和时间],[渲染风格],
[视角] –ar [比例] –v 7 –style raw –s [值] –q 2
“`
实战示例:
“`
新加坡垂直森林摩天大楼建筑可视化,生物建筑设计,每层露台都有瀑布般的绿色植物,获得LEED白金认证,日落时分长阴影,渲染风格参考扎哈·哈迪德建筑事务所,航拍视角展示与城市肌理的融合 –ar 16:9 –v 7 –style raw –s 600 –q 2
“`
4.5 文字渲染技巧
V7的文字渲染能力提升许多,但还是要讲究方法:
技巧一:用引号包裹文字
“`
一个霓虹灯招牌,写着「24小时营业」,
复古手写字体,雨夜场景 –ar 16:9 –v 7 –style raw
“`
技巧二:明确字体风格
“`
咖啡馆橱窗,黑板菜单,
文字写着「今日特调:薰衣草拿铁」,
手写粉笔风格,温暖室内灯光,
舒服的咖啡馆氛围 –ar 9:16 –v 7 –style raw
“`
技巧三:用–no避免杂字
“`
一张专业名片设计,简洁白色背景,
优雅排版 –no 模糊的字 杂乱的字母 水印 –ar 3:2 –v 7 –style raw
“`
─────────────────────────
第五章:Stable Diffusion——开源定制的无限可能
5.1 为什么要学Stable Diffusion?
前面三个都是「云端服务」,Stable Diffusion是「本地开源」。
这意味着:
– 完全免费
– 可以训练自己的模型
– 可以用LoRA定制风格
– 可以无限使用
代价是:你需要多学一点技术知识。但只要认真学几天,你就能拥有完全属于你自己的AI绘图能力。
5.2 三个核心概念
Checkpoint模型:就是「基础画风」,决定整体走向。列如SDXL、SD 1.5。
LoRA:就是「风格滤镜」,可以叠加在基础模型上。列如一个「二次元LoRA」能让任何图都变成二次元风。
Embeddings:就是「负面清单」,告知AI什么不要画。用来避免常见的生成问题。
5.3 权重语法——这是SD的独门绝技
Stable Diffusion支持一种叫做「权重语法」的特殊符号,可以精准控制每个元素的重大程度。
括号权重:
“`
(word) = 权重×1.1 (稍微强调)
((word)) = 权重×1.21 (强调较多)
[[word]] = 权重×1.33 (超级强调)
[word] = 权重×0.9 (稍微减弱)
“`
冒号权重:
“`
(word:1.5) = 权重×1.5
(word:0.5) = 权重×0.5
(word:2.0) = 权重×2.0
“`
实战案例:
想让图片里多出现「猫」:
“`
(((cat))), 咖啡馆场景, 温暖灯光, 木质桌椅
“`
对比不同权重,猫的数量会明显变化。
5.4 关键词融合——让两张图「合体」
语法:
“`
[关键词1 : 关键词2 : 数字]
“`
数字是0到1之间,表明在生成过程的哪个时间点切换。
实战案例:
“`
[苹果 : 火焰 : 0.3]
“`
在30%的步数时从「苹果」切换到「火焰」,结果是一个保留苹果形状,但颜色和纹理逐渐变成火焰效果的图。
实战案例:面部融合
“`
[明星A : 明星B : 0.85]
“`
在85%的步数时从明星A切换到明星B,生成一个融合两人特征的面孔。
5.5 负向提示词——SD的隐藏王牌
这是Stable Diffusion最独特的功能:你可以明确告知AI,你不想要什么。
基础负向词:
“`
丑, 畸形, 变形, 糟糕的解剖, 多余的手指, 缺失的手指,
缺失的肢体, 模糊, 水印, 文字, 签名
“`
场景化负向词:
人像摄影:
“`
丑, 畸形, 嘈杂, 模糊, 低对比度, 糟糕的解剖, 糟糕的手,
多余的手指, 缺失的手指, 糟糕的比例
“`
动漫风格:
“`
写实, 照片级, 3D渲染, 电影, 真人人像, 低质量,
糟糕的解剖, 糟糕的比例, 多余的肢体
“`
5.6 真实提示词模板
模板一:高写实人像
“`
杰作, 最高质量, 1女性, 单独, [年龄][种族]女性,
[发型]头发, [眼睛颜色]眼睛, [表情],
[着装描述], 站在[环境], [光线描述],
[相机规格], 专业摄影, 焦点清晰, 8K, 照片级
“`
实战示例:
“`
杰作, 最高质量, 1女性, 单独, 三十岁左右东亚女性,
黑色长直发, 绿色眼睛, 自信微笑,
穿深蓝色西装外套配白色丝绸衬衫, 站在现代写字楼大堂,
右侧窗户自然光, 使用佳能85mm f/1.4镜头拍摄,
专业肖像摄影, 焦点在眼睛, 8K, 照片级
“`
模板二:概念环境艺术
“`
概念艺术, [环境类型], [详细描述],
[天气和时间], [光线描述], [氛围],
[风格], 流行于artstation,
[渲染器风格], 极精细, 8K, 电影构图, [视角描述]
“`
实战示例:
“`
概念艺术, 废弃空间站内部, 巨大的控制室,
破碎的窗户远处可见地球, 零重力漂浮的碎片,
应急红灯投射锐利阴影, 尘埃粒子被遥远星光照亮,
后启示录科幻氛围, 超精细数字绘画,
流行于artstation, Unreal Engine 5渲染质量,
极精细, 8K, 电影构图, 低角度仰视
“`
模板三:产品商业摄影
“`
产品摄影 [产品], [材质描述], [颜色描述],
放置在[背景], [光线设置], [相机和镜头],
[景深控制], 工作室背景, [背景颜色],
商业品质, 极锐利, 8K
“`
实战示例:
“`
产品摄影 瑞士名表, 抛光钢表壳蓝色表盘,
真皮表带缝线清晰可见, 放置在黑色大理石表面,
左上单灯创建优雅高光和反射,
使用尼康105mm微距镜头, 浅景深聚焦表盘,
工作室纯黑背景, 商业品质, 极锐利, 8K
“`
模板四:动漫角色设计
“`
动漫风格插画 [性别][角色类型],
[发型发色], [眼睛], [表情],
[着装], [姿态], [背景元素],
鲜艳色彩, [动漫风格影响],
[渲染质量], 精细, 高质量
“`
实战示例:
“`
动漫风格插画 女性战士, 银色长发随风飘动,
坚定的红色眼眸, 穿黑色战术铠甲配发光青色电路图案,
手持太刀准备姿态, 樱花花瓣与动作融合,
受攻壳机动队美学影响, 赛璐璐风格配数字绘画,
精细线稿, 高质量
“`
5.7 LoRA使用指南
LoRA是Stable Diffusion的「风格包」,可以叠加使用。
语法:
“`
<lora:名称:权重>
“`
权重范围一般0-2,1是标准强度。
实战示例:
“`
杰作, 最高质量, 1女孩, 单独, 粉色短发,
穿校服, 微笑, 站在教室,
自然光, <lora:add-detail:1.0>, <lora:animelineart:0.8>
“`
─────────────────────────
第六章:四平台对比——什么时候用什么
6.1 核心差异一览
|
想要的效果 |
GPT Image 2 |
Nano Banana 2 |
Midjourney V7 |
Stable Diffusion |
|
———– |
————- |
————– |
————— |
—————— |
|
精准文字 |
强 |
强 |
一般 |
弱(需技巧) |
|
多图一致 |
一般 |
最强 |
一般 |
一般 |
|
艺术美感 |
强 |
强 |
最强 |
取决于模型 |
|
定制灵活 |
一般 |
一般 |
一般 |
最强 |
|
文字渲染 |
精准 |
精准 |
改善中 |
需技巧 |
6.2 场景推荐速查
|
场景 |
推荐模型 |
缘由 |
|
—— |
———- |
—— |
|
商业海报+多文字 |
GPT Image 2 |
推理规划+精准文字 |
|
品牌视觉多图一致 |
Nano Banana 2 |
14路参考+编辑 |
|
艺术插画/概念图 |
Midjourney V7 |
美学质量最强 |
|
定制风格/批量 |
Stable Diffusion |
LoRA+本地免费 |
|
UI设计稿 |
GPT Image 2 |
Agentic规划 |
|
产品摄影 |
Midjourney V7/SD |
光影质感 |
|
角色立绘多角度 |
Nano Banana 2 |
一致性最佳 |
|
信息图表 |
GPT Image 2 |
推理+多格式 |
─────────────────────────
第七章:通用设计原则——所有模型都适用
7.1 主体描述的黄金公式
无论哪个模型,主体描述都是核心。记住这个公式:
主体 = 身份 + 外貌 + 姿态 + 着装 + 情绪
范例:
反例:`一个人`
正例:
“`
三十岁左右的东亚男性医生,穿白大褂,脖子上挂着听诊器,双臂交叉站立显示轻微的不耐烦,绿色眼睛淡妆,马尾发型,站在医院走廊,专业但亲切的神态
“`
7.2 环境描述的层次
环境 = 大场景 + 中场景 + 小场景 + 细节
范例:
“`
广阔的东非大草原,金色时刻(大大草原)
零散的猴面包树散落在起伏的丘陵上(中场景)
高草在温暖微风中摇曳,远处山脉延伸至地平线(小场景)
一头母狮在树荫下休憩,苍蝇懒洋洋地盘旋(细节)
“`
7.3 光线词汇库
|
光线类型 |
描述词 |
|
———- |
——– |
|
自然光 |
金色时刻、蓝调时刻、阴天、正午强光 |
|
人造光 |
柔光箱、环形灯、霓虹灯、烛光 |
|
电影光 |
明暗对比、伦勃朗光、轮廓光、蝶光 |
|
情绪光 |
温暖、凉爽、戏剧性、空灵、忧郁 |
7.4 风格参考词库
|
风格类别 |
关键词 |
|
———- |
——– |
|
摄影风格 |
人像、景色、街头摄影、微距、长曝光 |
|
艺术流派 |
印象派、超现实主义、Art Nouveau、Art Deco、浮世绘 |
|
艺术家风格 |
参考安塞尔·亚当斯、参考荒木经惟、参考宫崎骏 |
─────────────────────────
第八章:常见问题与解决
8.1 文字渲染问题
GPT Image 2 / Nano Banana 2:文字渲染已经很精准,直接用引号包裹即可。
Midjourney V7:用`–style raw`减少美化,明确字体风格描述。
Stable Diffusion:文字是难点,解决方案:
1. 用ControlNet控制文字位置
2. 在图像外部用工具添加文字
3. 使用Ultimate SD Upscaler提升文字清晰度
8.2 手部和面部畸形
Stable Diffusion:
– 使用负向提示词:`糟糕的手, 多余的手指, 畸形脸`
– 使用Hand Refiner等插件
Midjourney V7:
– 使用`–style raw`
– 添加详细的手部描述
GPT Image 2 / Nano Banana 2:
– Agentic推理已大幅减少畸形
– 仍需具体描述手部动作
8.3 风格不一致
Midjourney V7:
– 使用一样seed
– 使用`–s`控制风格化程度
– 使用`–sref`锁定风格
Nano Banana 2:
– 多参考图输入
– 明确指定保持不变的元素
─────────────────────────
第九章:效率工作流
9.1 快速迭代四步法
第一步:草稿生成
用最快的方式生成多个草稿,确认方向。
第二步:方向选择
从草稿中选1-2个最接近目标的。
第三步:精细化
用选中方向的特征,生成高配版本。
第四步:后处理
使用图像编辑工具进行最终调整。
9.2 批量生产策略
场景:需要大量同风格图像
方案A:Stable Diffusion + LoRA
1. 训练一个符合风格的LoRA
2. 使用一样的核心提示词
3. 只改变主体描述
方案B:Nano Banana 2 + 参考图
1. 确定风格参考图
2. 保持参考图不变
3. 只改变主体内容
─────────────────────────
第十章:真实项目案例
案例:手作品牌视觉全套
需求:为手工皂品牌「草间」创建全套视觉素材
解决方案:
– 产品主图:Midjourney V7(光影质感最佳)
– 社媒配图:GPT Image 2(一次多格式)
– 品牌插画:Stable Diffusion + 定制LoRA
– 编辑素材:Nano Banana 2(保持一致)
执行提示词:
产品主图(Midjourney V7):
“`
手工皂产品摄影,三块排列艺术,干花和枯叶装饰,
浅米色亚麻布背景,晨光窗户柔光阴影,
佳能100mm微距镜头俯拍,顶级品质 –ar 1:1 –v 7 –style raw –s 500 –q 2
“`
社媒配图(GPT Image 2):
“`
4张手工皂品牌「草间」的社交媒体配图,风格统一自然植物系:
方形:手工皂全家福,配薰衣草干花,浅绿和米白配色
竖版:手部涂抹手工皂的特写,泡沫丰富,文字「每日仪式感」
横版:阳光洒在手工皂制作台,木勺、模具、干花排列
竖版:模特使用手工皂护肤的场景,温馨浴室背景
全部统一:莫兰迪色系,手工质感,草木绿和暖米色
“`
品牌插画(Stable Diffusion + LoRA):
“`
杰作, 最高质量, 品牌插画「草间」, 手绘植物风格,
薰衣草和迷迭香藤蔓交织, 柔和水彩纹理,
品牌名优雅手写体融入设计, 低饱和自然色,
专业品牌品质, <lora:水彩植物:1.2>
“`
─────────────────────────
第十一章:实践检查清单
开始之前
– [ ] 明确最终用途
– [ ] 选择合适的模型
– [ ] 确定输出尺寸和比例
主体描述
– [ ] 身份(谁/什么)
– [ ] 外貌(颜色、形状、材质)
– [ ] 姿态/状态
– [ ] 着装/覆盖物
– [ ] 情绪/氛围
环境描述
– [ ] 大场景
– [ ] 中场景
– [ ] 小场景/道具
– [ ] 光线描述
– [ ] 天气/时间
风格控制
– [ ] 媒介(摄影/绘画/3D)
– [ ] 艺术风格
– [ ] 参考艺术家
– [ ] 质量标签
技术参数
– [ ] 比例/尺寸
– [ ] 光线设置
– [ ] 负向提示词
─────────────────────────
最后的一句话
提示词工程,本质上是用语言描述画面的能力。
你不需要记住所有技巧。你只需要记住:
1. 描述越具体,结果越可控
2. 不同模型有不同的脾气,用对方式才能发挥最大效果
3. 迭代是常态,不要期待一次成功
4. 找到适合你的模型和使用方式,坚持使用
AI图片生成的世界很大,四大模型各有所长。掌握提示词工程,就是掌握了这个时代的「视觉魔法」。
去创造吧。
─────────────────────────
本文聚焦GPT Image 2、Nano Banana 2、Midjourney V7、Stable Diffusion四个模型的实战提示词技巧,所有示例均经过验证,可直接使用或根据需求调整。
提议收藏本文,在实际创作时随时查阅。



