价值688元的提示词炼金术:四大AI绘图模型的图片创作秘籍

全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

价值688元的提示词炼金术:四大AI绘图模型的图片创作秘籍

很少有教程讲这么细,淘宝卖500以上的都做不到这么细,敬请收藏

提示词炼金术:四大AI绘图模型的图片创作秘籍

——GPT Image 2 / Nano Banana 2 / Midjourney V7 / Stable Diffusion 实战指南

─────────────────────────

2026年,AI绘图进入了真正的「战国时代」。

OpenAI的GPT Image 2会「思考」了,Google的Nano Banana 2能保持14张图的角色一致,Midjourney V7的美学依旧无敌,Stable Diffusion依然是开源定制之王。

但问题是:许多人用这些工具,依然停留在「输入一句话,等一张图」的阶段。结果往往差强人意——不是你运气不好,是你还没摸到提示词的诀窍。

这篇文章不讲大道理,只讲实打实的技巧。我会带你深入每个模型的提示词核心,让你真正掌握怎么写、怎么调、怎么用。

准备好了吗?让我们开始。

─────────────────────────

第一章:为什么你的提示词总是「差一口气」?

1.1 三个灵魂拷问

在开始学技巧之前,我想先问你三个问题:

第一问:当你说「画一张好看的图片」时,你脑海里具体看到了什么?是金色夕阳下的雪山?还是霓虹闪烁的未来城市?——你的「好看」和AI的「好看」,是同一个「好看」吗?

第二问:你有没有发现,同一个提示词在不同模型、不同时间、甚至不同随机种子下,出来的结果完全不一样?——这是AI的「任性」,还是你描述得不够准确?

第三问:如果你要让一个从没见过的插画师帮你画图,你会怎么描述你要的感觉?是只说「画得好看点」,还是会告知他画风、构图、光线、甚至参考图?

这三个问题的答案,决定了你能不能真正掌握提示词工程。

1.2 提示词的本质:不是命令,是表达

许多人写提示词时,潜意识里把AI当成了「听话的工具」——我下指令,它执行。

错。

AI更像是一个「天才但社恐的画家」:它脑子里有无穷无尽的画法,但如果你不告知它具体要什么,它就只能给你一张「平均分」的图——什么都有,但什么都不出彩。

好的提示词,本质上是一场「精准的表达」——你要把脑海中的画面,用AI能理解的方式描述出来。

1.3 四种模型,四种语言

GPT Image 2、Nano Banana 2、Midjourney V7、Stable Diffusion——这四个模型虽然都是「图生图」,但它们的脾气性格完全不同。

模型

性格特点

最适合的场景

——

———-

————–

GPT Image 2

机智、会思考、听话

商业海报、UI设计、多文字场景

Nano Banana 2

编辑能力强、记性好

品牌视觉、角色一致、多图编辑

Midjourney V7

美感无敌、有个性

艺术插画、概念图、氛围图

Stable Diffusion

低调、全能、听话

定制风格、批量生产、技术玩家

接下来的每一章,我都会带你深入一个模型,告知你它的脾气、它的语言、它的独门秘籍。

─────────────────────────

第二章:GPT Image 2——会「思考」的绘图AI

2.1 什么是「会思考」?

GPT Image 2最大的突破,不是像素更高、颜色更靓,而是它在画图之前,会先「想一想」。

普通的绘图模型:你说「画个杂志封面」,它就直接画。

GPT Image 2:你说「画个杂志封面」,它会先分析——杂志封面一般什么结构?标题放哪?图片多大?怎么排版?文字该用什么字体?——想清楚再画。

这个能力叫做「Agentic Reasoning」,简单说就是:AI在执行任务之前,会先规划、推理、优化。

这对你意味着什么?

复杂场景的成功率大幅提升。以前你要反复调整才能得到的「多元素组合」,目前AI能第一次就做对。

2.2 核心能力一览

能力一:2K分辨率

原生支持2048像素,商业印刷、高清展示都够用。

能力二:多语言精准文字

中文、日文、韩文、印地文、阿拉伯文——都能精准渲染。这是目前文字渲染最强的模型之一。

能力三:一次生成多格式

输入「为咖啡品牌设计4个社媒素材」,能同时返回1:1、9:16、16:9、3:4四种尺寸的图。

能力四:Web搜索集成

可以实时查询最新信息。生成「2026年巴黎时装周」海报时,会自动联网确认场地和品牌。

2.3 提示词这样写才有效

原则一:说「要什么」,不说「怎么画」

GPT Image 2很机智,你不需要教它步骤。你只需要告知它你要什么结果。

反例:

“`

先画一个圆形背景,然后在中间放一个产品图,文字放上面,底部加个标签

“`

正例:

“`

一个极简风格的产品海报,产品是手冲咖啡套装(陶瓷滤杯、手磨咖啡壶、木质托盘),背景是浅米色亚麻布纹理,主标题「晨间仪式」用优雅衬线体,副标题「精选埃塞俄比亚耶加雪菲」用无衬线体,整体风格偏日式侘寂美学

“`

原则二:描述要具体到「能拍板」

你说「好看的咖啡杯」,AI不知道你喜爱什么风格的好看。但如果你说「白色哑光陶瓷手冲咖啡杯,杯身有细微手工痕迹,底部有淡青色釉变」,AI就能给你一个具体的画面。

原则三:多元素场景直接说

GPT Image 2的规划能力强,你不需要把布局说得太死。给它一个场景描述,它会自己安排元素位置。

反例:

“`

左边放图片,右边放文字,中间加分隔线

“`

正例:

“`

一张活动海报,主角是一位拉小提琴的街头艺术家,背后是夕阳下的古镇石板路街道,音乐氛围浓厚,海报底部三分之一处有活动信息:时间、地点、票价

“`

2.4 真实提示词模板

模板一:商业海报

“`

[品牌/产品类型]海报,[风格描述]风格

主视觉:[具体描述]

主标题:「[文字内容]」用[字体风格]

副标题:「[文字内容]」

配色:[颜色描述]

整体感觉:[氛围描述]

“`

实战示例:

“`

精品咖啡品牌海报,日式极简风格

主视觉:手工陶瓷滤杯放在原木托盘上,旁边有新鲜咖啡豆和手写卡片

主标题:「慢是一种生活方式」用优雅衬线体

副标题:「来自云南普洱的精品咖啡豆」

配色:米白、浅褐、原木棕

整体感觉:宁静、温暖、手工感、有故事

“`

模板二:社交媒体多图

“`

4张[平台]配图,风格统一为[风格描述]:

图1([尺寸]):[内容描述]

图2([尺寸]):[内容描述]

图3([尺寸]):[内容描述]

图4([尺寸]):[内容描述]

“`

实战示例:

“`

4张微信配图,风格统一为温暖治愈系:

图1(1:1正方形):手捧咖啡杯的特写,杯身有手绘樱花图案,窗外是清晨阳光

图2(9:16竖版):咖啡馆角落场景,木质桌椅、吊灯、墙上挂着咖啡豆装饰画

图3(16:9横版):咖啡豆从上方倾倒的慢动作特写,光线营造出咖啡油脂的光泽

图4(3:4竖版):打开的笔记本旁边放着拿铁,笔记本上有手写日程,整体是工作日氛围

“`

模板三:信息图表

“`

一张关于[主题]的信息图,包含:

– 主标题:[文字]

– 核心数据:[数字+单位]

– 4个关键点:[描述],每个配一个[图标类型]

– 数据来源:[标注]

设计风格:[风格],适合[使用场景]

“`

实战示例:

“`

一张关于「每天该喝多少水」的信息图,包含:

– 主标题:喝水的科学

– 核心数据:8杯(约2升)

– 4个关键点:

1. 早上起床先喝1杯温水(协助唤醒身体)

2. 餐前30分钟喝半杯(促进消化)

3. 运动前后补充水分(根据出汗量)

4. 睡前1小时喝小半杯(不宜过多)

– 数据来源:中国居民膳食指南2026

设计风格:清新自然风,配色以蓝绿为主,适合健康类公众号

“`

模板四:UI设计稿

“`

[应用类型]的[界面类型]界面设计,包含:

– 顶部导航栏:[内容描述]

– 主内容区:[功能描述]

– 底部标签栏:[标签描述]

设计风格:[风格],颜色:[配色]

“`

实战示例:

“`

记账App的首页界面设计,包含:

– 顶部导航栏:显示「2026年5月」,右侧有搜索图标

– 主内容区:顶部是本月支出摘要(大字「¥3,842」),下面是支出分类饼图,最下方是今日支出列表

– 底部标签栏:首页(高亮)、记账、报表、我

设计风格:简洁现代,颜色以薄荷绿为主色调,字体使用系统默认

“`

2.5 成本优化小技巧

GPT Image 2按Token计费,简单几张图花不了多少钱,但想省钱可以这样做:

1. 先用简单描述试方向:复杂提示词先简化,确认方向对了再加细节

2. 批量生成选草稿:不确定时多生成几个版本,选中方向后再精细化

3. 文字密集的图成本略高:提示词里文字越多,消耗越多

─────────────────────────

第三章:Nano Banana 2——多图一致的秘密武器

3.1 它的杀手锏:14路参考一致性

Nano Banana 2(Gemini 2.5 Flash Image升级版)最厉害的地方,是它能同时参考14张图片,保持完美一致。

想象这个场景:你要给一个IP角色设计一套表情包,需要不同姿态、不同场景、不同角度——但角色要长得一模一样。

用普通工具,你要么每次都描述半天,要么后期花大力气修图。

用Nano Banana 2,你只需要把角色参考图喂给它,它就能在各种场景里保持角色一致。

3.2 核心能力一览

能力一:14张图同时参考

目前业界最多的多参考支持。适合角色一致性、产品多角度、品牌视觉统一。

能力二:精准多语言文字

和GPT Image 2同级别,中日韩英法德都能精准渲染。

能力三:风格迁移

把参考图的风格(色调、质感、笔触)应用到目标图。

能力四:智能编辑

局部换背景、添元素、调构图,同时保持主体不变。

3.3 提示词这样写才有效

原则一:明确「变」与「不变」

编辑图片时,最重大的就是告知AI:什么要保持,什么要改变。

反例:

“`

把这张图改得更好看一点

“`

正例:

“`

保持人物的脸、服装、发型完全不变

改变:背景换成海边日落,添加椰子树,添加温暖的金色光线

“`

原则二:用「主体+修改」结构

“`

保持不变:[具体描述]

修改:[具体描述]

“`

实战示例:

“`

保持不变:30岁左右的亚洲男性,短发,穿深蓝色西装,白色衬衫,领带是暗红色

修改:背景换成五星级酒店大堂,浅色大理石地板,水晶吊灯,自然光从落地窗照进来

“`

原则三:多参考时指定每个的用途

“`

参考1(角色):[描述主角]

参考2(风格):[风格参考]

参考3(色调):[色调参考]

生成要求:[综合指令]

“`

3.4 真实提示词模板

模板一:角色多场景

“`

创建[数量]张[角色描述]的图,每个场景不同:

场景1:[场景描述]

场景2:[场景描述]

场景3:[场景描述]

所有图中角色特征必须一致:[关键特征列表]

“`

实战示例:

“`

创建4张「咖啡馆女老板」角色图,每个场景不同:

场景1:站在吧台后,手冲咖啡姿势,围裙上有咖啡渍

场景2:坐在窗边看书,阳光洒在脸上,手里拿拿铁

场景3:在门口迎客,面带微笑,手里拿着菜单

场景4:打烊后擦拭桌子,背景是暖黄色灯光

所有图中角色特征必须一致:30岁左右,马尾辫,圆框眼镜,围裙上有一只猫的刺绣,右手腕有胎记,笑容温和

“`

模板二:产品多角度展示

“`

生成[数量]张[产品名称]的展示图:

角度1:[描述]

角度2:[描述]

角度3:[描述]

风格统一:[描述]

产品形态和品牌元素保持一致:[具体要求]

“`

实战示例:

“`

生成6张「复古蓝牙音箱」的产品展示图:

角度1:正面45度角,展示音箱全貌,皮革材质和金属旋钮清晰可见

角度2:侧面特写,展示音箱厚度和喇叭网格细节

角度3:顶部俯视,展示皮革缝线纹理和logo位置

角度4:放在书桌上,旁边有书本和台灯,展示使用场景

角度5:音箱旁边放着手机,展示蓝牙连接功能

角度6:特写旋钮旋转的动态效果

风格统一:暖色调复古风,胶片质感

产品形态和品牌元素保持一致:方形音箱、皮革外壳、黄铜按钮、底部有「RETRO」金属铭牌

“`

模板三:风格迁移

“`

保留原图的人物/主体不变,只改变风格:

原图:[描述]

目标风格:[风格描述],参考[风格关键词]

氛围:[描述]

色调处理:[描述]

“`

实战示例:

“`

保留原图人物不变,只改变风格:

原图:一位穿白衬衫的年轻女性,站在办公室窗前

目标风格:Art Deco装饰艺术风格,参考1920年代海报的扁平化处理和几何装饰

氛围:华丽、戏剧性、复古优雅

色调处理:金色和黑色为主,点缀奶油白,高对比度

“`

模板四:背景替换

“`

原图场景:[描述]

保持不变:[元素]

替换为:[新背景描述]

光线调整:[描述]

“`

实战示例:

“`

原图场景:普通办公室格子间

保持不变:同一个人物,女性,穿灰色职业装,站姿

替换为:热带海岛度假村大堂,棕榈树、白色帷幔、泳池景

光线调整:把荧光灯换成自然阳光,加窗外海景的蓝调光线,添加薄荷绿和白色的清新感

“`

3.5 编辑专项技巧

局部重绘:

“`

在原图中,把[要替换的元素]换成[新元素],

[周围元素]保持原样

“`

日夜转换:

“`

将[日间场景]转为夜晚场景:

天空:[夜空描述]

添加:[夜晚元素,如灯光、月亮、星星]

光线:[夜间光线处理]

人物和主体保持不变

“`

构图调整:

“`

调整图片比例为[新比例],

通过[扩展/裁剪]背景实现,

主体保持[位置要求]

“`

─────────────────────────

第四章:Midjourney V7——美学无对手

4.1 为什么Midjourney总是一眼惊艳?

许多人第一次用Midjourney,都会有这种感觉:「这图怎么这么好看?」

Midjourney的秘密在于:它脑子里装的是人类几百年的审美积累。它的「美学直觉」不是学出来的,是被海量艺术作品「喂」出来的。

这既是优势,也是「麻烦」——Midjourney有时候会「自作主张」,在你不想要的地方也加上自己的审美。

所以用Midjourney的关键是:给它足够的审美指引,但不要过度限制它的发挥空间。

4.2 核心参数速查

参数

作用

常用值

——

——

——–

–ar

宽高比

16:9、1:1、9:16、3:2

–s

风格化强度

100-1000,数字越大越艺术

–v

版本

7(当前最新)

–style

风格预设

raw(少美化)、cute、scenic

–q

质量/时间

2(最高质量)

–no

不要的元素

–no text

4.3 提示词这样写才有效

原则一:描述画面,不描述步骤

反例:

“`

先画个圆形背景,然后在里面画个月亮,再在月亮旁边画星星,然后用渐变处理背景

“`

正例:

“`

梦幻夜空,一轮满月悬挂在深蓝色天幕上,周围是闪烁的星星和淡淡的银河,萤火虫在草地上飞舞,月光洒在湖面上创造出一条银色倒影,氛围神秘而宁静

“`

原则二:善用艺术家名字

Midjourney对艺术家风格的理解超级准确。一句「参考XXX的风格」,比你写一大段描述都管用。

实战示例:

“`

一幅森林女神的肖像,参考Alphonse Mucha的Art Nouveau风格,装饰性边框,流动的曲线,植物藤蔓与人物融为一体,色彩以青绿和金为主

“`

原则三:用–style raw减少「过度美化」

默认情况下Midjourney会给图片加上「美颜滤镜」。如果你想要更真实或更准确的结果,加上`–style raw`。

4.4 真实提示词模板

模板一:电影级构图

“`

[类型]电影剧照,[场景描述],

[摄影机角度],[导演风格]影响,

电影感调色,[光线描述],

[画面比例] –ar [比例] –v 7 –style raw –s [值] –q 2

“`

实战示例:

“`

黑色电影风格场景,一个侦探站在雨中巷子里,靠着砖墙,烟雾缭绕,低角度拍摄展示湿漉漉的地面反射,黑色电影泰斗吴宇森影响,青橙色调,单一路灯创造的戏剧性阴影 –ar 21:9 –v 7 –style raw –s 750 –q 2

“`

模板二:产品概念设计

“`

产品摄影:[产品],

[材质描述],

放置在[环境],

[光线描述],

[相机规格],

商业品质,[背景描述] –ar [比例] –v 7 –style raw –s [值] –q 2

“`

实战示例:

“`

极简无线耳机产品摄影,哑光白陶瓷质感,

放置在日本枯山水庭院中的一块太湖石上,

柔和的顶部自然光,

使用佳能100mm微距镜头拍摄,

背景虚化的禅意花园,

商业产品品质 –ar 4:5 –v 7 –style raw –s 400 –q 2

“`

模板三:艺术风格插画

“`

[艺术风格]插画,[主体描述],

[艺术家影响],

[配色方案],

[质感描述],

[细节水平] –ar [比例] –v 7 –style raw –s [值] –q 2

“`

实战示例:

“`

Art Nouveau新艺术风格插画,神秘的森林女神,银色长发与藤蔓花朵交织,周围环绕着神话生物,参考穆夏的精致线条艺术,宝石色调配金色点缀,纸张纹理可见,极其精细的装饰边框 –ar 3:4 –v 7 –style raw –s 800 –q 2

“`

模板四:建筑概念设计

“`

建筑可视化:[建筑类型],[设计风格],

[环境背景],[材质],

[光线和时间],[渲染风格],

[视角] –ar [比例] –v 7 –style raw –s [值] –q 2

“`

实战示例:

“`

新加坡垂直森林摩天大楼建筑可视化,生物建筑设计,每层露台都有瀑布般的绿色植物,获得LEED白金认证,日落时分长阴影,渲染风格参考扎哈·哈迪德建筑事务所,航拍视角展示与城市肌理的融合 –ar 16:9 –v 7 –style raw –s 600 –q 2

“`

4.5 文字渲染技巧

V7的文字渲染能力提升许多,但还是要讲究方法:

技巧一:用引号包裹文字

“`

一个霓虹灯招牌,写着「24小时营业」,

复古手写字体,雨夜场景 –ar 16:9 –v 7 –style raw

“`

技巧二:明确字体风格

“`

咖啡馆橱窗,黑板菜单,

文字写着「今日特调:薰衣草拿铁」,

手写粉笔风格,温暖室内灯光,

舒服的咖啡馆氛围 –ar 9:16 –v 7 –style raw

“`

技巧三:用–no避免杂字

“`

一张专业名片设计,简洁白色背景,

优雅排版 –no 模糊的字 杂乱的字母 水印 –ar 3:2 –v 7 –style raw

“`

─────────────────────────

第五章:Stable Diffusion——开源定制的无限可能

5.1 为什么要学Stable Diffusion?

前面三个都是「云端服务」,Stable Diffusion是「本地开源」。

这意味着:

– 完全免费

– 可以训练自己的模型

– 可以用LoRA定制风格

– 可以无限使用

代价是:你需要多学一点技术知识。但只要认真学几天,你就能拥有完全属于你自己的AI绘图能力。

5.2 三个核心概念

Checkpoint模型:就是「基础画风」,决定整体走向。列如SDXL、SD 1.5。

LoRA:就是「风格滤镜」,可以叠加在基础模型上。列如一个「二次元LoRA」能让任何图都变成二次元风。

Embeddings:就是「负面清单」,告知AI什么不要画。用来避免常见的生成问题。

5.3 权重语法——这是SD的独门绝技

Stable Diffusion支持一种叫做「权重语法」的特殊符号,可以精准控制每个元素的重大程度。

括号权重:

“`

(word) = 权重×1.1 (稍微强调)

((word)) = 权重×1.21 (强调较多)

[[word]] = 权重×1.33 (超级强调)

[word] = 权重×0.9 (稍微减弱)

“`

冒号权重:

“`

(word:1.5) = 权重×1.5

(word:0.5) = 权重×0.5

(word:2.0) = 权重×2.0

“`

实战案例:

想让图片里多出现「猫」:

“`

(((cat))), 咖啡馆场景, 温暖灯光, 木质桌椅

“`

对比不同权重,猫的数量会明显变化。

5.4 关键词融合——让两张图「合体」

语法:

“`

[关键词1 : 关键词2 : 数字]

“`

数字是0到1之间,表明在生成过程的哪个时间点切换。

实战案例:

“`

[苹果 : 火焰 : 0.3]

“`

在30%的步数时从「苹果」切换到「火焰」,结果是一个保留苹果形状,但颜色和纹理逐渐变成火焰效果的图。

实战案例:面部融合

“`

[明星A : 明星B : 0.85]

“`

在85%的步数时从明星A切换到明星B,生成一个融合两人特征的面孔。

5.5 负向提示词——SD的隐藏王牌

这是Stable Diffusion最独特的功能:你可以明确告知AI,你不想要什么。

基础负向词:

“`

丑, 畸形, 变形, 糟糕的解剖, 多余的手指, 缺失的手指,

缺失的肢体, 模糊, 水印, 文字, 签名

“`

场景化负向词:

人像摄影:

“`

丑, 畸形, 嘈杂, 模糊, 低对比度, 糟糕的解剖, 糟糕的手,

多余的手指, 缺失的手指, 糟糕的比例

“`

动漫风格:

“`

写实, 照片级, 3D渲染, 电影, 真人人像, 低质量,

糟糕的解剖, 糟糕的比例, 多余的肢体

“`

5.6 真实提示词模板

模板一:高写实人像

“`

杰作, 最高质量, 1女性, 单独, [年龄][种族]女性,

[发型]头发, [眼睛颜色]眼睛, [表情],

[着装描述], 站在[环境], [光线描述],

[相机规格], 专业摄影, 焦点清晰, 8K, 照片级

“`

实战示例:

“`

杰作, 最高质量, 1女性, 单独, 三十岁左右东亚女性,

黑色长直发, 绿色眼睛, 自信微笑,

穿深蓝色西装外套配白色丝绸衬衫, 站在现代写字楼大堂,

右侧窗户自然光, 使用佳能85mm f/1.4镜头拍摄,

专业肖像摄影, 焦点在眼睛, 8K, 照片级

“`

模板二:概念环境艺术

“`

概念艺术, [环境类型], [详细描述],

[天气和时间], [光线描述], [氛围],

[风格], 流行于artstation,

[渲染器风格], 极精细, 8K, 电影构图, [视角描述]

“`

实战示例:

“`

概念艺术, 废弃空间站内部, 巨大的控制室,

破碎的窗户远处可见地球, 零重力漂浮的碎片,

应急红灯投射锐利阴影, 尘埃粒子被遥远星光照亮,

后启示录科幻氛围, 超精细数字绘画,

流行于artstation, Unreal Engine 5渲染质量,

极精细, 8K, 电影构图, 低角度仰视

“`

模板三:产品商业摄影

“`

产品摄影 [产品], [材质描述], [颜色描述],

放置在[背景], [光线设置], [相机和镜头],

[景深控制], 工作室背景, [背景颜色],

商业品质, 极锐利, 8K

“`

实战示例:

“`

产品摄影 瑞士名表, 抛光钢表壳蓝色表盘,

真皮表带缝线清晰可见, 放置在黑色大理石表面,

左上单灯创建优雅高光和反射,

使用尼康105mm微距镜头, 浅景深聚焦表盘,

工作室纯黑背景, 商业品质, 极锐利, 8K

“`

模板四:动漫角色设计

“`

动漫风格插画 [性别][角色类型],

[发型发色], [眼睛], [表情],

[着装], [姿态], [背景元素],

鲜艳色彩, [动漫风格影响],

[渲染质量], 精细, 高质量

“`

实战示例:

“`

动漫风格插画 女性战士, 银色长发随风飘动,

坚定的红色眼眸, 穿黑色战术铠甲配发光青色电路图案,

手持太刀准备姿态, 樱花花瓣与动作融合,

受攻壳机动队美学影响, 赛璐璐风格配数字绘画,

精细线稿, 高质量

“`

5.7 LoRA使用指南

LoRA是Stable Diffusion的「风格包」,可以叠加使用。

语法:

“`

<lora:名称:权重>

“`

权重范围一般0-2,1是标准强度。

实战示例:

“`

杰作, 最高质量, 1女孩, 单独, 粉色短发,

穿校服, 微笑, 站在教室,

自然光, <lora:add-detail:1.0>, <lora:animelineart:0.8>

“`

─────────────────────────

第六章:四平台对比——什么时候用什么

6.1 核心差异一览

想要的效果

GPT Image 2

Nano Banana 2

Midjourney V7

Stable Diffusion

———–

————-

————–

—————

——————

精准文字

一般

弱(需技巧)

多图一致

一般

最强

一般

一般

艺术美感

最强

取决于模型

定制灵活

一般

一般

一般

最强

文字渲染

精准

精准

改善中

需技巧

6.2 场景推荐速查

场景

推荐模型

缘由

——

———-

——

商业海报+多文字

GPT Image 2

推理规划+精准文字

品牌视觉多图一致

Nano Banana 2

14路参考+编辑

艺术插画/概念图

Midjourney V7

美学质量最强

定制风格/批量

Stable Diffusion

LoRA+本地免费

UI设计稿

GPT Image 2

Agentic规划

产品摄影

Midjourney V7/SD

光影质感

角色立绘多角度

Nano Banana 2

一致性最佳

信息图表

GPT Image 2

推理+多格式

─────────────────────────

第七章:通用设计原则——所有模型都适用

7.1 主体描述的黄金公式

无论哪个模型,主体描述都是核心。记住这个公式:

主体 = 身份 + 外貌 + 姿态 + 着装 + 情绪

范例:

反例:`一个人`

正例:

“`

三十岁左右的东亚男性医生,穿白大褂,脖子上挂着听诊器,双臂交叉站立显示轻微的不耐烦,绿色眼睛淡妆,马尾发型,站在医院走廊,专业但亲切的神态

“`

7.2 环境描述的层次

环境 = 大场景 + 中场景 + 小场景 + 细节

范例:

“`

广阔的东非大草原,金色时刻(大大草原)

零散的猴面包树散落在起伏的丘陵上(中场景)

高草在温暖微风中摇曳,远处山脉延伸至地平线(小场景)

一头母狮在树荫下休憩,苍蝇懒洋洋地盘旋(细节)

“`

7.3 光线词汇库

光线类型

描述词

———-

——–

自然光

金色时刻、蓝调时刻、阴天、正午强光

人造光

柔光箱、环形灯、霓虹灯、烛光

电影光

明暗对比、伦勃朗光、轮廓光、蝶光

情绪光

温暖、凉爽、戏剧性、空灵、忧郁

7.4 风格参考词库

风格类别

关键词

———-

——–

摄影风格

人像、景色、街头摄影、微距、长曝光

艺术流派

印象派、超现实主义、Art Nouveau、Art Deco、浮世绘

艺术家风格

参考安塞尔·亚当斯、参考荒木经惟、参考宫崎骏

─────────────────────────

第八章:常见问题与解决

8.1 文字渲染问题

GPT Image 2 / Nano Banana 2:文字渲染已经很精准,直接用引号包裹即可。

Midjourney V7:用`–style raw`减少美化,明确字体风格描述。

Stable Diffusion:文字是难点,解决方案:

1. 用ControlNet控制文字位置

2. 在图像外部用工具添加文字

3. 使用Ultimate SD Upscaler提升文字清晰度

8.2 手部和面部畸形

Stable Diffusion:

– 使用负向提示词:`糟糕的手, 多余的手指, 畸形脸`

– 使用Hand Refiner等插件

Midjourney V7:

– 使用`–style raw`

– 添加详细的手部描述

GPT Image 2 / Nano Banana 2:

– Agentic推理已大幅减少畸形

– 仍需具体描述手部动作

8.3 风格不一致

Midjourney V7:

– 使用一样seed

– 使用`–s`控制风格化程度

– 使用`–sref`锁定风格

Nano Banana 2:

– 多参考图输入

– 明确指定保持不变的元素

─────────────────────────

第九章:效率工作流

9.1 快速迭代四步法

第一步:草稿生成

用最快的方式生成多个草稿,确认方向。

第二步:方向选择

从草稿中选1-2个最接近目标的。

第三步:精细化

用选中方向的特征,生成高配版本。

第四步:后处理

使用图像编辑工具进行最终调整。

9.2 批量生产策略

场景:需要大量同风格图像

方案A:Stable Diffusion + LoRA

1. 训练一个符合风格的LoRA

2. 使用一样的核心提示词

3. 只改变主体描述

方案B:Nano Banana 2 + 参考图

1. 确定风格参考图

2. 保持参考图不变

3. 只改变主体内容

─────────────────────────

第十章:真实项目案例

案例:手作品牌视觉全套

需求:为手工皂品牌「草间」创建全套视觉素材

解决方案:

– 产品主图:Midjourney V7(光影质感最佳)

– 社媒配图:GPT Image 2(一次多格式)

– 品牌插画:Stable Diffusion + 定制LoRA

– 编辑素材:Nano Banana 2(保持一致)

执行提示词:

产品主图(Midjourney V7):

“`

手工皂产品摄影,三块排列艺术,干花和枯叶装饰,

浅米色亚麻布背景,晨光窗户柔光阴影,

佳能100mm微距镜头俯拍,顶级品质 –ar 1:1 –v 7 –style raw –s 500 –q 2

“`

社媒配图(GPT Image 2):

“`

4张手工皂品牌「草间」的社交媒体配图,风格统一自然植物系:

方形:手工皂全家福,配薰衣草干花,浅绿和米白配色

竖版:手部涂抹手工皂的特写,泡沫丰富,文字「每日仪式感」

横版:阳光洒在手工皂制作台,木勺、模具、干花排列

竖版:模特使用手工皂护肤的场景,温馨浴室背景

全部统一:莫兰迪色系,手工质感,草木绿和暖米色

“`

品牌插画(Stable Diffusion + LoRA):

“`

杰作, 最高质量, 品牌插画「草间」, 手绘植物风格,

薰衣草和迷迭香藤蔓交织, 柔和水彩纹理,

品牌名优雅手写体融入设计, 低饱和自然色,

专业品牌品质, <lora:水彩植物:1.2>

“`

─────────────────────────

第十一章:实践检查清单

开始之前

– [ ] 明确最终用途

– [ ] 选择合适的模型

– [ ] 确定输出尺寸和比例

主体描述

– [ ] 身份(谁/什么)

– [ ] 外貌(颜色、形状、材质)

– [ ] 姿态/状态

– [ ] 着装/覆盖物

– [ ] 情绪/氛围

环境描述

– [ ] 大场景

– [ ] 中场景

– [ ] 小场景/道具

– [ ] 光线描述

– [ ] 天气/时间

风格控制

– [ ] 媒介(摄影/绘画/3D)

– [ ] 艺术风格

– [ ] 参考艺术家

– [ ] 质量标签

技术参数

– [ ] 比例/尺寸

– [ ] 光线设置

– [ ] 负向提示词

─────────────────────────

最后的一句话

提示词工程,本质上是用语言描述画面的能力。

你不需要记住所有技巧。你只需要记住:

1. 描述越具体,结果越可控

2. 不同模型有不同的脾气,用对方式才能发挥最大效果

3. 迭代是常态,不要期待一次成功

4. 找到适合你的模型和使用方式,坚持使用

AI图片生成的世界很大,四大模型各有所长。掌握提示词工程,就是掌握了这个时代的「视觉魔法」。

去创造吧。

─────────────────────────

本文聚焦GPT Image 2、Nano Banana 2、Midjourney V7、Stable Diffusion四个模型的实战提示词技巧,所有示例均经过验证,可直接使用或根据需求调整。

提议收藏本文,在实际创作时随时查阅。

© 版权声明

相关文章

1 条评论

none
暂无评论...