GPT Image 2 AI 艺术提示词指南:如何让角色在多场景中保持一致
GPT Image 2 Team
2026年5月10日

一份面向 GPT Image 2 AI 艺术创作的实用提示词指南,讲解如何通过角色锚点、参考图、分层提示词、评测流程和排障方法,让角色在多场景中保持稳定。

角色一致性,是提示词生成艺术里最难稳定的部分之一。单张图好看不难,难的是一组图都像同一个人。故事分镜、游戏提案、概念设定集、漫画页面、角色宣传图,都要求角色在镜头、光线、服装、表情和场景变化之后仍然能被认出来。
这份指南面向使用 GPT Image 2 类工作流的 AI 艺术创作者,尤其适合角色艺术、概念艺术、prompt-to-art 项目和多场景视觉开发。这里不会承诺所谓“绝对锁脸”。官方 GPT Image 指南和当前身份一致性研究都指向同一个现实结论:一致性是一套流程,不是一句神奇提示词。
强提示词有用,但提示词本身不是完整系统。更可靠的方法,是把流程工程化:角色锚点、参考图索引、分层提示词、小步编辑、稳定规格、版本记录、回归评测和排障方法,一个都不能省。
什么才叫角色一致性

在 AI 艺术生产里,角色一致性不是每个像素完全一样,而是观众相信这些图表现的是同一个角色。这个判断主要依赖几类稳定线索:
| 层级 | 应该保持稳定 | 可以谨慎变化 |
|---|---|---|
| 身份层 | 脸部几何、年龄带、肤色、族裔线索、发际线、发长、发质、疤痕、纹身、体型比例 | 表情、转头角度、局部阴影、面部紧张程度 |
| 造型层 | 服装剪影、核心色板、标志性配饰、姿态语言 | 外层衣物、脏污、破损、正式版本、季节版本 |
| 场景层 | 场景任务本身需要的环境、光线、天气、镜头、动作、媒介风格 | 只要明确声明,大多数都可以变化 |
最常见的错误,是把所有细节当成同等重要。其实不是。脸部几何、发际线、体型比例、核心服装剪影和标志性配饰负责“这是同一个人”;背景、镜头、光线、动作和天气负责“这是新的场景”。如果一个提示词同时大幅改动两组信息,模型就很容易不知道优先保留什么,角色自然会漂。
更现实的目标是:让同一个角色在 5 到 50 张连续场景图里保持可信的一致感,同时允许姿势、情绪、构图、光线、天气和场景发生受控变化。不要把 prompt-only 工作流当成生物识别系统。应该把它看成一条可复用、可检查、可修复的生产流程。
先做角色圣经
不要一上来就生成二十个场景。先做角色圣经,也就是角色在复杂剧情发生之前的参考资产。
最低限度建议做四张:
- 正面头像,中性光,清晰面部。
- 全身站姿,中性背景,完整服装。
- 三分之四侧脸,能看清头发轮廓、鼻型、下颌和侧脸特征。
- 表情板,在受控条件下展示几种情绪变化。
生产时文件名要直接,不要文艺化。朴素命名更适合多人协作和版本回溯:
CHAR_A/
bible/
CHAR_A_face_front_v01.png
CHAR_A_fullbody_v01.png
CHAR_A_threequarter_v01.png
CHAR_A_expressions_v01.png
outfits/
CHAR_A_outfit_core_v01.png
CHAR_A_outfit_winter_v02.png
scenes/
SCN_001_rooftop_dusk_v01.json
SCN_014_rain_alley_low_angle_v03.json
角色圣经应该清楚、稳定、实用。不要在锚点图里使用强戏剧光、极端角度、严重运动模糊或半遮脸。那些画面可能更有冲击力,但作为参考图很弱。你要先让模型理解角色,再让角色去表演。
用分层提示词,不要堆长句
长提示词不等于好提示词。很多长提示词只是把互相竞争的描述堆在一起。可维护的提示词应该把身份、造型、场景、镜头、光线、风格和约束拆开。
可以从这个结构开始:
任务:
生成同一常驻角色的新场景。
角色锚点:
ID: <CHAR_ID>
年龄带: <AGE_RANGE>
肤色与族裔线索: <SKIN_AND_ETHNICITY>
脸部: <FACE_GEOMETRY>
头发: <HAIRLINE_LENGTH_TEXTURE_PARTING>
标记: <SCARS_TATTOOS_PLACEMENT>
体型比例: <BODY_PROPORTIONS>
核心服装: <OUTFIT_SILHOUETTE_COLORS>
标志性配饰: <ACCESSORIES>
姿态语言: <POSTURE_LANGUAGE>
场景:
<LOCATION_ACTION_STORY_BEAT>
镜头:
<SHOT_SIZE>, <ANGLE>, <FRAMING>, <LENS_FEEL>
光线:
<LIGHT_SOURCE>, <TIME_OF_DAY>, <WEATHER>, <COLOR_TEMPERATURE>
风格:
<ART_STYLE_OR_PHOTOREALISTIC_LOOK>
保持不变:
同一身份、同一脸部几何、同一发际线、同一体型比例、
同一核心服装剪影、同一标志性配饰、同一年龄带
只改变:
<CONTROLLED_SCENE_DELTA>
排除:
无额外人物、无额外首饰、无文字、无水印、无 logo、
不要改变年龄、肤色、族裔线索或五官结构
这套模板并不复杂,复杂不是优点。它的价值在于层级清楚,可复用,也方便排错。某个场景失败时,你可以检查一个区块,而不是把整段提示词推倒重写。
最关键的指令:保持什么,改变什么
根据官方 GPT Image 指南,编辑类任务最好明确说明哪些内容要改变、哪些内容要保持。对角色一致性来说,这是最有用的习惯。
弱提示词:
把同一个女人放到雪夜城市里。
更强的提示词:
只把环境从晴朗黄昏屋顶改成雪夜城市街道。
保持同一角色、同一脸部几何、同一发际线、同一体型比例、
同一核心服装、同一银色耳骨夹、同一相机角度和同一构图。
只更新光线、降雪、湿地反光和背景建筑。
无额外文字、无水印、无 logo。
第二版更长,但不是废话。每一句都在压缩一个常见失败模式。它告诉模型:不要通过发明新脸、新衣服、新镜头来解决新场景。
多场景项目里,每条提示词都应该像一次受控编辑。即使是重新生成一张图,也要按这个逻辑写:保留角色锚点,只改变这个场景变量。
参考图:每张图只负责一件事
参考图是 GPT Image 2 AI 艺术提示词工作流里最强的稳定手段之一。但如果不说明分工,参考图之间也会互相污染。
建议使用索引式参考图:
参考图分工:
Image 1: 脸部与头发身份锚点。
Image 2: 全身比例与核心服装剪影。
Image 3: 只作为风格参考,不复制 Image 3 的人物。
Image 4: 场景草图或构图参考,可选。
然后在提示词里再次声明:
Image 1 只用于保持角色脸部、发际线和发质。
Image 2 用于保持体型比例、服装剪影、色板和配饰。
Image 3 只用于笔触、色彩气氛和渲染风格。
不要从 Image 3 借用身份、服装或五官细节。
Image 4 只用于构图和机位。
这很重要。如果风格参考图里有一个漂亮人物,模型可能会吸收那个人的脸。如果姿势参考图的服装不同,角色衣服可能会漂。如果电影感参考图阴影太重,面部锚点可能会被遮掉。参考图不是魔法,它也是需要边界的输入。
最干净的做法是:身份参考用中性清晰图,服装参考用全身图,风格参考尽量不带人物,构图参考保持简单。
用小步编辑构建场景
常见失败模式,是一次生成里同时改变太多维度:
- 同一个角色,
- 新服装,
- 新动作,
- 新机位,
- 新光线,
- 新媒介风格,
- 新地点。
如果身份一致性重要,这样的跨度太大。应该拆成步骤:
- 先锁定脸部和全身锚点。
- 让同一角色进入目标镜头角度。
- 改动作。
- 改环境。
- 加天气或光线。
- 只改外层衣物或服装变体。
- 等身份稳定后再跨风格。
动漫、水彩、黑白漫画等风格尤其需要这样处理。风格转换很容易吞掉身份。跨风格时,要明确写出“same facial proportions”“same hairstyle silhouette”“same color palette”,并补充“不要放大眼睛”“不要幼化角色”等约束。
5 到 50 张场景的生产流程
真正做一组角色图时,不要先把所有图都生成出来再一起检查。那样只会得到一堆不一致的图,而且很难知道问题从哪里开始。
更稳的流程如下:
| 阶段 | 产出 | 检查点 |
|---|---|---|
| 1. 定义角色 | 文字身份表和锚点提示词 | 身份线索具体,不是空泛形容词 |
| 2. 角色圣经 | 正脸、全身、三分之四、表情板 | 四张图像同一个人 |
| 3. 冻结规格 | 固定模型选择、尺寸、质量、参考图、模板 | 后续结果可以公平比较 |
| 4. 规划场景 | 每个场景一条结构化提示词 | 每个场景只有一个主要变化 |
| 5. 批量生成 | 每个场景 2 到 4 个候选 | 尽早淘汰明显脸漂和服装漂 |
| 6. 定点修复 | 只编辑失败元素 | 每次都重复 preserve list |
| 7. 最终审核 | 与锚点并排检查 | 身份、服装和剧情任务同时通过 |
每张通过的图都要记录:
character_id
scene_id
model_or_snapshot
size
quality
prompt_version
final_prompt
revised_prompt_if_available
reference_image_ids_or_filenames
previous_response_or_image_id_if_used
accepted_output_filename
review_notes
这些记录看起来像杂务,但它们能防止项目失控。如果第 14 个场景很好,第 15 个场景突然漂了,你必须知道到底改变了什么。没有记录,就只能猜。
可直接改造的提示词模板
模板 1:从零生成角色锚点
任务:
为常驻 AI 艺术系列创建干净的角色锚点。
角色:
ID: CHAR_A
年龄带: 20 多岁后半段
肤色与族裔线索: 暖调中等肤色,东亚与拉丁混合特征
脸部: 椭圆脸,清晰颧骨,直鼻梁,略 sharp 的下颌线
头发: 黑色及肩微卷发,中分,发际线清楚可见
标记: 左眉外侧有一道小斜疤
体型: 精瘦运动型,中等身高,肩部偏窄,腿部较长
核心服装: 炭灰短款机能夹克,白色罗纹上衣,高腰黑色工装裤
配饰: 左耳单个银色耳骨夹,黑色细手环
色板: 炭灰、黑、白、低饱和青绿色点缀
姿态: 警觉、稳定、略有防备感
场景:
纯净暖灰摄影棚背景,全身可见,自然站姿
镜头:
full body, eye-level, centered, natural 50mm portrait feel
光线:
soft studio light, neutral color temperature, clear face visibility
风格:
high-detail character concept art, clean realistic rendering
保持不变:
同一脸部几何、同一发际线、同一体型比例、同一服装剪影、
同一眉尾疤痕、同一银色耳骨夹、同一手环
排除:
无额外人物、无文字、无水印、无 logo、不要让强阴影遮住脸
模板 2:带参考图的新场景
任务:
生成同一常驻角色的新场景。
参考图分工:
Image 1: 脸部与头发身份锚点。
Image 2: 全身比例与核心服装锚点。
Image 3: 只作为雨夜霓虹色彩气氛参考,不复制 Image 3 里的任何人物。
场景:
角色在大雨中的狭窄霓虹巷道奔跑,
湿地反射洋红色和绿色招牌
镜头:
wide full-body shot, low angle, dynamic motion, 24mm cinematic feel
光线:
neon reflections, sodium street light from the rear, cool rain haze
风格:
photorealistic cinematic concept art
保持不变:
与 Image 1 相同的身份、同一脸部几何、同一发际线、同一眉疤、
与 Image 2 相同的体型比例、同一核心服装剪影、
同一银色耳骨夹和手环
只改变:
动作变成奔跑,夹克表面被雨打湿,环境变成雨夜霓虹巷道
排除:
无雨伞、无帽子、无额外首饰、无额外文字、无水印、无 logo
模板 3:跨风格但不丢身份
任务:
把现有角色场景转换成黑白漫画墨线风格。
保持不变:
同一角色身份、同一脸部比例、同一发型轮廓、
同一疤痕位置、同一体型比例、同一服装剪影、
同一相机角度、同一构图、同一姿势
只改变:
渲染媒介改为黑白漫画墨线,
使用强阴影、干净线条和高对比雨水反光
排除:
不要让角色变年轻、不要放大眼睛、
不要改变头发长度、不要去掉眉尾疤痕、
无文字、无水印、无 logo
评测:不要只凭感觉
人工审图是必要的,但“感觉像不像”太模糊。应该建立一个小型 benchmark,并反复使用。
实用 benchmark 可以包括:
- 正面近景,
- 三分之四侧脸,
- 全身站姿,
- 坐姿,
- 奔跑动作,
- 低机位英雄镜头,
- 顶视图,
- 雨夜,
- 雪夜,
- 服装外层变化,
- 强情绪,
- 跨风格转换。
每个场景用同一套参考图和模板生成多个候选。审图时要和锚点并排看,不要孤立看单张图。
人工评分建议只保留七项:
| 问题 | 通过标准 |
|---|---|
| 是同一张脸吗? | 主要五官几何和年龄带一致 |
| 年龄带稳定吗? | 没有无意变年轻或变老 |
| 肤色与族裔线索稳定吗? | 没有被意外重塑身份 |
| 发型稳定吗? | 发际线、长度、质感、轮廓可识别 |
| 体型比例稳定吗? | 身高感、体格、四肢比例一致 |
| 核心服装稳定吗? | 剪影、色板、标志性配饰保留 |
| 场景任务完成了吗? | 动作、环境、机位、气氛都到位 |
如果使用自动指标,把它们当成辅助,而不是最终裁判。人脸嵌入、感知相似度、图文匹配评分都可以帮助筛掉离群值,但它们在风格化、遮挡、侧脸和强光影下可能误判。最终问题仍然是视觉问题:读者或美术指导会不会相信这是同一个角色?
常见漂移问题排障
| 问题 | 典型表现 | 最快修复 |
|---|---|---|
| 脸漂移 | 眼睛、下颌、鼻型或发际线不像原角色 | 使用正脸参考图,重复 preserve list,减少场景变化 |
| 服装漂移 | 夹克、配色、配饰或剪影被换掉 | 增加全身服装参考,把核心服装和外层衣物拆开 |
| 风格吃掉身份 | 动漫或水彩版本变成另一个人 | 明确 same facial proportions 和 same hairstyle silhouette,先稳定身份再跨风格 |
| 镜头漂移 | 角度、裁切、透视意外变化 | 在 camera block 和 preserve list 里写清 shot size、angle、framing、lens feel |
| 局部编辑外溢 | 只想修耳饰,却改了头发或脸 | 缩小编辑范围,如可用则加 mask,并重复 change only |
| 过度复制参考 | 脸像硬贴上去,表情僵硬 | 使用多角度参考,允许不同表情和光线,同时保留身份 |
| 出现文字和 logo | 角落出现乱码、水印感标记或假品牌 | 每条生产提示词都保留“无文字、无水印、无 logo” |
多数失败来自一次改变太多东西。拿不准时,先简化。生成一个更干净的中间版本,再做一个受控编辑。
实用参数建议
一个项目内要尽量保持规格稳定。如果你同时改变模型版本、尺寸、质量、参考图和提示词结构,就无法判断到底是哪一个变量导致漂移。
角色锚点适合用竖版或方图。只有当场景确实需要时,再使用横版。最终导出尺寸和一致性测试要分开看:大尺寸或实验性输出可以用于交付,但不适合作为一致性验收基线。
草稿阶段可以一次生成多个候选。终稿阶段应减少变量,并记录精确提示词和参考图。如果工作流暴露 revised prompt、上一轮 response ID 或 image ID,要保存下来。生产一致性不只依赖提示词,也依赖记录。
另外,不要把流程建立在你当前 GPT Image 2 图像接口没有公开暴露的控制项上。如果 seed、sampling steps 或 guidance scale 不可用,就不要把它们假装成复现系统的一部分。真正可用的稳定杆是:参考图、提示词结构、编辑链路、可用时的 image ID 或 previous response、稳定尺寸、稳定质量和严格审图。
最后结论
真正有用的 GPT Image 2 AI 艺术角色一致性指南,不是一条神秘提示词,而是一套纪律:
- 先定义角色,再推进故事,
- 把身份信息和场景变化拆开,
- 每张参考图只负责一个任务,
- 用小步编辑,不要一次大跳,
- 保留项永远比变化项写得更清楚,
- 记录每次通过的生成结果,
- 和锚点并排审图,
- 一发现漂移就定点修复。
这样,prompt-to-art 才能从灵感实验变成可用的角色艺术、概念艺术、漫画开发和多场景视觉生产。角色一致性可以做到稳定,但必须被管理。

