一份面向 GPT Image 2 AI 艺术创作的实用提示词指南，讲解如何通过角色锚点、参考图、分层提示词、评测流程和排障方法，让角色在多场景中保持稳定。

Character bible showing a consistent AI art character across scenes

角色一致性，是提示词生成艺术里最难稳定的部分之一。单张图好看不难，难的是一组图都像同一个人。故事分镜、游戏提案、概念设定集、漫画页面、角色宣传图，都要求角色在镜头、光线、服装、表情和场景变化之后仍然能被认出来。

这份指南面向使用 GPT Image 2 类工作流的 AI 艺术创作者，尤其适合角色艺术、概念艺术、prompt-to-art 项目和多场景视觉开发。这里不会承诺所谓“绝对锁脸”。官方 GPT Image 指南和当前身份一致性研究都指向同一个现实结论：一致性是一套流程，不是一句神奇提示词。

强提示词有用，但提示词本身不是完整系统。更可靠的方法，是把流程工程化：角色锚点、参考图索引、分层提示词、小步编辑、稳定规格、版本记录、回归评测和排障方法，一个都不能省。

什么才叫角色一致性

Layered prompt workflow for character consistency in AI art

在 AI 艺术生产里，角色一致性不是每个像素完全一样，而是观众相信这些图表现的是同一个角色。这个判断主要依赖几类稳定线索：

层级	应该保持稳定	可以谨慎变化
身份层	脸部几何、年龄带、肤色、族裔线索、发际线、发长、发质、疤痕、纹身、体型比例	表情、转头角度、局部阴影、面部紧张程度
造型层	服装剪影、核心色板、标志性配饰、姿态语言	外层衣物、脏污、破损、正式版本、季节版本
场景层	场景任务本身需要的环境、光线、天气、镜头、动作、媒介风格	只要明确声明，大多数都可以变化

最常见的错误，是把所有细节当成同等重要。其实不是。脸部几何、发际线、体型比例、核心服装剪影和标志性配饰负责“这是同一个人”；背景、镜头、光线、动作和天气负责“这是新的场景”。如果一个提示词同时大幅改动两组信息，模型就很容易不知道优先保留什么，角色自然会漂。

更现实的目标是：让同一个角色在 5 到 50 张连续场景图里保持可信的一致感，同时允许姿势、情绪、构图、光线、天气和场景发生受控变化。不要把 prompt-only 工作流当成生物识别系统。应该把它看成一条可复用、可检查、可修复的生产流程。

先做角色圣经

不要一上来就生成二十个场景。先做角色圣经，也就是角色在复杂剧情发生之前的参考资产。

最低限度建议做四张：

正面头像，中性光，清晰面部。
全身站姿，中性背景，完整服装。
三分之四侧脸，能看清头发轮廓、鼻型、下颌和侧脸特征。
表情板，在受控条件下展示几种情绪变化。

生产时文件名要直接，不要文艺化。朴素命名更适合多人协作和版本回溯：

CHAR_A/
  bible/
    CHAR_A_face_front_v01.png
    CHAR_A_fullbody_v01.png
    CHAR_A_threequarter_v01.png
    CHAR_A_expressions_v01.png
  outfits/
    CHAR_A_outfit_core_v01.png
    CHAR_A_outfit_winter_v02.png
  scenes/
    SCN_001_rooftop_dusk_v01.json
    SCN_014_rain_alley_low_angle_v03.json

角色圣经应该清楚、稳定、实用。不要在锚点图里使用强戏剧光、极端角度、严重运动模糊或半遮脸。那些画面可能更有冲击力，但作为参考图很弱。你要先让模型理解角色，再让角色去表演。

用分层提示词，不要堆长句

长提示词不等于好提示词。很多长提示词只是把互相竞争的描述堆在一起。可维护的提示词应该把身份、造型、场景、镜头、光线、风格和约束拆开。

可以从这个结构开始：

任务:
生成同一常驻角色的新场景。

角色锚点:
ID: <CHAR_ID>
年龄带: <AGE_RANGE>
肤色与族裔线索: <SKIN_AND_ETHNICITY>
脸部: <FACE_GEOMETRY>
头发: <HAIRLINE_LENGTH_TEXTURE_PARTING>
标记: <SCARS_TATTOOS_PLACEMENT>
体型比例: <BODY_PROPORTIONS>
核心服装: <OUTFIT_SILHOUETTE_COLORS>
标志性配饰: <ACCESSORIES>
姿态语言: <POSTURE_LANGUAGE>

场景:
<LOCATION_ACTION_STORY_BEAT>

镜头:
<SHOT_SIZE>, <ANGLE>, <FRAMING>, <LENS_FEEL>

光线:
<LIGHT_SOURCE>, <TIME_OF_DAY>, <WEATHER>, <COLOR_TEMPERATURE>

风格:
<ART_STYLE_OR_PHOTOREALISTIC_LOOK>

保持不变:
同一身份、同一脸部几何、同一发际线、同一体型比例、
同一核心服装剪影、同一标志性配饰、同一年龄带

只改变:
<CONTROLLED_SCENE_DELTA>

排除:
无额外人物、无额外首饰、无文字、无水印、无 logo、
不要改变年龄、肤色、族裔线索或五官结构

这套模板并不复杂，复杂不是优点。它的价值在于层级清楚，可复用，也方便排错。某个场景失败时，你可以检查一个区块，而不是把整段提示词推倒重写。

最关键的指令：保持什么，改变什么

根据官方 GPT Image 指南，编辑类任务最好明确说明哪些内容要改变、哪些内容要保持。对角色一致性来说，这是最有用的习惯。

弱提示词：

把同一个女人放到雪夜城市里。

更强的提示词：

只把环境从晴朗黄昏屋顶改成雪夜城市街道。
保持同一角色、同一脸部几何、同一发际线、同一体型比例、
同一核心服装、同一银色耳骨夹、同一相机角度和同一构图。
只更新光线、降雪、湿地反光和背景建筑。
无额外文字、无水印、无 logo。

第二版更长，但不是废话。每一句都在压缩一个常见失败模式。它告诉模型：不要通过发明新脸、新衣服、新镜头来解决新场景。

多场景项目里，每条提示词都应该像一次受控编辑。即使是重新生成一张图，也要按这个逻辑写：保留角色锚点，只改变这个场景变量。

参考图：每张图只负责一件事

参考图是 GPT Image 2 AI 艺术提示词工作流里最强的稳定手段之一。但如果不说明分工，参考图之间也会互相污染。

建议使用索引式参考图：

参考图分工:
Image 1: 脸部与头发身份锚点。
Image 2: 全身比例与核心服装剪影。
Image 3: 只作为风格参考，不复制 Image 3 的人物。
Image 4: 场景草图或构图参考，可选。

然后在提示词里再次声明：

Image 1 只用于保持角色脸部、发际线和发质。
Image 2 用于保持体型比例、服装剪影、色板和配饰。
Image 3 只用于笔触、色彩气氛和渲染风格。
不要从 Image 3 借用身份、服装或五官细节。
Image 4 只用于构图和机位。

这很重要。如果风格参考图里有一个漂亮人物，模型可能会吸收那个人的脸。如果姿势参考图的服装不同，角色衣服可能会漂。如果电影感参考图阴影太重，面部锚点可能会被遮掉。参考图不是魔法，它也是需要边界的输入。

最干净的做法是：身份参考用中性清晰图，服装参考用全身图，风格参考尽量不带人物，构图参考保持简单。

用小步编辑构建场景

常见失败模式，是一次生成里同时改变太多维度：

同一个角色，
新服装，
新动作，
新机位，
新光线，
新媒介风格，
新地点。

如果身份一致性重要，这样的跨度太大。应该拆成步骤：

先锁定脸部和全身锚点。
让同一角色进入目标镜头角度。
改动作。
改环境。
加天气或光线。
只改外层衣物或服装变体。
等身份稳定后再跨风格。

动漫、水彩、黑白漫画等风格尤其需要这样处理。风格转换很容易吞掉身份。跨风格时，要明确写出“same facial proportions”“same hairstyle silhouette”“same color palette”，并补充“不要放大眼睛”“不要幼化角色”等约束。

5 到 50 张场景的生产流程

真正做一组角色图时，不要先把所有图都生成出来再一起检查。那样只会得到一堆不一致的图，而且很难知道问题从哪里开始。

更稳的流程如下：

阶段	产出	检查点
1. 定义角色	文字身份表和锚点提示词	身份线索具体，不是空泛形容词
2. 角色圣经	正脸、全身、三分之四、表情板	四张图像同一个人
3. 冻结规格	固定模型选择、尺寸、质量、参考图、模板	后续结果可以公平比较
4. 规划场景	每个场景一条结构化提示词	每个场景只有一个主要变化
5. 批量生成	每个场景 2 到 4 个候选	尽早淘汰明显脸漂和服装漂
6. 定点修复	只编辑失败元素	每次都重复 preserve list
7. 最终审核	与锚点并排检查	身份、服装和剧情任务同时通过

每张通过的图都要记录：

character_id
scene_id
model_or_snapshot
size
quality
prompt_version
final_prompt
revised_prompt_if_available
reference_image_ids_or_filenames
previous_response_or_image_id_if_used
accepted_output_filename
review_notes

这些记录看起来像杂务，但它们能防止项目失控。如果第 14 个场景很好，第 15 个场景突然漂了，你必须知道到底改变了什么。没有记录，就只能猜。

可直接改造的提示词模板

模板 1：从零生成角色锚点

任务:
为常驻 AI 艺术系列创建干净的角色锚点。

角色:
ID: CHAR_A
年龄带: 20 多岁后半段
肤色与族裔线索: 暖调中等肤色，东亚与拉丁混合特征
脸部: 椭圆脸，清晰颧骨，直鼻梁，略 sharp 的下颌线
头发: 黑色及肩微卷发，中分，发际线清楚可见
标记: 左眉外侧有一道小斜疤
体型: 精瘦运动型，中等身高，肩部偏窄，腿部较长
核心服装: 炭灰短款机能夹克，白色罗纹上衣，高腰黑色工装裤
配饰: 左耳单个银色耳骨夹，黑色细手环
色板: 炭灰、黑、白、低饱和青绿色点缀
姿态: 警觉、稳定、略有防备感

场景:
纯净暖灰摄影棚背景，全身可见，自然站姿

镜头:
full body, eye-level, centered, natural 50mm portrait feel

光线:
soft studio light, neutral color temperature, clear face visibility

风格:
high-detail character concept art, clean realistic rendering

保持不变:
同一脸部几何、同一发际线、同一体型比例、同一服装剪影、
同一眉尾疤痕、同一银色耳骨夹、同一手环

排除:
无额外人物、无文字、无水印、无 logo、不要让强阴影遮住脸

模板 2：带参考图的新场景

任务:
生成同一常驻角色的新场景。

参考图分工:
Image 1: 脸部与头发身份锚点。
Image 2: 全身比例与核心服装锚点。
Image 3: 只作为雨夜霓虹色彩气氛参考，不复制 Image 3 里的任何人物。

场景:
角色在大雨中的狭窄霓虹巷道奔跑，
湿地反射洋红色和绿色招牌

镜头:
wide full-body shot, low angle, dynamic motion, 24mm cinematic feel

光线:
neon reflections, sodium street light from the rear, cool rain haze

风格:
photorealistic cinematic concept art

保持不变:
与 Image 1 相同的身份、同一脸部几何、同一发际线、同一眉疤、
与 Image 2 相同的体型比例、同一核心服装剪影、
同一银色耳骨夹和手环

只改变:
动作变成奔跑，夹克表面被雨打湿，环境变成雨夜霓虹巷道

排除:
无雨伞、无帽子、无额外首饰、无额外文字、无水印、无 logo

模板 3：跨风格但不丢身份

任务:
把现有角色场景转换成黑白漫画墨线风格。

保持不变:
同一角色身份、同一脸部比例、同一发型轮廓、
同一疤痕位置、同一体型比例、同一服装剪影、
同一相机角度、同一构图、同一姿势

只改变:
渲染媒介改为黑白漫画墨线，
使用强阴影、干净线条和高对比雨水反光

排除:
不要让角色变年轻、不要放大眼睛、
不要改变头发长度、不要去掉眉尾疤痕、
无文字、无水印、无 logo

评测：不要只凭感觉

人工审图是必要的，但“感觉像不像”太模糊。应该建立一个小型 benchmark，并反复使用。

实用 benchmark 可以包括：

正面近景，
三分之四侧脸，
全身站姿，
坐姿，
奔跑动作，
低机位英雄镜头，
顶视图，
雨夜，
雪夜，
服装外层变化，
强情绪，
跨风格转换。

每个场景用同一套参考图和模板生成多个候选。审图时要和锚点并排看，不要孤立看单张图。

人工评分建议只保留七项：

问题	通过标准
是同一张脸吗？	主要五官几何和年龄带一致
年龄带稳定吗？	没有无意变年轻或变老
肤色与族裔线索稳定吗？	没有被意外重塑身份
发型稳定吗？	发际线、长度、质感、轮廓可识别
体型比例稳定吗？	身高感、体格、四肢比例一致
核心服装稳定吗？	剪影、色板、标志性配饰保留
场景任务完成了吗？	动作、环境、机位、气氛都到位

如果使用自动指标，把它们当成辅助，而不是最终裁判。人脸嵌入、感知相似度、图文匹配评分都可以帮助筛掉离群值，但它们在风格化、遮挡、侧脸和强光影下可能误判。最终问题仍然是视觉问题：读者或美术指导会不会相信这是同一个角色？

常见漂移问题排障

问题	典型表现	最快修复
脸漂移	眼睛、下颌、鼻型或发际线不像原角色	使用正脸参考图，重复 preserve list，减少场景变化
服装漂移	夹克、配色、配饰或剪影被换掉	增加全身服装参考，把核心服装和外层衣物拆开
风格吃掉身份	动漫或水彩版本变成另一个人	明确 same facial proportions 和 same hairstyle silhouette，先稳定身份再跨风格
镜头漂移	角度、裁切、透视意外变化	在 camera block 和 preserve list 里写清 shot size、angle、framing、lens feel
局部编辑外溢	只想修耳饰，却改了头发或脸	缩小编辑范围，如可用则加 mask，并重复 change only
过度复制参考	脸像硬贴上去，表情僵硬	使用多角度参考，允许不同表情和光线，同时保留身份
出现文字和 logo	角落出现乱码、水印感标记或假品牌	每条生产提示词都保留“无文字、无水印、无 logo”

多数失败来自一次改变太多东西。拿不准时，先简化。生成一个更干净的中间版本，再做一个受控编辑。

实用参数建议

一个项目内要尽量保持规格稳定。如果你同时改变模型版本、尺寸、质量、参考图和提示词结构，就无法判断到底是哪一个变量导致漂移。

角色锚点适合用竖版或方图。只有当场景确实需要时，再使用横版。最终导出尺寸和一致性测试要分开看：大尺寸或实验性输出可以用于交付，但不适合作为一致性验收基线。

草稿阶段可以一次生成多个候选。终稿阶段应减少变量，并记录精确提示词和参考图。如果工作流暴露 revised prompt、上一轮 response ID 或 image ID，要保存下来。生产一致性不只依赖提示词，也依赖记录。

另外，不要把流程建立在你当前 GPT Image 2 图像接口没有公开暴露的控制项上。如果 seed、sampling steps 或 guidance scale 不可用，就不要把它们假装成复现系统的一部分。真正可用的稳定杆是：参考图、提示词结构、编辑链路、可用时的 image ID 或 previous response、稳定尺寸、稳定质量和严格审图。

最后结论

真正有用的 GPT Image 2 AI 艺术角色一致性指南，不是一条神秘提示词，而是一套纪律：

先定义角色，再推进故事，
把身份信息和场景变化拆开，
每张参考图只负责一个任务，
用小步编辑，不要一次大跳，
保留项永远比变化项写得更清楚，
记录每次通过的生成结果，
和锚点并排审图，
一发现漂移就定点修复。

这样，prompt-to-art 才能从灵感实验变成可用的角色艺术、概念艺术、漫画开发和多场景视觉生产。角色一致性可以做到稳定，但必须被管理。

Try GPT Image 2 for Free Now →

GPT Image 2 AI 艺术提示词指南：如何让角色在多场景中保持一致