GPT Image 2 AI 藝術 Prompt 指南:讓角色在多場景中保持一致
GPT Image 2 Team
2026年5月10日

一份 GPT Image 2 AI 藝術 prompt 實務指南,說明如何用角色錨點、reference image workflow、prompt 模板、評估步驟與排障方法,讓角色在多場景中保持可辨識。

角色一致性是 prompt-to-art 製作中最難的部分之一。單張圖可以很驚豔,但故事、遊戲提案、概念簡報、漫畫頁或角色美術系列,需要更嚴格的標準:鏡頭角度、光線、服裝與情緒節點改變後,觀眾仍要認得這是同一個人。
這份指南寫給使用 GPT Image 2 類 workflow 的 AI 藝術創作者,適用於角色美術、概念藝術、prompt-to-art 製作,以及逐場景的視覺開發。目標不是承諾完美鎖定身份。現有身份一致性研究與官方 GPT Image 指南都指向同一個實務真相:一致性是一套流程,不是魔法。更強的 prompt 有幫助,但 prompt 本身不是完整系統。
可靠做法是把流程工程化。你需要角色錨點、已索引 reference images、分層 prompt、小幅受控編輯、穩定輸出設定、版本紀錄,以及能在漂移擴散到整個專案前抓到問題的審查方法。
角色一致性真正代表什麼

在 AI 藝術製作中,角色一致性不是每個像素都一樣,而是觀眾相信一連串圖片呈現的是同一個角色。實務上,這種辨識依靠幾類穩定的身份線索:
| 層級 | 應保持穩定 | 可謹慎改變 |
|---|---|---|
| 身份 | 臉部幾何、年齡範圍、膚色、族裔線索、髮際線、髮長、髮質、疤痕、刺青、身體比例 | 表情、轉頭角度、局部陰影、臉部張力 |
| 造型 | 服裝輪廓、核心色盤、標誌性配件、姿態語言 | 天氣外層、破損、髒污、正式版本、季節性外套 |
| 場景 | 地點、光線、天氣、鏡頭、姿勢、構圖、媒材 | 幾乎都能變,只要明確宣告那是場景變化 |
錯誤在於把所有細節視為同等重要。它們不是。臉部幾何、髮際線、身體比例、核心服裝輪廓與標誌性配件承載身份;背景、鏡頭、光線、姿勢與天氣承載場景。如果 prompt 同時改變兩組資訊,模型就沒有清楚優先順序,角色會開始漂移。
好的製作目標要務實:讓同一角色在 5 到 50 張圖中保持可信,同時允許姿勢、情緒、構圖、光線、天氣與場景設計受控變化。不要期待只靠 prompt 的 workflow 像生物辨識系統一樣工作。應該建立一條可重複的 pipeline,降低漂移,並提供乾淨的修復方式。
先建立 Character Bible
不要一開始就要求二十個場景。先建立 character bible。這是一組在故事變複雜前定義角色的 reference set。
有用的最低組合包含四張圖:
- 正面肖像,中性光線,臉部清楚。
- 全身站姿,中性背景,完整服裝。
- 三分之四視角,能看出髮型、鼻子、下顎與側面線索。
- 表情表,在受控情緒變化下呈現臉部。
正式製作時,檔名要直白。無聊的命名系統勝過詩意命名,因為它能撐過多輪修改:
CHAR_A/
bible/
CHAR_A_face_front_v01.png
CHAR_A_fullbody_v01.png
CHAR_A_threequarter_v01.png
CHAR_A_expressions_v01.png
outfits/
CHAR_A_outfit_core_v01.png
CHAR_A_outfit_winter_v02.png
scenes/
SCN_001_rooftop_dusk_v01.json
SCN_014_rain_alley_low_angle_v03.json
character bible 應該乾淨、平穩、實用。錨點圖避免戲劇性強光、極端角度、嚴重動態模糊或半遮臉。那些選擇可能很有電影感,但作為 reference 很弱。你要先讓模型理解角色,再要求它表演。
使用分層 Prompt,不要堆長句
長 prompt 不會自動更好。它們經常變成彼此競爭的指令堆。可維護的 prompt 應該分開身份、造型、場景、鏡頭、光線與限制。
可以用這個結構作為起點:
任務:
建立一個包含同一常駐角色的新場景。
角色錨點:
ID: <CHAR_ID>
年齡範圍: <AGE_RANGE>
膚色與族裔線索: <SKIN_AND_ETHNICITY>
臉部: <FACE_GEOMETRY>
頭髮: <HAIRLINE_LENGTH_TEXTURE_PARTING>
標記: <SCARS_TATTOOS_PLACEMENT>
身體比例: <BODY_PROPORTIONS>
核心服裝: <OUTFIT_SILHOUETTE_COLORS>
標誌性配件: <ACCESSORIES>
姿態語言: <POSTURE_LANGUAGE>
場景:
<LOCATION_ACTION_STORY_BEAT>
鏡頭:
<SHOT_SIZE>, <ANGLE>, <FRAMING>, <LENS_FEEL>
光線:
<LIGHT_SOURCE>, <TIME_OF_DAY>, <WEATHER>, <COLOR_TEMPERATURE>
風格:
<ART_STYLE_OR_PHOTOREALISTIC_LOOK>
保留:
同一身份、同一臉部幾何、同一髮際線、同一身體比例、
同一核心服裝輪廓、同一標誌性配件、同一年齡範圍
只改變:
<CONTROLLED_SCENE_DELTA>
排除:
不要有額外角色、不要有額外首飾、不要文字、不要浮水印、不要 logo、
不要改變年齡、膚色、族裔線索或臉部結構
這不花俏,重點正在於此。它給模型清楚層級,也給你可跨場景重用的模板。當某個場景失敗時,你可以逐區塊檢查,而不是重寫整段 prompt。
最重要的指令:保留什麼,改變什麼
根據官方 GPT Image 指南,編輯任務在明確說出哪些要改、哪些要保持時效果最好。對角色一致性而言,這是最有用的習慣。
弱指令:
把同一個女人放到雪夜城市裡。
更強的指令:
只把環境從晴朗黃昏屋頂改成雪夜城市街道。
保持同一角色、同一臉部幾何、同一髮際線、同一身體比例、
同一核心服裝、同一銀色耳骨夾、同一相機角度和同一構圖。
只更新光線、降雪、濕地反光和背景建築。
不要額外文字、不要浮水印、不要 logo。
第二版更長,但不是臃腫。每個額外片語都縮小了一個常見失敗模式。它告訴模型不要用新臉、新衣服或新鏡頭來解決新場景。
多場景工作中,把每個 prompt 都當成受控編輯。即使是生成新圖,也要像在說:保留角色錨點,只改這個場景變數。
Reference Images:每張圖只負責一件事
Reference images 是 GPT Image 2 AI art prompt workflow 中最強的穩定器。但如果沒有定義角色,它們也會互相打架。
使用索引式 references:
Reference image roles:
Image 1: 臉部與頭髮身份錨點。
Image 2: 全身比例與核心服裝輪廓。
Image 3: 只作為風格 reference,不複製 Image 3 的人物。
Image 4: 場景草圖或構圖 reference,可選。
然後在 prompt 中重複角色分工:
Image 1 只用來保留角色的臉部、髮際線與髮質。
Image 2 用來保留身體比例、服裝輪廓、色盤與配件。
Image 3 只用於筆觸、色彩氛圍與渲染風格。
不要從 Image 3 借用身份、服裝或臉部細節。
Image 4 只用於構圖與機位。
這很重要。如果風格 reference 中有漂亮角色,模型可能吸收那個人的臉。如果姿勢 reference 的服裝不同,服裝可能漂移。如果電影感 reference 陰影很強,臉部錨點可能被遮蔽。Reference images 也不是魔法。它們是需要邊界的輸入。
最乾淨的 workflow 是讓身份 reference 保持中性,服裝 reference 用全身,風格 reference 盡可能不含人物,構圖 reference 保持簡單。
用小步驟建立場景
常見失敗模式是一次生成改變五個維度:
- 同一角色,
- 新服裝,
- 新姿勢,
- 新鏡頭角度,
- 新光線,
- 新媒材,
- 新地點。
如果身份重要,這要求太多。把工作拆成步驟:
- 鎖定臉部與全身錨點。
- 生成同一角色的目標鏡頭角度。
- 改變姿勢。
- 改變環境。
- 加入天氣或光線。
- 只改外套或服裝變體。
- 身份穩定後再轉換風格。
這對 anime、水彩、漫畫墨線等風格尤其重要。Style transfer 很容易吞掉身份。跨風格時,寫明 "same facial proportions"、"same hairstyle silhouette"、"same color palette",並加入 "do not enlarge the eyes or make the character younger" 這類約束。
5 到 50 個場景的 Production Pipeline
真正做角色美術系列時,不要先把所有場景都生成完再審。那會得到一堆不一致圖片,而且看不出原因。
使用這套 pipeline:
| 階段 | 產出 | 品質檢查 |
|---|---|---|
| 1. 角色定義 | 書面身份表與錨點 prompts | 身份線索具體,不是模糊形容詞 |
| 2. Character bible | 肖像、全身、三分之四視角、表情表 | 所有錨點看起來是同一人 |
| 3. 規格凍結 | 固定模型選擇、尺寸、品質、reference set、prompt template | 後續輸出可公平比較 |
| 4. 場景規劃 | 每個場景一個結構化 prompt | 每個場景只有一個主要變化 |
| 5. 批次生成 | 每個場景 2 到 4 個候選 | 及早剔除明顯臉部與服裝漂移 |
| 6. 定點修復 | 只編輯失敗元素 | 每次重複 preserve list |
| 7. 最終審查 | 與錨點並排比較 | 身份、服裝與故事節點一起通過 |
為每張接受的圖片保留紀錄:
character_id
scene_id
model_or_snapshot
size
quality
prompt_version
final_prompt
revised_prompt_if_available
reference_image_ids_or_filenames
previous_response_or_image_id_if_used
accepted_output_filename
review_notes
這看起來像行政工作,但它能防止混亂。如果第 14 場很好,第 15 場漂移,你必須知道改了什麼。沒有紀錄就是在猜。
可改寫的 Prompt Templates
Template 1:從零建立角色錨點
任務:
為常駐 AI art series 建立乾淨的角色錨點。
角色:
ID: CHAR_A
年齡範圍: 20 多歲後段
膚色與族裔線索: 暖調中等膚色,混合東亞與拉丁特徵
臉部: 橢圓臉、清楚顴骨、直鼻梁、略銳利下顎線
頭髮: 黑色及肩波浪髮,中分,髮際線清楚可見
標記: 左眉外端有小型斜疤
身體: 精瘦運動型,中等身高,窄肩,腿長
核心服裝: 短版炭灰 utility jacket、白色羅紋上衣、高腰黑色 cargo pants
配件: 左耳單個銀色耳骨夾、黑色細手環
色盤: 炭灰、黑、白、低飽和青綠點綴
姿態: 警覺、沉穩、略帶戒備
場景:
純暖灰攝影棚背景,全身可見,自然站姿
鏡頭:
full body, eye-level, centered, natural 50mm portrait feel
光線:
soft studio light, neutral color temperature, clear face visibility
風格:
high-detail character concept art, clean realistic rendering
保留:
同一臉部幾何、同一髮際線、同一身體比例、同一服裝輪廓、
同一疤痕、同一銀色耳骨夾、同一手環
排除:
不要有額外角色、不要文字、不要浮水印、不要 logo、不要讓戲劇陰影遮住臉
Template 2:使用 Reference Images 的新場景
任務:
建立包含同一常駐角色的新場景。
Reference image roles:
Image 1: 臉部與頭髮身份錨點。
Image 2: 全身比例與核心服裝錨點。
Image 3: 只作為雨夜霓虹色彩氛圍,不複製 Image 3 中的任何人物。
場景:
角色在大雨中的狹窄霓虹巷弄奔跑,
濕地反射洋紅與綠色招牌
鏡頭:
wide full-body shot, low angle, dynamic motion, 24mm cinematic feel
光線:
neon reflections, sodium street light from the rear, cool rain haze
風格:
photorealistic cinematic concept art
保留:
與 Image 1 相同的身份、同一臉部幾何、同一髮際線、同一疤痕、
與 Image 2 相同的身體比例、同一核心服裝輪廓、
同一銀色耳骨夾與手環
只改變:
姿勢變成奔跑,外套表面變濕,環境變成雨夜霓虹巷弄
排除:
不要雨傘、不要帽子、不要額外首飾、不要額外文字、不要浮水印、不要 logo
Template 3:不失去身份的風格轉換
任務:
把現有角色場景轉換成黑白漫畫墨線風格。
保留:
同一角色身份、同一臉部比例、同一髮型輪廓、
同一疤痕位置、同一身體比例、同一服裝輪廓、
同一相機角度、同一構圖、同一姿勢
只改變:
渲染媒材改成黑白漫畫墨線,
使用強陰影、乾淨線條與高對比雨水反光
排除:
不要讓角色變年輕、不要放大眼睛、
不要改變頭髮長度、不要移除眉疤、
不要文字、不要浮水印、不要 logo
評估:不要只相信感覺
人工審查是必要的,但模糊的品味不夠。建立一個小型 benchmark set 並重複使用。
實用 benchmark 包含:
- 正面近景,
- 三分之四臉,
- 全身站姿,
- 坐姿,
- 奔跑動作,
- 低角度英雄鏡頭,
- 俯視場景,
- 雨夜,
- 雪夜,
- 服裝外層變化,
- 強烈情緒,
- 風格轉換。
每個場景用同一套 reference set 與 template 生成多個候選。審查候選時要與錨點並排,而不是單獨看。
使用七點人工 rubric:
| 問題 | 通過條件 |
|---|---|
| 是同一張臉嗎? | 主要臉部幾何與年齡範圍相符 |
| 年齡範圍穩定嗎? | 角色沒有非預期變年輕或變老 |
| 膚色與族裔線索穩定嗎? | 沒有意外重塑身份 |
| 髮型穩定嗎? | 髮際線、長度、質地與輪廓仍可辨識 |
| 身體比例穩定嗎? | 身高、體格與四肢比例感一致 |
| 核心服裝穩定嗎? | 輪廓、色盤與標誌性配件保留 |
| 場景任務成功嗎? | 所需動作、設定、鏡頭與氛圍都有出現 |
如果使用自動檢查,把它們當輔助,不要當最終判決。Face embeddings、perceptual similarity tools 與 vision-language scoring 能幫忙標記離群值,但在風格化渲染、遮擋、側臉或強光影下可能失準。最後問題仍是視覺問題:讀者或 art director 會不會相信這是同一角色?
常見漂移問題排障
| 問題 | 看起來像什麼 | 最快修法 |
|---|---|---|
| 臉部漂移 | 眼睛、下顎、鼻子或髮際線不再相符 | 使用臉部 reference,重複 preserve list,降低場景變化 |
| 服裝漂移 | 外套、顏色、配件或輪廓改變 | 加入全身服裝 reference,分開核心服裝與外層衣物 |
| 風格吞掉身份 | anime 或水彩版本變成另一個人 | 指定 same facial proportions 與 same hairstyle silhouette,身份穩定後再轉風格 |
| 鏡頭漂移 | 角度、裁切或透視意外變化 | 在 camera block 與 preserve list 中寫明 shot size、angle、framing、lens feel |
| 局部編輯外溢 | 修耳環卻改到頭髮或臉 | 縮小編輯範圍,可用時使用 mask,重複 "change only" 指令 |
| 過度複製 reference | 臉像貼上去或表情僵硬 | 使用多角度,允許不同表情與光線,同時保留身份 |
| 出現文字與 logo | 隨機字母、像浮水印的痕跡、假品牌 | 每個 production prompt 都保留 "no text, no watermark, no logo" |
多數失敗都來自一次要求太多改變。拿不準時,簡化。先生成更乾淨的中間版本,再做一次受控編輯。
實用設定建議
同一專案中使用穩定設定。如果你同時改變模型版本、圖片尺寸、品質等級、reference set 與 prompt 結構,就無法知道哪個變數造成漂移。
角色美術的錨點適合用直式或方形。只有場景需要時才使用橫式。最終匯出尺寸與身份測試要分開:很大或實驗性輸出尺寸可能適合交付,但不適合當一致性審查基準。
草稿階段生成多個候選。通過的 final 應減少變異,並記錄精確 prompt 與 references。如果 workflow 暴露 revised prompt 或 continuation ID,請存下來。生產一致性和紀錄一樣依賴 prompt。
也不要把 workflow 建立在你使用的 GPT Image 2 圖像介面沒有公開指定的控制項上。如果 seed、sampling steps 或 guidance scale 沒有暴露,就不要假裝它們是可重複系統的一部分。使用你真的有的控制:references、prompt structure、edits、可用時的 image IDs 或 previous responses、穩定尺寸、穩定品質,以及嚴格審查。
最後重點
真正有用的 GPT Image 2 AI art 角色一致性 prompt guide 不是一條秘密 prompt,而是一套有紀律的 workflow:
- 先定義角色,再推進故事,
- 把身份與場景變化分開,
- 每張 reference image 只給一個任務,
- 做小幅編輯,
- 保留的內容要比改變的內容更多,
- 記錄每次接受的生成,
- 對照錨點審查,
- 立即修復漂移。
這樣才能把 prompt-to-art 實驗變成可用的角色美術、概念藝術、漫畫開發與 production-ready 場景序列。一致性可以做到,但必須被管理。

