提示词写对了,AI 的字就对了一半:文字渲染提示词工程实战
AI 测评室
2026年5月4日

同一个模型,同一个需求,提示词写法不同,文字准确率可以差三倍。
同一个模型,同一个需求,提示词写法不同,文字准确率可以差三倍。
提示词不是玄学,是工程
很多人写 AI 图像提示词的方式是"想到什么写什么",然后发现文字总是出错,就觉得"模型不行"。但同样的模型,同样的需求,有人的文字准确率能到 80%,有人只有 20%——差别就在提示词的写法上。
提示词工程不是"把描述写得很长",而是把文本内容、字形风格、几何约束、不变元素四个维度分开说清楚。模型需要的不是你的感叹号和形容词,而是精确的指令。
这篇文章会给你一套可直接复用的提示词模板库,覆盖 Stable Diffusion、OpenAI GPT Image 2、Midjourney 三个主流平台,按海报、标签、信息图三种场景分类,每个模板都附带参数说明和避坑指南。

提示词的四层结构
不管用哪个模型,文字渲染的提示词都应该包含四层信息:
第一层:文本内容。 需要出现在画面中的具体文字。用引号包裹,明确告诉模型"这些字必须精确呈现"。
第二层:字形风格。 字体类型(衬线/无衬线)、字重(粗体/常规)、字号层级。写"现代中文无衬线字体,标题加粗"比写"用思源黑体"有效——模型不一定认识具体字体名,但能理解风格描述。
第三层:几何约束。 文字的位置、大小、对齐方式、行距字距。越精确,模型越不容易自作主张。
第四层:不变元素。 哪些东西不能改——背景纹理、光影、产品本体、透视关系。用 preserve、do not change、maintain 这类约束词。
把这四层拆开写,比把所有信息揉成一团长句子有效得多。
平台一:Stable Diffusion Inpainting 提示词
Stable Diffusion 的 inpainting 是做局部修字最灵活的方案之一。它的提示词分正向和负向两部分。
正向提示词模板
replace only the masked text with crisp [字体风格] text '[目标文字]',
exact baseline alignment, preserve poster texture, lighting, shadows, perspective
负向提示词模板
garbled text, duplicate letters, extra glyphs, warped text, blur, low contrast, artifacts
关键参数
| 参数 | 推荐值 | 说明 |
|---|---|---|
strength | 0.25-0.45 | 越低越保守,保留更多原图信息。0.25 适合只改字不改背景,0.45 适合需要微调周围区域 |
guidance_scale | 4-7 | 越高越遵循提示词,但过高会导致过度锐化 |
num_inference_steps | 28-40 | 步数越多质量越好,但速度越慢 |
海报标题模板
正向:replace masked headline with bold white sans-serif text 'SUMMER SALE',
crisp sharp edges, exact horizontal alignment, preserve gradient background and shadows
负向:garbled text, misspelled words, duplicate letters, warped baseline, blur, extra characters
参数:strength=0.30, guidance_scale=5.5, steps=32
品牌名模板
正向:replace masked text with clean logo-style text 'NATURA',
letter-spacing uniform, preserve brand color scheme and background texture
负向:garbled text, wrong font weight, uneven spacing, artifacts, low resolution
参数:strength=0.25, guidance_scale=6.0, steps=36
遮罩建议
- 海报标题:单词级矩形遮罩,向外扩展 2-6px
- 品牌名:整体矩形遮罩,包含周围留白
- 价格数字:精确矩形遮罩,不扩展——数字区域的背景通常很简单,扩展反而引入噪声
平台二:OpenAI GPT Image 2 编辑流提示词

GPT Image 2 的编辑流通过 mask 参数实现局部修改。提示词需要用自然语言描述"只改什么、保持什么"。
基本语法
from openai import OpenAI
client = OpenAI()
result = client.images.edit(
model="gpt-image-2",
image=open("poster.png", "rb"),
mask=open("mask.png", "rb"), # 与原图同尺寸、同格式,带 alpha 通道
prompt='Replace only the masked headline with crisp white sans-serif text "OPEN STUDIO". Preserve perspective, paper texture, and shadows.'
)
mask 文件要求
- 与原图同尺寸(像素级一致)
- 与原图同格式(都是 PNG 或都是 JPEG)
- 带 alpha 通道(透明区域 = 不修改,不透明区域 = 要修改)
- ChatGPT Images 官方帮助页提醒:选区高亮并不总是精确,编辑可能越过所选区域——所以遮罩区域适当留余量
海报修字模板
Replace only the masked headline with clean white sans-serif text "SUMMER SALE".
Text must be crisp, sharp, with uniform letter spacing.
Preserve poster background, gradient, shadows, and all unmasked elements.
Do not add extra text, watermarks, or decorative elements.
标签修字模板
Replace only the masked text area with clean product label text "Ingredients: Water, Glycerin, Niacinamide".
Font: small, precise, uniform sans-serif. Match existing label style.
Preserve bottle shape, label material texture, and all surrounding elements.
Do not change product name, logo, or barcode.
中文海报模板
请只替换蒙版区域的文字为清晰的中文无衬线字体"新消费品牌增长论坛"。
文字必须笔画完整、大小均匀、行距一致。
保持海报背景、光影、透视和所有未蒙版元素不变。
不要添加额外文字、装饰或水印。
关键技巧
技巧一:用引号包裹目标文字。 "SUMMER SALE" 比 SUMMER SALE 更能让模型理解这是需要精确呈现的内容。
技巧二:明确说"只改蒙版区域"。 Replace only the masked area 比 Fix the text 精确得多——前者限制修改范围,后者可能让模型重新渲染整张图。
技巧三:列出不能改的元素。 Preserve background, shadows, perspective, all unmasked elements ——这条约束能显著减少"改了一个字,背景也变了"的情况。
技巧四:中文场景加上"不要改写"的约束。 文字必须严格按以下内容排版,不要改写、不要增删、不要替换同义词 ——这对需要法务审核的商业海报至关重要。
平台三:Midjourney 局部修字提示词
Midjourney 的 Editor 和 Vary Region 功能支持选区重绘。官方建议提示词短而直接,参数放在末尾。
基本语法
clean swiss poster headline::2 geometric background::1 exact text OPEN STUDIO crisp sans serif aligned baseline --ar 2:3 --raw
权重系统
Midjourney 用 :: 分隔提示词的不同部分,后面的数字是权重。对文字渲染,把文字内容的权重设高:
exact text "SUMMER SALE"::3 clean poster design::1 minimalist background::1 --ar 16:9 --raw
::3 表示文字内容的权重是其他部分的 3 倍,模型会更努力地把字写对。
海报标题模板
clean bold sans-serif headline text "SUMMER SALE"::3 geometric gradient poster background::1 exact baseline alignment sharp crisp edges --ar 16:9 --raw
品牌标识模板
logo text "NATURA"::3 clean minimalist brand identity::1 letter-spacing uniform professional typography --ar 1:1 --raw
Midjourney 的局限
Midjourney 的强项是视觉风格,不是文字精度。对长文本(超过 5 个单词)和精确字距的控制力弱于 Stable Diffusion 和 GPT Image 2。它的最佳用途是:风格化短词、概念海报标题、品牌名的快速迭代。
跨平台通用技巧
不管用哪个模型,以下技巧都能提高文字渲染的准确率:
用引号包裹目标文字
把需要出现在画面中的文字用引号括起来,模型会把它当作"必须精确呈现"的内容,而不是"可以自由发挥"的描述。这个技巧在所有平台上都有效。
显式声明位置
不要只写"把标题放在顶部",要写"主标题居中放置在画面顶部 20% 区域,字号最大"。越精确,模型越不容易自作主张。
指定字体风格而非字体名称
写"现代无衬线字体,标题加粗"比写"用 Helvetica"有效。模型不一定认识具体字体名,但能理解风格描述。
控制文字数量
每次只修 1-3 个单词或短语。文字越多,出错概率越高。如果需要修改多个文字区域,分多次操作,每次处理一个区域。
先擦后写
不要直接在原有文字上覆盖新文字。先用 inpaint 把原有文字擦除(提示词留空或写 remove text),确认背景干净后,再做第二次 inpaint 写入新文字。两步比一步稳。
负面提示词不能省
Stable Diffusion 的负面提示词对文字渲染效果影响很大。garbled text, duplicate letters, extra glyphs 这三条几乎必须带上。
一个完整的修字提示词工作流
以一张中文促销海报为例,需要把标题从乱码修成"限时特惠":
Step 1:擦除原有文字
正向:clean background, remove all text, preserve gradient and shadows
负向:text, letters, words, watermark
参数:strength=0.40, guidance_scale=5.0, steps=30
Step 2:写入新文字
正向:place bold Chinese text "限时特惠" centered in the masked area, modern sans-serif font, crisp sharp strokes, uniform character spacing
负向:garbled text, wrong strokes, missing strokes, blur, extra characters
参数:strength=0.30, guidance_scale=6.0, steps=36
Step 3:校验
用 OCR 提取新文字,和"限时特惠"逐字比对。如果有偏差,回到 Step 2 微调提示词或参数。
一句话总结
提示词的四层结构(文本内容 + 字形风格 + 几何约束 + 不变元素)决定了文字渲染的准确率。把这四层拆开写,比把所有信息揉成一团有效三倍。
想亲手试试不同提示词写法的效果差异?在 gpt-image2ai.art 上用同一个图片分别跑几组不同提示词的编辑,你会直观感受到精确指令和模糊描述之间的差距。


