Se as palavras do prompt forem escritas corretamente, as palavras da IA estarão parcialmente corretas: Combate prático à renderização de texto, engenharia de palavras do prompt
AI 测评室
4 de maio de 2026

O mesmo modelo, o mesmo requisito, mas as palavras-promessa são escritas
O mesmo modelo, o mesmo requisito, mas as palavras de alerta são escritas de maneiras diferentes, a precisão do texto pode ser três vezes pior.
A palavra de alerta não é metafísica, mas engenharia
A maneira como muitas pessoas escrevem palavras de prompt de imagem de IA é "escrever o que vier à mente" e então descobrir que o texto sempre comete erros e sentem que "o modelo não é bom". Mas com o mesmo modelo e os mesmos requisitos, a precisão do texto de algumas pessoas pode chegar a 80%, enquanto outras podem ter apenas 20% – a diferença está na forma como as palavras-promessa são escritas.
O projeto de palavras imediatas não é "escrever uma descrição longa", mas descrever claramente as quatro dimensões do conteúdo do texto, estilo de glifo, restrições geométricas e elementos invariantes. O que o modelo precisa não é de pontos de exclamação e adjetivos, mas de instruções precisas.
Este artigo fornecerá um conjunto de bibliotecas de modelos de palavras imediatas que podem ser reutilizadas diretamente, cobrindo as três plataformas principais de Stable Diffusion, OpenAI GPT Image 2 e Midjourney. Eles são classificados em três cenários: cartazes, rótulos e infográficos. Cada modelo vem com descrições de parâmetros e guias de armadilhas.

Estrutura de quatro camadas de palavras imediatas
Não importa qual modelo seja usado, as palavras de alerta para renderização de texto devem conter quatro camadas de informações:
Primeira camada: conteúdo de texto. Texto específico que precisa aparecer na tela. Coloque-o entre aspas para dizer explicitamente ao modelo "essas palavras devem ser renderizadas com exatidão".
A segunda camada: estilo glifo. Tipo de fonte (serif/sans serif), espessura da fonte (negrito/regular), nível de tamanho da fonte. Escrever "Fonte chinesa moderna sem serifa, título em negrito" é mais eficaz do que escrever "Usar Siyuan Heibo" - o modelo pode não saber necessariamente o nome da fonte específica, mas pode entender a descrição do estilo.
Nível 3: Restrições geométricas. A posição, tamanho, alinhamento e espaçamento entre linhas do texto. Quanto mais preciso for o modelo, menor será a probabilidade de ele tomar suas próprias decisões.
Nível 4: Elementos invariantes. O que não pode ser alterado – textura de fundo, luz e sombra, corpo do produto, relação de perspectiva. Use restrições como preserve, do not change, maintain.
Quebrar essas quatro camadas e escrevê-las é muito mais eficaz do que amontoar todas as informações em uma frase longa.
Plataforma 1: Palavras de prompt de pintura de difusão estável
A pintura interna do Stable Diffusion é uma das soluções mais flexíveis para modificação local de caracteres. Suas palavras-chave são divididas em duas partes: positiva e negativa.
Modelo de palavra de alerta positivo
🚫CÓDIGO0🚫
Modelo de palavra de prompt negativo
🚫CÓDIGO1🚫
Parâmetros principais
| Parâmetros | Valores recomendados | Descrição |
|---|---|---|
strength | 0,25-0,45 | Quanto menor o valor, mais conservador ele é, retendo mais informações originais da imagem. 0,25 é adequado para alterar apenas o texto sem alterar o fundo, 0,45 é adequado para ajustar a área circundante |
guidance_scale | 4-7 | Quanto maior o valor, mais palavras imediatas serão seguidas, mas muito alto causará nitidez excessiva |
num_inference_steps | 28-40 | Quanto mais passos, melhor será a qualidade, mas mais lenta será a velocidade |
Modelo de título de pôster
🚫CÓDIGO2🚫
Parâmetros: strength=0.30, guidance_scale=5.5, steps=32
Modelo de marca
🚫CÓDIGO3🚫
Parâmetros: strength=0.25, guidance_scale=6.0, steps=36
Sugestões de mascaramento
Marca: máscara retangular geral, incluindo espaço em branco ao redor
- Título do pôster: máscara retangular em nível de palavra, expandindo para fora de 2 a 6 pixels
- Números de preços: máscara retangular exata, sem expansão - o fundo da área numérica geralmente é muito simples e a expansão introduz ruído
Plataforma 2: OpenAI GPT Image 2 editando palavras de prompt de fluxo

O fluxo de edição da imagem GPT 2 implementa modificação local por meio do parâmetro máscara. A palavra-chave precisa descrever “apenas o que mudar e o que manter” em linguagem natural.
Sintaxe básica
🚫CÓDIGO4🚫
requisitos de arquivo de máscara
- Mesmo tamanho da imagem original (consistente em nível de pixel)
- Mesmo formato da imagem original (PNG ou JPEG)
- Com canal alfa (áreas transparentes = não modificadas, áreas opacas = a serem modificadas)
- Lembrete da página de ajuda oficial do ChatGPT Images: o destaque da seleção nem sempre é preciso e a edição pode exceder a área selecionada - portanto, deixe as margens apropriadas na área da máscara
Modelo de letras de pôster
🚫CÓDIGO5🚫
Modelo de modificação de etiqueta
🚫CÓDIGO6🚫
Modelo de pôster chinês
🚫CÓDIGO7🚫
Dicas importantes
Dica 1: coloque o texto de destino entre aspas. "SUMMER SALE" é melhor que SUMMER SALE para o modelo entender que é isso que precisa ser representado com precisão.
Dica 2: diga claramente "altere apenas a área mascarada". Replace only the masked area é muito mais preciso do que Fix the text - o primeiro limita o escopo das modificações, enquanto o último pode fazer com que o modelo renderize novamente a imagem inteira.
Dica 3: Liste os elementos que não podem ser alterados. Preserve background, shadows, perspective, all unmasked elements - Essa restrição pode reduzir significativamente a situação de “mudar uma palavra, o fundo também muda”.
Dica 4: adicione a restrição "não reescrever" à cena chinesa. 文字必须严格按以下内容排版,不要改写、不要增删、不要替换同义词 - Isso é crucial para cartazes de negócios que exigem revisão legal.
Plataforma 3: prompts de modificação parcial de palavras no meio da jornada
Os recursos Editor e Região Variada do Midjourney suportam o redesenho da seleção. As autoridades recomendam que as instruções sejam curtas e diretas, com parâmetros colocados no final.
Sintaxe básica
🚫CÓDIGO8🚫
Sistema de peso
Midjourney usa :: para separar diferentes partes da palavra prompt, e o número a seguir é o peso. Para renderização de texto, defina o peso do conteúdo do texto como alto:
🚫CÓDIGO9🚫
::3 significa que o peso do conteúdo do texto é 3 vezes maior que o das outras partes, e o modelo trabalhará mais para escrever as palavras corretamente.
Modelo de título de pôster
🚫CÓDIGO10🚫
Modelo de identidade de marca
🚫CÓDIGO11🚫
Limitações do meio da jornada
O ponto forte do Midjourney é o estilo visual, não a precisão textual. Menos controle sobre texto longo (mais de 5 palavras) e kerning preciso do que Stable Diffusion e GPT Image 2. Seus melhores usos são: Palavras curtas estilizadas, títulos de pôsteres conceituais, iteração rápida de nomes de marcas.
Habilidades gerais multiplataforma
Não importa qual modelo seja usado, as dicas a seguir podem melhorar a precisão da renderização do texto:
Coloque o texto de destino entre aspas
Coloque o texto que precisa aparecer na imagem entre aspas e o modelo o tratará como um conteúdo que “deve ser apresentado com precisão” em vez de uma descrição que “pode ser reproduzida livremente”. Este truque funciona em todas as plataformas.
Declarar explicitamente a localização
Não escreva apenas “coloque o título no topo”, escreva “coloque o título principal centralizado nos 20% superiores da tela, com o maior tamanho de fonte”. Quanto mais preciso for o modelo, menor será a probabilidade de ele tomar suas próprias decisões.
Especifique o estilo da fonte em vez do nome da fonte
Escrever "Fonte moderna sem serifa, títulos em negrito" é mais eficaz do que escrever "Usar Helvetica". O modelo pode não saber necessariamente o nome da fonte específica, mas pode compreender a descrição do estilo.
Controle a quantidade de texto
Trabalhe em apenas 1 a 3 palavras ou frases por vez. Quanto mais palavras houver, maior será a chance de erro. Se precisar modificar diversas áreas de texto, faça isso diversas vezes, uma área por vez.
Apague primeiro e depois escreva
Não substitua o novo texto diretamente sobre o texto existente. Primeiro use o inpaint para apagar o texto original (deixe a palavra em branco ou escreva remove text). Depois de confirmar que o fundo está limpo, faça uma segunda pintura para escrever um novo texto. Duas etapas são mais seguras do que uma.
Lembretes negativos não podem ser omitidos
As palavras de alerta negativas do Stable Diffusion têm um grande impacto no efeito de renderização do texto. garbled text, duplicate letters, extra glyphs Esses três itens são quase obrigatórios.
Um fluxo de trabalho completo de prompt de modificação de palavras
Veja um pôster promocional chinês como exemplo. O título precisa ser alterado de caracteres ilegíveis para "Oferta especial por tempo limitado":
Etapa 1: Apagar o texto original
🚫CÓDIGO12🚫
Etapa 2: Escreva um novo texto
🚫CÓDIGO13🚫
Etapa 3: Verificação
Use OCR para extrair novo texto e compará-lo palavra por palavra com “ofertas especiais por tempo limitado”. Se houver um desvio, volte para a Etapa 2 para ajustar as palavras ou parâmetros do prompt.
Resumo de uma frase
A estrutura de quatro camadas da palavra de prompt (conteúdo do texto + estilo de glifo + restrições geométricas + elementos invariáveis) determina a precisão da renderização do texto. Separar essas quatro camadas é três vezes mais eficaz do que amassar todas as informações em uma bola.
Quer experimentar os efeitos de diferentes maneiras de escrever palavras imediatas? Use a mesma imagem para editar vários conjuntos de palavras de prompt diferentes em gpt-image2ai.art e você sentirá intuitivamente a lacuna entre instruções precisas e descrições vagas.

![[pt] Advanced Prompt Workflows for Designers in GPT Image 2](https://gpt-image-2.live/blog-assets/f7f88ae7fe45ba37/hero-replicate.webp)
