O mesmo modelo, o mesmo requisito, mas as palavras-promessa são escritas

O mesmo modelo, o mesmo requisito, mas as palavras de alerta são escritas de maneiras diferentes, a precisão do texto pode ser três vezes pior.

A palavra de alerta não é metafísica, mas engenharia

A maneira como muitas pessoas escrevem palavras de prompt de imagem de IA é "escrever o que vier à mente" e então descobrir que o texto sempre comete erros e sentem que "o modelo não é bom". Mas com o mesmo modelo e os mesmos requisitos, a precisão do texto de algumas pessoas pode chegar a 80%, enquanto outras podem ter apenas 20% – a diferença está na forma como as palavras-promessa são escritas.

O projeto de palavras imediatas não é "escrever uma descrição longa", mas descrever claramente as quatro dimensões do conteúdo do texto, estilo de glifo, restrições geométricas e elementos invariantes. O que o modelo precisa não é de pontos de exclamação e adjetivos, mas de instruções precisas.

Este artigo fornecerá um conjunto de bibliotecas de modelos de palavras imediatas que podem ser reutilizadas diretamente, cobrindo as três plataformas principais de Stable Diffusion, OpenAI GPT Image 2 e Midjourney. Eles são classificados em três cenários: cartazes, rótulos e infográficos. Cada modelo vem com descrições de parâmetros e guias de armadilhas.

Estrutura de quatro camadas de palavras imediatas

Não importa qual modelo seja usado, as palavras de alerta para renderização de texto devem conter quatro camadas de informações:

Primeira camada: conteúdo de texto. Texto específico que precisa aparecer na tela. Coloque-o entre aspas para dizer explicitamente ao modelo "essas palavras devem ser renderizadas com exatidão".

A segunda camada: estilo glifo. Tipo de fonte (serif/sans serif), espessura da fonte (negrito/regular), nível de tamanho da fonte. Escrever "Fonte chinesa moderna sem serifa, título em negrito" é mais eficaz do que escrever "Usar Siyuan Heibo" - o modelo pode não saber necessariamente o nome da fonte específica, mas pode entender a descrição do estilo.

Nível 3: Restrições geométricas. A posição, tamanho, alinhamento e espaçamento entre linhas do texto. Quanto mais preciso for o modelo, menor será a probabilidade de ele tomar suas próprias decisões.

Nível 4: Elementos invariantes. O que não pode ser alterado – textura de fundo, luz e sombra, corpo do produto, relação de perspectiva. Use restrições como preserve, do not change, maintain.

Quebrar essas quatro camadas e escrevê-las é muito mais eficaz do que amontoar todas as informações em uma frase longa.

Plataforma 1: Palavras de prompt de pintura de difusão estável

A pintura interna do Stable Diffusion é uma das soluções mais flexíveis para modificação local de caracteres. Suas palavras-chave são divididas em duas partes: positiva e negativa.

Modelo de palavra de alerta positivo

🚫CÓDIGO0🚫

Modelo de palavra de prompt negativo

🚫CÓDIGO1🚫

Parâmetros principais

Parâmetros	Valores recomendados	Descrição
`strength`	0,25-0,45	Quanto menor o valor, mais conservador ele é, retendo mais informações originais da imagem. 0,25 é adequado para alterar apenas o texto sem alterar o fundo, 0,45 é adequado para ajustar a área circundante
`guidance_scale`	4-7	Quanto maior o valor, mais palavras imediatas serão seguidas, mas muito alto causará nitidez excessiva
`num_inference_steps`	28-40	Quanto mais passos, melhor será a qualidade, mas mais lenta será a velocidade

Modelo de título de pôster

🚫CÓDIGO2🚫

Parâmetros: strength=0.30, guidance_scale=5.5, steps=32

Modelo de marca

🚫CÓDIGO3🚫

Parâmetros: strength=0.25, guidance_scale=6.0, steps=36

Sugestões de mascaramento

Marca: máscara retangular geral, incluindo espaço em branco ao redor

Título do pôster: máscara retangular em nível de palavra, expandindo para fora de 2 a 6 pixels
Números de preços: máscara retangular exata, sem expansão - o fundo da área numérica geralmente é muito simples e a expansão introduz ruído

Plataforma 2: OpenAI GPT Image 2 editando palavras de prompt de fluxo

O fluxo de edição da imagem GPT 2 implementa modificação local por meio do parâmetro máscara. A palavra-chave precisa descrever “apenas o que mudar e o que manter” em linguagem natural.

Sintaxe básica

🚫CÓDIGO4🚫

requisitos de arquivo de máscara

Mesmo tamanho da imagem original (consistente em nível de pixel)
Mesmo formato da imagem original (PNG ou JPEG)
Com canal alfa (áreas transparentes = não modificadas, áreas opacas = a serem modificadas)
Lembrete da página de ajuda oficial do ChatGPT Images: o destaque da seleção nem sempre é preciso e a edição pode exceder a área selecionada - portanto, deixe as margens apropriadas na área da máscara

Modelo de letras de pôster

🚫CÓDIGO5🚫

Modelo de modificação de etiqueta

🚫CÓDIGO6🚫

Modelo de pôster chinês

🚫CÓDIGO7🚫

Dicas importantes

Dica 1: coloque o texto de destino entre aspas. "SUMMER SALE" é melhor que SUMMER SALE para o modelo entender que é isso que precisa ser representado com precisão.

Dica 2: diga claramente "altere apenas a área mascarada". Replace only the masked area é muito mais preciso do que Fix the text - o primeiro limita o escopo das modificações, enquanto o último pode fazer com que o modelo renderize novamente a imagem inteira.

Dica 3: Liste os elementos que não podem ser alterados. Preserve background, shadows, perspective, all unmasked elements - Essa restrição pode reduzir significativamente a situação de “mudar uma palavra, o fundo também muda”.

Dica 4: adicione a restrição "não reescrever" à cena chinesa. 文字必须严格按以下内容排版，不要改写、不要增删、不要替换同义词 - Isso é crucial para cartazes de negócios que exigem revisão legal.

Plataforma 3: prompts de modificação parcial de palavras no meio da jornada

Os recursos Editor e Região Variada do Midjourney suportam o redesenho da seleção. As autoridades recomendam que as instruções sejam curtas e diretas, com parâmetros colocados no final.

Sintaxe básica

🚫CÓDIGO8🚫

Sistema de peso

Midjourney usa :: para separar diferentes partes da palavra prompt, e o número a seguir é o peso. Para renderização de texto, defina o peso do conteúdo do texto como alto:

🚫CÓDIGO9🚫

::3 significa que o peso do conteúdo do texto é 3 vezes maior que o das outras partes, e o modelo trabalhará mais para escrever as palavras corretamente.

Modelo de título de pôster

🚫CÓDIGO10🚫

Modelo de identidade de marca

🚫CÓDIGO11🚫

Limitações do meio da jornada

O ponto forte do Midjourney é o estilo visual, não a precisão textual. Menos controle sobre texto longo (mais de 5 palavras) e kerning preciso do que Stable Diffusion e GPT Image 2. Seus melhores usos são: Palavras curtas estilizadas, títulos de pôsteres conceituais, iteração rápida de nomes de marcas.

Habilidades gerais multiplataforma

Não importa qual modelo seja usado, as dicas a seguir podem melhorar a precisão da renderização do texto:

Coloque o texto de destino entre aspas

Coloque o texto que precisa aparecer na imagem entre aspas e o modelo o tratará como um conteúdo que “deve ser apresentado com precisão” em vez de uma descrição que “pode ser reproduzida livremente”. Este truque funciona em todas as plataformas.

Declarar explicitamente a localização

Não escreva apenas “coloque o título no topo”, escreva “coloque o título principal centralizado nos 20% superiores da tela, com o maior tamanho de fonte”. Quanto mais preciso for o modelo, menor será a probabilidade de ele tomar suas próprias decisões.

Especifique o estilo da fonte em vez do nome da fonte

Escrever "Fonte moderna sem serifa, títulos em negrito" é mais eficaz do que escrever "Usar Helvetica". O modelo pode não saber necessariamente o nome da fonte específica, mas pode compreender a descrição do estilo.

Controle a quantidade de texto

Trabalhe em apenas 1 a 3 palavras ou frases por vez. Quanto mais palavras houver, maior será a chance de erro. Se precisar modificar diversas áreas de texto, faça isso diversas vezes, uma área por vez.

Apague primeiro e depois escreva

Não substitua o novo texto diretamente sobre o texto existente. Primeiro use o inpaint para apagar o texto original (deixe a palavra em branco ou escreva remove text). Depois de confirmar que o fundo está limpo, faça uma segunda pintura para escrever um novo texto. Duas etapas são mais seguras do que uma.

Lembretes negativos não podem ser omitidos

As palavras de alerta negativas do Stable Diffusion têm um grande impacto no efeito de renderização do texto. garbled text, duplicate letters, extra glyphs Esses três itens são quase obrigatórios.

Um fluxo de trabalho completo de prompt de modificação de palavras

Veja um pôster promocional chinês como exemplo. O título precisa ser alterado de caracteres ilegíveis para "Oferta especial por tempo limitado":

Etapa 1: Apagar o texto original

🚫CÓDIGO12🚫

Etapa 2: Escreva um novo texto

🚫CÓDIGO13🚫

Etapa 3: Verificação

Use OCR para extrair novo texto e compará-lo palavra por palavra com “ofertas especiais por tempo limitado”. Se houver um desvio, volte para a Etapa 2 para ajustar as palavras ou parâmetros do prompt.

Resumo de uma frase

A estrutura de quatro camadas da palavra de prompt (conteúdo do texto + estilo de glifo + restrições geométricas + elementos invariáveis) determina a precisão da renderização do texto. Separar essas quatro camadas é três vezes mais eficaz do que amassar todas as informações em uma bola.

Quer experimentar os efeitos de diferentes maneiras de escrever palavras imediatas? Use a mesma imagem para editar vários conjuntos de palavras de prompt diferentes em gpt-image2ai.art e você sentirá intuitivamente a lacuna entre instruções precisas e descrições vagas.

Try GPT Image 2 for Free Now →

Se as palavras do prompt forem escritas corretamente, as palavras da IA estarão parcialmente corretas: Combate prático à renderização de texto, engenharia de palavras do prompt

A palavra de alerta não é metafísica, mas engenharia

Estrutura de quatro camadas de palavras imediatas

Plataforma 1: Palavras de prompt de pintura de difusão estável

Modelo de palavra de alerta positivo

Modelo de palavra de prompt negativo

Parâmetros principais

Modelo de título de pôster

Modelo de marca

Sugestões de mascaramento

Plataforma 2: OpenAI GPT Image 2 editando palavras de prompt de fluxo

Sintaxe básica

requisitos de arquivo de máscara

Modelo de letras de pôster

Modelo de modificação de etiqueta

Modelo de pôster chinês

Dicas importantes

Plataforma 3: prompts de modificação parcial de palavras no meio da jornada

Sintaxe básica

Sistema de peso

Modelo de título de pôster

Modelo de identidade de marca

Limitações do meio da jornada

Habilidades gerais multiplataforma

Coloque o texto de destino entre aspas

Declarar explicitamente a localização

Especifique o estilo da fonte em vez do nome da fonte

Controle a quantidade de texto

Apague primeiro e depois escreva

Lembretes negativos não podem ser omitidos

Um fluxo de trabalho completo de prompt de modificação de palavras

Resumo de uma frase

Artigos relacionados

De 3 centavos a 1 dólar por imagem: O verdadeiro custo do GPT Image 2 vs. Nano Banana 2

[pt] Advanced Prompt Workflows for Designers in GPT Image 2

Fluxos de trabalho de prompt avançados para designers na imagem GPT 2