Wenn die Eingabeaufforderungswörter richtig geschrieben sind, sind die KI-Wörter halb richtig: Praktischer Kampf gegen die Textwiedergabe-Eingabeaufforderungsworttechnik
AI 测评室
4. Mai 2026

Das gleiche Modell, die gleichen Anforderungen, aber die Eingabeaufforderungswörter
Das gleiche Modell, die gleichen Anforderungen, aber die Aufforderungswörter sind unterschiedlich geschrieben, die Textgenauigkeit kann dreimal schlechter sein.
Das Stichwort lautet nicht Metaphysik, sondern Ingenieurskunst
Die Art und Weise, wie viele Menschen AI-Bildaufforderungswörter schreiben, besteht darin, „alles zu schreiben, was ihnen in den Sinn kommt“, und dann festzustellen, dass der Text immer Fehler macht, und sie haben das Gefühl, dass „das Modell nicht gut ist“. Aber mit dem gleichen Modell und den gleichen Anforderungen kann die Textgenauigkeit bei manchen Leuten 80 % erreichen, während andere nur 20 % erreichen – der Unterschied liegt in der Art und Weise, wie die Aufforderungswörter geschrieben werden.
Das Projekt „Prompt Word“ besteht nicht darin, „eine lange Beschreibung zu schreiben“, sondern die vier Dimensionen Textinhalt, Glyphenstil, geometrische Einschränkungen und invariante Elemente klar zu beschreiben. Was das Model braucht, sind nicht Ihre Ausrufezeichen und Adjektive, sondern präzise Anweisungen.
In diesem Artikel erhalten Sie eine Reihe von Bibliotheken für Eingabeaufforderungswortvorlagen, die direkt wiederverwendet werden können und die drei Mainstream-Plattformen Stable Diffusion, OpenAI GPT Image 2 und Midjourney abdecken. Sie werden in drei Szenarien eingeteilt: Poster, Etiketten und Infografiken. Jede Vorlage enthält Parameterbeschreibungen und Fallstrickanleitungen.

Vierschichtige Struktur von Aufforderungswörtern
Unabhängig davon, welches Modell verwendet wird, sollten die Eingabeaufforderungswörter für die Textwiedergabe vier Informationsebenen enthalten:
Erste Ebene: Textinhalt. Spezifischer Text, der auf dem Bildschirm angezeigt werden muss. Setzen Sie es in Anführungszeichen, um dem Modell explizit mitzuteilen, dass „diese Wörter genau wiedergegeben werden müssen“.
Die zweite Ebene: Glyphenstil. Schriftart (Serif/Sans Serif), Schriftstärke (Fett/Normal), Schriftgröße. Das Schreiben von „Moderne chinesische serifenlose Schriftart, fetter Titel“ ist effektiver als das Schreiben von „Siyuan Heibo verwenden“ – das Modell kennt möglicherweise nicht unbedingt den spezifischen Schriftartnamen, kann aber die Stilbeschreibung verstehen.
Stufe 3: Geometrische Einschränkungen. Die Position, Größe, Ausrichtung und Zeilenabstand des Textes. Je genauer das Modell ist, desto geringer ist die Wahrscheinlichkeit, dass es eigene Entscheidungen trifft.
Stufe 4: Invariante Elemente. Was nicht geändert werden kann – Hintergrundtextur, Licht und Schatten, Produktkörper, perspektivische Beziehung. Verwenden Sie Einschränkungen wie preserve, do not change, maintain.
Diese vier Schichten aufzuschlüsseln und aufzuschreiben ist viel effektiver, als alle Informationen in einen langen Satz zu packen.
Plattform 1: Stabile Verbreitung von Eingabeaufforderungswörtern
Das Inpainting von Stable Diffusion ist eine der flexibelsten Lösungen für die lokale Charaktermodifikation. Seine Aufforderungswörter sind in zwei Teile unterteilt: positiv und negativ.
Positive Aufforderungswortvorlage
replace only the masked text with crisp [字体风格] text '[目标文字]',
exact baseline alignment, preserve poster texture, lighting, shadows, perspective
Negative Aufforderungswortvorlage
garbled text, duplicate letters, extra glyphs, warped text, blur, low contrast, artifacts
Schlüsselparameter
| Parameter | Empfohlene Werte | Beschreibung |
|---|---|---|
strength | 0,25-0,45 | Je niedriger der Wert, desto konservativer ist er und desto mehr Originalbildinformationen bleiben erhalten. 0,25 eignet sich zum Ändern nur des Textes, ohne den Hintergrund zu ändern, 0,45 eignet sich zur Feinabstimmung des umgebenden Bereichs |
guidance_scale | 4-7 | Je höher der Wert, desto mehr Aufforderungswörter werden gefolgt, aber ein zu hoher Wert führt zu einer Überschärfung |
num_inference_steps | 28-40 | Je mehr Schritte, desto besser die Qualität, aber desto langsamer die Geschwindigkeit |
Postertitelvorlage
正向:replace masked headline with bold white sans-serif text 'SUMMER SALE',
crisp sharp edges, exact horizontal alignment, preserve gradient background and shadows
负向:garbled text, misspelled words, duplicate letters, warped baseline, blur, extra characters
Parameter: strength=0.30, guidance_scale=5.5, steps=32
Vorlage für Markennamen
正向:replace masked text with clean logo-style text 'NATURA',
letter-spacing uniform, preserve brand color scheme and background texture
负向:garbled text, wrong font weight, uneven spacing, artifacts, low resolution
Parameter: strength=0.25, guidance_scale=6.0, steps=36
Maskierungsvorschläge
- Postertitel: rechteckige Maske auf Wortebene, die sich um 2–6 Pixel nach außen erweitert
- Markenname: Insgesamt rechteckige Maske, einschließlich umgebendem Weißraum
- Preiszahlen: exakte rechteckige Maske, keine Erweiterung – der Hintergrund des Zahlenbereichs ist normalerweise sehr einfach und die Erweiterung führt zu Rauschen
Plattform 2: OpenAI GPT Image 2 Bearbeitungsfluss-Eingabeaufforderungswörter

Der Bearbeitungsablauf von GPT Image 2 implementiert lokale Änderungen über den Maskenparameter. Das Aufforderungswort muss in natürlicher Sprache beschreiben, „nur was geändert und was beibehalten werden soll“.
Grundlegende Syntax
from openai import OpenAI
client = OpenAI()
result = client.images.edit(
model="gpt-image-2",
image=open("poster.png", "rb"),
mask=open("mask.png", "rb"), # 与原图同尺寸、同格式,带 alpha 通道
prompt='Replace only the masked headline with crisp white sans-serif text "OPEN STUDIO". Preserve perspective, paper texture, and shadows.'
)
Anforderungen an Maskendateien
- Gleiche Größe wie das Originalbild (konsistent auf Pixelebene)
- Gleiches Format wie das Originalbild (beide PNG oder beide JPEG)
- Mit Alphakanal (transparente Bereiche = nicht geändert, undurchsichtige Bereiche = müssen geändert werden)
- Erinnerung an die offizielle Hilfeseite von ChatGPT Images: Die Auswahlhervorhebung ist nicht immer korrekt und die Bearbeitung kann über den ausgewählten Bereich hinausgehen. Lassen Sie daher im Maskenbereich angemessene Ränder
Plakatbeschriftungsvorlage
Replace only the masked headline with clean white sans-serif text "SUMMER SALE".
Text must be crisp, sharp, with uniform letter spacing.
Preserve poster background, gradient, shadows, and all unmasked elements.
Do not add extra text, watermarks, or decorative elements.
Etikettenänderungsvorlage
Replace only the masked text area with clean product label text "Ingredients: Water, Glycerin, Niacinamide".
Font: small, precise, uniform sans-serif. Match existing label style.
Preserve bottle shape, label material texture, and all surrounding elements.
Do not change product name, logo, or barcode.
Chinesische Plakatvorlage
请只替换蒙版区域的文字为清晰的中文无衬线字体"新消费品牌增长论坛"。
文字必须笔画完整、大小均匀、行距一致。
保持海报背景、光影、透视和所有未蒙版元素不变。
不要添加额外文字、装饰或水印。
Wichtige Tipps
Tipp 1: Setzen Sie den Zieltext in Anführungszeichen. "SUMMER SALE" ist besser als SUMMER SALE, damit das Modell versteht, dass dies genau dargestellt werden muss.
Tipp 2: Sagen Sie deutlich: „Ändern Sie nur den maskierten Bereich.“ Replace only the masked area ist viel genauer als Fix the text – ersteres schränkt den Umfang der Änderungen ein, während letzteres dazu führen kann, dass das Modell das gesamte Bild neu rendert.
Tipp 3: Listen Sie die Elemente auf, die nicht geändert werden können. Preserve background, shadows, perspective, all unmasked elements – Diese Einschränkung kann die Situation „Ändert sich ein Wort, ändert sich auch der Hintergrund“ erheblich reduzieren.
Tipp 4: Fügen Sie der chinesischen Szene die Einschränkung „Nicht umschreiben“ hinzu. 文字必须严格按以下内容排版,不要改写、不要增删、不要替换同义词 – Dies ist entscheidend für Geschäftsplakate, die einer rechtlichen Prüfung bedürfen.
Plattform 3: Eingabeaufforderungen zur teilweisen Wortänderung während der Fahrt
Die Editor- und Vary-Region-Funktionen von Midjourney unterstützen das Neuzeichnen der Auswahl. Beamte empfehlen, dass die Eingabeaufforderungen kurz und direkt sind und die Parameter am Ende platziert werden.
Grundlegende Syntax
clean swiss poster headline::2 geometric background::1 exact text OPEN STUDIO crisp sans serif aligned baseline --ar 2:3 --raw
Gewichtssystem
Midjourney verwendet ::, um verschiedene Teile des Aufforderungsworts zu trennen, und die folgende Zahl ist die Gewichtung. Stellen Sie für die Textwiedergabe die Gewichtung des Textinhalts hoch ein:
exact text "SUMMER SALE"::3 clean poster design::1 minimalist background::1 --ar 16:9 --raw
::3 bedeutet, dass das Gewicht des Textinhalts dreimal so hoch ist wie das der anderen Teile und das Modell mehr daran arbeitet, die Wörter richtig zu schreiben.
Postertitelvorlage
clean bold sans-serif headline text "SUMMER SALE"::3 geometric gradient poster background::1 exact baseline alignment sharp crisp edges --ar 16:9 --raw
Markenidentitätsvorlage
logo text "NATURA"::3 clean minimalist brand identity::1 letter-spacing uniform professional typography --ar 1:1 --raw
Einschränkungen von Midjourney
Die Stärke von Midjourney liegt im visuellen Stil, nicht in der Textgenauigkeit. Weniger Kontrolle über langen Text (mehr als 5 Wörter) und präzises Kerning als Stable Diffusion und GPT Image 2. Die besten Verwendungsmöglichkeiten sind: Stilisierte kurze Wörter, Titel von Konzeptplakaten, schnelle Iteration von Markennamen.
Plattformübergreifende allgemeine Fähigkeiten
Unabhängig davon, welches Modell verwendet wird, können die folgenden Tipps die Genauigkeit der Textwiedergabe verbessern:
Setzen Sie den Zieltext in Anführungszeichen
Setzen Sie den Text, der im Bild erscheinen soll, in Anführungszeichen, und das Modell behandelt ihn als Inhalt, der „genau dargestellt werden muss“ und nicht als Beschreibung, die „frei abgespielt werden kann“. Dieser Trick funktioniert auf allen Plattformen.
Standort explizit angeben
Schreiben Sie nicht einfach „Platzieren Sie den Titel oben“, sondern „Platzieren Sie den Haupttitel zentriert in den oberen 20 % des Bildschirms, mit der größten Schriftgröße“. Je genauer das Modell ist, desto geringer ist die Wahrscheinlichkeit, dass es eigene Entscheidungen trifft.
Geben Sie den Schriftartstil anstelle des Schriftartnamens an
Das Schreiben „Moderne serifenlose Schriftart, fette Titel“ ist effektiver als das Schreiben „Helvetica verwenden“. Das Modell kennt möglicherweise nicht unbedingt den spezifischen Schriftartnamen, kann aber die Stilbeschreibung verstehen.
Steuern Sie die Textmenge
Arbeiten Sie jeweils nur an 1–3 Wörtern oder Sätzen. Je mehr Wörter vorhanden sind, desto höher ist die Fehlerwahrscheinlichkeit. Wenn Sie mehrere Textbereiche ändern müssen, tun Sie dies mehrmals, jeweils einen Bereich nach dem anderen.
Zuerst löschen und dann schreiben
Überschreiben Sie neuen Text nicht direkt über vorhandenen Text. Verwenden Sie zunächst Inpaint, um den Originaltext zu löschen (lassen Sie das Eingabeaufforderungswort leer oder schreiben Sie remove text). Nachdem Sie sich vergewissert haben, dass der Hintergrund sauber ist, führen Sie einen zweiten Inpaint durch, um neuen Text zu schreiben. Zwei Schritte sind sicherer als einer.
Negative Erinnerungswörter können nicht weggelassen werden
Die negativen Aufforderungswörter von Stable Diffusion haben einen großen Einfluss auf den Textwiedergabeeffekt. garbled text, duplicate letters, extra glyphs Diese drei Punkte sind fast ein Muss.
Ein vollständiger Wort-Workflow mit Aufforderung zur Wortänderung
Nehmen Sie als Beispiel ein chinesisches Werbeplakat. Der Titel muss von verstümmelten Zeichen in „Zeitlich begrenztes Sonderangebot“ geändert werden:
Schritt 1: Originaltext löschen
正向:clean background, remove all text, preserve gradient and shadows
负向:text, letters, words, watermark
参数:strength=0.40, guidance_scale=5.0, steps=30
Schritt 2: Neuen Text schreiben
正向:place bold Chinese text "限时特惠" centered in the masked area, modern sans-serif font, crisp sharp strokes, uniform character spacing
负向:garbled text, wrong strokes, missing strokes, blur, extra characters
参数:strength=0.30, guidance_scale=6.0, steps=36
Schritt 3: Verifizierung
Verwenden Sie OCR, um neuen Text zu extrahieren und Wort für Wort mit „zeitlich begrenzten Sonderangeboten“ zu vergleichen. Wenn es eine Abweichung gibt, kehren Sie zu Schritt 2 zurück, um die Eingabeaufforderungswörter oder -parameter zu optimieren.
Zusammenfassung in einem Satz
Die vierschichtige Struktur des Eingabeaufforderungsworts (Textinhalt + Glyphenstil + geometrische Einschränkungen + invariante Elemente) bestimmt die Genauigkeit der Textwiedergabe. Das Auseinanderschreiben dieser vier Schichten ist dreimal effektiver, als alle Informationen zu einem Ball zusammenzuknüllen.
Möchten Sie die Wirkung unterschiedlicher Schreibweisen von Aufforderungswörtern ausprobieren? Verwenden Sie dasselbe Bild, um mehrere Sätze unterschiedlicher Aufforderungswörter auf gpt-image2ai.art zu bearbeiten, und Sie werden die Lücke zwischen präzisen Anweisungen und vagen Beschreibungen intuitiv spüren.

![[de] Advanced Prompt Workflows for Designers in GPT Image 2](https://gpt-image-2.live/blog-assets/f7f88ae7fe45ba37/hero-replicate.webp)
