Das gleiche Modell, die gleichen Anforderungen, aber die Eingabeaufforderungswörter

Das gleiche Modell, die gleichen Anforderungen, aber die Aufforderungswörter sind unterschiedlich geschrieben, die Textgenauigkeit kann dreimal schlechter sein.

Das Stichwort lautet nicht Metaphysik, sondern Ingenieurskunst

Die Art und Weise, wie viele Menschen AI-Bildaufforderungswörter schreiben, besteht darin, „alles zu schreiben, was ihnen in den Sinn kommt“, und dann festzustellen, dass der Text immer Fehler macht, und sie haben das Gefühl, dass „das Modell nicht gut ist“. Aber mit dem gleichen Modell und den gleichen Anforderungen kann die Textgenauigkeit bei manchen Leuten 80 % erreichen, während andere nur 20 % erreichen – der Unterschied liegt in der Art und Weise, wie die Aufforderungswörter geschrieben werden.

Das Projekt „Prompt Word“ besteht nicht darin, „eine lange Beschreibung zu schreiben“, sondern die vier Dimensionen Textinhalt, Glyphenstil, geometrische Einschränkungen und invariante Elemente klar zu beschreiben. Was das Model braucht, sind nicht Ihre Ausrufezeichen und Adjektive, sondern präzise Anweisungen.

In diesem Artikel erhalten Sie eine Reihe von Bibliotheken für Eingabeaufforderungswortvorlagen, die direkt wiederverwendet werden können und die drei Mainstream-Plattformen Stable Diffusion, OpenAI GPT Image 2 und Midjourney abdecken. Sie werden in drei Szenarien eingeteilt: Poster, Etiketten und Infografiken. Jede Vorlage enthält Parameterbeschreibungen und Fallstrickanleitungen.

Vierschichtige Struktur von Aufforderungswörtern

Unabhängig davon, welches Modell verwendet wird, sollten die Eingabeaufforderungswörter für die Textwiedergabe vier Informationsebenen enthalten:

Erste Ebene: Textinhalt. Spezifischer Text, der auf dem Bildschirm angezeigt werden muss. Setzen Sie es in Anführungszeichen, um dem Modell explizit mitzuteilen, dass „diese Wörter genau wiedergegeben werden müssen“.

Die zweite Ebene: Glyphenstil. Schriftart (Serif/Sans Serif), Schriftstärke (Fett/Normal), Schriftgröße. Das Schreiben von „Moderne chinesische serifenlose Schriftart, fetter Titel“ ist effektiver als das Schreiben von „Siyuan Heibo verwenden“ – das Modell kennt möglicherweise nicht unbedingt den spezifischen Schriftartnamen, kann aber die Stilbeschreibung verstehen.

Stufe 3: Geometrische Einschränkungen. Die Position, Größe, Ausrichtung und Zeilenabstand des Textes. Je genauer das Modell ist, desto geringer ist die Wahrscheinlichkeit, dass es eigene Entscheidungen trifft.

Stufe 4: Invariante Elemente. Was nicht geändert werden kann – Hintergrundtextur, Licht und Schatten, Produktkörper, perspektivische Beziehung. Verwenden Sie Einschränkungen wie preserve, do not change, maintain.

Diese vier Schichten aufzuschlüsseln und aufzuschreiben ist viel effektiver, als alle Informationen in einen langen Satz zu packen.

Plattform 1: Stabile Verbreitung von Eingabeaufforderungswörtern

Das Inpainting von Stable Diffusion ist eine der flexibelsten Lösungen für die lokale Charaktermodifikation. Seine Aufforderungswörter sind in zwei Teile unterteilt: positiv und negativ.

Positive Aufforderungswortvorlage

replace only the masked text with crisp [字体风格] text '[目标文字]',
exact baseline alignment, preserve poster texture, lighting, shadows, perspective

Negative Aufforderungswortvorlage

garbled text, duplicate letters, extra glyphs, warped text, blur, low contrast, artifacts

Schlüsselparameter

Parameter	Empfohlene Werte	Beschreibung
`strength`	0,25-0,45	Je niedriger der Wert, desto konservativer ist er und desto mehr Originalbildinformationen bleiben erhalten. 0,25 eignet sich zum Ändern nur des Textes, ohne den Hintergrund zu ändern, 0,45 eignet sich zur Feinabstimmung des umgebenden Bereichs
`guidance_scale`	4-7	Je höher der Wert, desto mehr Aufforderungswörter werden gefolgt, aber ein zu hoher Wert führt zu einer Überschärfung
`num_inference_steps`	28-40	Je mehr Schritte, desto besser die Qualität, aber desto langsamer die Geschwindigkeit

Postertitelvorlage

正向：replace masked headline with bold white sans-serif text 'SUMMER SALE',
crisp sharp edges, exact horizontal alignment, preserve gradient background and shadows

负向：garbled text, misspelled words, duplicate letters, warped baseline, blur, extra characters

Parameter: strength=0.30, guidance_scale=5.5, steps=32

Vorlage für Markennamen

正向：replace masked text with clean logo-style text 'NATURA',
letter-spacing uniform, preserve brand color scheme and background texture

负向：garbled text, wrong font weight, uneven spacing, artifacts, low resolution

Parameter: strength=0.25, guidance_scale=6.0, steps=36

Maskierungsvorschläge

Postertitel: rechteckige Maske auf Wortebene, die sich um 2–6 Pixel nach außen erweitert
Markenname: Insgesamt rechteckige Maske, einschließlich umgebendem Weißraum
Preiszahlen: exakte rechteckige Maske, keine Erweiterung – der Hintergrund des Zahlenbereichs ist normalerweise sehr einfach und die Erweiterung führt zu Rauschen

Plattform 2: OpenAI GPT Image 2 Bearbeitungsfluss-Eingabeaufforderungswörter

Der Bearbeitungsablauf von GPT Image 2 implementiert lokale Änderungen über den Maskenparameter. Das Aufforderungswort muss in natürlicher Sprache beschreiben, „nur was geändert und was beibehalten werden soll“.

Grundlegende Syntax

from openai import OpenAI
client = OpenAI()

result = client.images.edit(
    model="gpt-image-2",
    image=open("poster.png", "rb"),
    mask=open("mask.png", "rb"),   # 与原图同尺寸、同格式，带 alpha 通道
    prompt='Replace only the masked headline with crisp white sans-serif text "OPEN STUDIO". Preserve perspective, paper texture, and shadows.'
)

Anforderungen an Maskendateien

Gleiche Größe wie das Originalbild (konsistent auf Pixelebene)
Gleiches Format wie das Originalbild (beide PNG oder beide JPEG)
Mit Alphakanal (transparente Bereiche = nicht geändert, undurchsichtige Bereiche = müssen geändert werden)
Erinnerung an die offizielle Hilfeseite von ChatGPT Images: Die Auswahlhervorhebung ist nicht immer korrekt und die Bearbeitung kann über den ausgewählten Bereich hinausgehen. Lassen Sie daher im Maskenbereich angemessene Ränder

Plakatbeschriftungsvorlage

Replace only the masked headline with clean white sans-serif text "SUMMER SALE".
Text must be crisp, sharp, with uniform letter spacing.
Preserve poster background, gradient, shadows, and all unmasked elements.
Do not add extra text, watermarks, or decorative elements.

Etikettenänderungsvorlage

Replace only the masked text area with clean product label text "Ingredients: Water, Glycerin, Niacinamide".
Font: small, precise, uniform sans-serif. Match existing label style.
Preserve bottle shape, label material texture, and all surrounding elements.
Do not change product name, logo, or barcode.

Chinesische Plakatvorlage

请只替换蒙版区域的文字为清晰的中文无衬线字体"新消费品牌增长论坛"。
文字必须笔画完整、大小均匀、行距一致。
保持海报背景、光影、透视和所有未蒙版元素不变。
不要添加额外文字、装饰或水印。

Wichtige Tipps

Tipp 1: Setzen Sie den Zieltext in Anführungszeichen. "SUMMER SALE" ist besser als SUMMER SALE, damit das Modell versteht, dass dies genau dargestellt werden muss.

Tipp 2: Sagen Sie deutlich: „Ändern Sie nur den maskierten Bereich.“ Replace only the masked area ist viel genauer als Fix the text – ersteres schränkt den Umfang der Änderungen ein, während letzteres dazu führen kann, dass das Modell das gesamte Bild neu rendert.

Tipp 3: Listen Sie die Elemente auf, die nicht geändert werden können. Preserve background, shadows, perspective, all unmasked elements – Diese Einschränkung kann die Situation „Ändert sich ein Wort, ändert sich auch der Hintergrund“ erheblich reduzieren.

Tipp 4: Fügen Sie der chinesischen Szene die Einschränkung „Nicht umschreiben“ hinzu. 文字必须严格按以下内容排版，不要改写、不要增删、不要替换同义词 – Dies ist entscheidend für Geschäftsplakate, die einer rechtlichen Prüfung bedürfen.

Plattform 3: Eingabeaufforderungen zur teilweisen Wortänderung während der Fahrt

Die Editor- und Vary-Region-Funktionen von Midjourney unterstützen das Neuzeichnen der Auswahl. Beamte empfehlen, dass die Eingabeaufforderungen kurz und direkt sind und die Parameter am Ende platziert werden.

Grundlegende Syntax

clean swiss poster headline::2 geometric background::1 exact text OPEN STUDIO crisp sans serif aligned baseline --ar 2:3 --raw

Gewichtssystem

Midjourney verwendet ::, um verschiedene Teile des Aufforderungsworts zu trennen, und die folgende Zahl ist die Gewichtung. Stellen Sie für die Textwiedergabe die Gewichtung des Textinhalts hoch ein:

exact text "SUMMER SALE"::3 clean poster design::1 minimalist background::1 --ar 16:9 --raw

::3 bedeutet, dass das Gewicht des Textinhalts dreimal so hoch ist wie das der anderen Teile und das Modell mehr daran arbeitet, die Wörter richtig zu schreiben.

Postertitelvorlage

clean bold sans-serif headline text "SUMMER SALE"::3 geometric gradient poster background::1 exact baseline alignment sharp crisp edges --ar 16:9 --raw

Markenidentitätsvorlage

logo text "NATURA"::3 clean minimalist brand identity::1 letter-spacing uniform professional typography --ar 1:1 --raw

Einschränkungen von Midjourney

Die Stärke von Midjourney liegt im visuellen Stil, nicht in der Textgenauigkeit. Weniger Kontrolle über langen Text (mehr als 5 Wörter) und präzises Kerning als Stable Diffusion und GPT Image 2. Die besten Verwendungsmöglichkeiten sind: Stilisierte kurze Wörter, Titel von Konzeptplakaten, schnelle Iteration von Markennamen.

Plattformübergreifende allgemeine Fähigkeiten

Unabhängig davon, welches Modell verwendet wird, können die folgenden Tipps die Genauigkeit der Textwiedergabe verbessern:

Setzen Sie den Zieltext in Anführungszeichen

Setzen Sie den Text, der im Bild erscheinen soll, in Anführungszeichen, und das Modell behandelt ihn als Inhalt, der „genau dargestellt werden muss“ und nicht als Beschreibung, die „frei abgespielt werden kann“. Dieser Trick funktioniert auf allen Plattformen.

Standort explizit angeben

Schreiben Sie nicht einfach „Platzieren Sie den Titel oben“, sondern „Platzieren Sie den Haupttitel zentriert in den oberen 20 % des Bildschirms, mit der größten Schriftgröße“. Je genauer das Modell ist, desto geringer ist die Wahrscheinlichkeit, dass es eigene Entscheidungen trifft.

Geben Sie den Schriftartstil anstelle des Schriftartnamens an

Das Schreiben „Moderne serifenlose Schriftart, fette Titel“ ist effektiver als das Schreiben „Helvetica verwenden“. Das Modell kennt möglicherweise nicht unbedingt den spezifischen Schriftartnamen, kann aber die Stilbeschreibung verstehen.

Steuern Sie die Textmenge

Arbeiten Sie jeweils nur an 1–3 Wörtern oder Sätzen. Je mehr Wörter vorhanden sind, desto höher ist die Fehlerwahrscheinlichkeit. Wenn Sie mehrere Textbereiche ändern müssen, tun Sie dies mehrmals, jeweils einen Bereich nach dem anderen.

Zuerst löschen und dann schreiben

Überschreiben Sie neuen Text nicht direkt über vorhandenen Text. Verwenden Sie zunächst Inpaint, um den Originaltext zu löschen (lassen Sie das Eingabeaufforderungswort leer oder schreiben Sie remove text). Nachdem Sie sich vergewissert haben, dass der Hintergrund sauber ist, führen Sie einen zweiten Inpaint durch, um neuen Text zu schreiben. Zwei Schritte sind sicherer als einer.

Negative Erinnerungswörter können nicht weggelassen werden

Die negativen Aufforderungswörter von Stable Diffusion haben einen großen Einfluss auf den Textwiedergabeeffekt. garbled text, duplicate letters, extra glyphs Diese drei Punkte sind fast ein Muss.

Ein vollständiger Wort-Workflow mit Aufforderung zur Wortänderung

Nehmen Sie als Beispiel ein chinesisches Werbeplakat. Der Titel muss von verstümmelten Zeichen in „Zeitlich begrenztes Sonderangebot“ geändert werden:

Schritt 1: Originaltext löschen

正向：clean background, remove all text, preserve gradient and shadows
负向：text, letters, words, watermark
参数：strength=0.40, guidance_scale=5.0, steps=30

Schritt 2: Neuen Text schreiben

正向：place bold Chinese text "限时特惠" centered in the masked area, modern sans-serif font, crisp sharp strokes, uniform character spacing
负向：garbled text, wrong strokes, missing strokes, blur, extra characters
参数：strength=0.30, guidance_scale=6.0, steps=36

Schritt 3: Verifizierung

Verwenden Sie OCR, um neuen Text zu extrahieren und Wort für Wort mit „zeitlich begrenzten Sonderangeboten“ zu vergleichen. Wenn es eine Abweichung gibt, kehren Sie zu Schritt 2 zurück, um die Eingabeaufforderungswörter oder -parameter zu optimieren.

Zusammenfassung in einem Satz

Die vierschichtige Struktur des Eingabeaufforderungsworts (Textinhalt + Glyphenstil + geometrische Einschränkungen + invariante Elemente) bestimmt die Genauigkeit der Textwiedergabe. Das Auseinanderschreiben dieser vier Schichten ist dreimal effektiver, als alle Informationen zu einem Ball zusammenzuknüllen.

Möchten Sie die Wirkung unterschiedlicher Schreibweisen von Aufforderungswörtern ausprobieren? Verwenden Sie dasselbe Bild, um mehrere Sätze unterschiedlicher Aufforderungswörter auf gpt-image2ai.art zu bearbeiten, und Sie werden die Lücke zwischen präzisen Anweisungen und vagen Beschreibungen intuitiv spüren.

Try GPT Image 2 for Free Now →

Wenn die Eingabeaufforderungswörter richtig geschrieben sind, sind die KI-Wörter halb richtig: Praktischer Kampf gegen die Textwiedergabe-Eingabeaufforderungsworttechnik

Das Stichwort lautet nicht Metaphysik, sondern Ingenieurskunst

Vierschichtige Struktur von Aufforderungswörtern

Plattform 1: Stabile Verbreitung von Eingabeaufforderungswörtern

Positive Aufforderungswortvorlage

Negative Aufforderungswortvorlage

Schlüsselparameter

Postertitelvorlage

Vorlage für Markennamen

Maskierungsvorschläge

Plattform 2: OpenAI GPT Image 2 Bearbeitungsfluss-Eingabeaufforderungswörter

Grundlegende Syntax

Anforderungen an Maskendateien

Plakatbeschriftungsvorlage

Etikettenänderungsvorlage

Chinesische Plakatvorlage

Wichtige Tipps

Plattform 3: Eingabeaufforderungen zur teilweisen Wortänderung während der Fahrt

Grundlegende Syntax

Gewichtssystem

Postertitelvorlage

Markenidentitätsvorlage

Einschränkungen von Midjourney

Plattformübergreifende allgemeine Fähigkeiten

Setzen Sie den Zieltext in Anführungszeichen

Standort explizit angeben

Geben Sie den Schriftartstil anstelle des Schriftartnamens an

Steuern Sie die Textmenge

Zuerst löschen und dann schreiben

Negative Erinnerungswörter können nicht weggelassen werden

Ein vollständiger Wort-Workflow mit Aufforderung zur Wortänderung

Zusammenfassung in einem Satz

Ähnliche Artikel

Von 3 Cent bis 1 Dollar pro Bild: Die wahren Kosten von GPT Image 2 vs. Nano Banana 2

[de] Advanced Prompt Workflows for Designers in GPT Image 2

Erweiterte Eingabeaufforderungs-Workflows für Designer in GPT-Bild 2