同じモデル、同じ要件ですが、プロンプトの単語の書き方が異なるため、テキストの精度が 3 倍悪くなる可能性があります。

同じモデル、同じ要件でも、プロンプトの単語の書き方が異なると、テキストの精度が 3 倍悪くなる可能性があります。

プロンプトの言葉は形而上学ではなく工学です

多くの人がAI画像プロンプトワードを書く方法は、「思いついたことを何でも書く」というものですが、そのテキストには必ず間違いがあることに気づき、「モデルが良くない」と感じます。しかし、同じモデルと同じ要件を使用した場合、テキスト精度が 80% に達する人もいれば、20% しかない人もいます。その違いは、プロンプトの単語の書き方にあります。

プロンプトワードプロジェクトは、「長い説明を書く」ことではなく、テキストの内容、グリフスタイル、幾何学的制約、不変要素の 4 つの側面を明確に説明することです。モデルに必要なのは、感嘆符や形容詞ではなく、正確な指示です。

この記事では、Stable Diffusion、OpenAI GPT Image 2、Midjourney の 3 つの主流プラットフォームをカバーする、直接再利用できるプロンプト Word テンプレートライブラリのセットを提供します。これらは、ポスター、ラベル、インフォグラフィックの 3 つのシナリオに分類されます。各テンプレートにはパラメータの説明と落とし穴ガイドが付属しています。

プロンプトワードの 4 層構造

どのモデルを使用するかに関係なく、テキストレンダリングのプロンプトワードには 4 つの情報層が含まれている必要があります。

最初のレイヤー: テキストコンテンツ。 画面に表示する必要がある特定のテキスト。引用符で囲んで、モデルに「これらの単語を正確に表示する必要がある」ことを明示的に伝えます。

2 番目のレイヤー: グリフスタイル。 フォントタイプ (セリフ/サンセリフ)、フォントの太さ (太字/標準)、フォントサイズレベル。「現代中国語のサンセリフフォント、太字のタイトル」と書くことは、「Siyuan Heibo を使用する」と書くよりも効果的です。モデルは必ずしも特定のフォント名を知っているとは限りませんが、スタイルの説明は理解できます。

レベル 3: 幾何学的制約。 テキストの位置、サイズ、配置、行間隔。モデルが正確であればあるほど、モデル自体が決定を下す可能性は低くなります。

レベル 4: 不変要素。 変更できないもの - 背景テクスチャ、光と影、製品本体、遠近関係。 preserve、do not change、maintain などの制約を使用します。

これら 4 つの層を分解して書くことは、すべての情報を 1 つの長い文に詰め込むよりもはるかに効果的です。

プラットフォーム 1: 安定した拡散のプロンプトワードの修復

Stable Diffusion の修復は、ローカルキャラクタ変更に対する最も柔軟なソリューションの 1 つです。そのプロンプトの言葉は、肯定的な部分と否定的な部分の 2 つの部分に分かれています。

肯定的なプロンプトの単語テンプレート

🚫コード0🚫

否定的なプロンプトの単語テンプレート

🚫コード1🚫

主要パラメータ

パラメータ	推奨値	説明

ポスタータイトルテンプレート

🚫コード2🚫

パラメータ: strength=0.30, guidance_scale=5.5, steps=32

ブランド名テンプレート

🚫コード3🚫

パラメータ: strength=0.25, guidance_scale=6.0, steps=36

マスキングの提案

ポスターのタイトル: ワードレベルの長方形マスク、外側に 2 ～ 6 ピクセル拡大
商品名：周囲の余白を含む全体的に長方形のマスク
価格の数字: 正確な長方形のマスク、拡張なし - 数字領域の背景は通常非常に単純で、拡張するとノイズが発生します。

プラットフォーム 2: OpenAI GPT Image 2 編集フロープロンプトワード

GPT Image 2 の編集フローは、マスクパラメーターを介してローカル変更を実装します。プロンプトワードは、自然言語で「何を変更し、何を維持するかのみ」を説明する必要があります。

基本的な構文

🚫コード4🚫

マスクファイルの要件

元の画像と同じサイズ (ピクセルレベルで一貫しています)
元の画像と同じ形式 (両方とも PNG または両方とも JPEG)
アルファチャネルあり (透明な領域 = 変更されない、不透明な領域 = 変更される)
ChatGPT Images 公式ヘルプページのリマインダー: 選択範囲の強調表示は常に正確であるとは限らず、編集は選択した領域を超える可能性があります - そのため、マスク領域に適切な余白を残してください

ポスターレタリングテンプレート

🚫コード5🚫

ラベル変更テンプレート

🚫コード6🚫

中国のポスターテンプレート

🚫コード7🚫

重要なヒント

ヒント 1: ターゲットテキストを引用符で囲みます。 モデルが正確に表現する必要があるものであることを理解するには、"SUMMER SALE" の方が SUMMER SALE よりも優れています。

ヒント 2: 「マスクされた領域のみを変更する」と明確に伝えます。 Replace only the masked area は Fix the text よりもはるかに正確です。前者は変更の範囲を制限しますが、後者はモデルが画像全体を再レンダリングする可能性があります。

ヒント 3: 変更できない要素をリストします。 Preserve background, shadows, perspective, all unmasked elements - この制約により、「単語を変更すると背景も変更される」という状況を大幅に減らすことができます。

ヒント 4: 中国語シーンに「書き換え禁止」制約を追加します。 文字必须严格按以下内容排版，不要改写、不要增删、不要替换同义词 - これは、法的審査が必要なビジネスポスターにとって非常に重要です。

プラットフォーム 3: ミッドジャーニーの部分的な単語変更プロンプト

Midjourney のエディター機能とさまざまな地域機能は、選択範囲の再描画をサポートしています。当局は、プロンプトは短く直接的なものにし、パラメータを最後に配置することを推奨しています。

基本的な構文

🚫コード8🚫

ウェイトシステム

Midjourney は :: を使用してプロンプト単語のさまざまな部分を区切ります。次の数値が重みです。テキストのレンダリングでは、テキストコンテンツのウェイトを高く設定します。

🚫コード9🚫

::3 は、テキストコンテンツの重みが他の部分の 3 倍であることを意味し、モデルは単語を正しく書くためにさらに努力します。

ポスタータイトルテンプレート

🚫コード10🚫

ブランドアイデンティティテンプレート

🚫コード11🚫

ミッドジャーニーの制限事項

Midjourney の強みは、テキストの正確さではなく、ビジュアルスタイルです。 Stable Diffusion や GPT Image 2 に比べて、長いテキスト (5 ワード以上) と正確なカーニングの制御が少なくなります。その最適な用途は次のとおりです: 定型化された短い単語、コンセプトポスターのタイトル、ブランド名の迅速な反復。

クロスプラットフォームの一般的なスキル

どのモデルを使用する場合でも、次のヒントによりテキストレンダリングの精度を向上させることができます。

ターゲットテキストを引用符で囲みます

画像内に表示する必要があるテキストを引用符で囲むと、モデルはそれを「自由に再生できる」説明ではなく、「正確に表示する必要がある」コンテンツとして扱います。このトリックはすべてのプラットフォームで機能します。

場所を明示的に宣言する

「タイトルを上部に配置する」だけではなく、「メインタイトルを画面の上部 20% の中央に、最大のフォントサイズで配置する」と記述してください。モデルが正確であればあるほど、モデル自体が決定を下す可能性は低くなります。

フォント名の代わりにフォントスタイルを指定します

「モダンなサンセリフフォント、太字のタイトル」と書くことは、「Helvetica を使用する」と書くよりも効果的です。モデルは必ずしも特定のフォント名を知っているとは限りませんが、スタイルの説明は理解できます。

テキストの量をコントロールする

一度に取り組む単語やフレーズは 1 ～ 3 つだけにしてください。単語が多ければ多いほど、間違いの可能性が高くなります。複数のテキスト領域を変更する必要がある場合は、一度に 1 つの領域ずつ複数回実行します。

最初に消去してから書き込みます

新しいテキストを既存のテキストの上に直接上書きしないでください。まず、修復を使用して元のテキストを消去します (プロンプトの単語を空白のままにするか、remove textと書き込みます)。背景がきれいであることを確認した後、2 回目の修復を実行して新しいテキストを書き込みます。 1 つのステップより 2 つのステップの方が安全です。

否定的な注意喚起の言葉は省略できません

Stable Diffusion の否定的なプロンプトワードは、テキストレンダリング効果に大きな影響を与えます。 garbled text, duplicate letters, extra glyphs この3点はほぼ必須です。

完全な単語修正プロンプト単語ワークフロー

中国の宣伝ポスターを例に挙げます。タイトルを文字化けから「期間限定特別オファー」に変更する必要があります。

ステップ 1: 元のテキストを消去します

🚫コード12🚫

ステップ 2: 新しいテキストを作成します

🚫コード13🚫

ステップ 3: 検証

OCR を使用して新しいテキストを抽出し、それを「期間限定の特別オファー」と一語一語比較します。逸脱がある場合は、ステップ 2 に戻り、プロンプトの単語またはパラメーターを微調整します。

一文の要約

プロンプト単語の 4 層構造 (テキストコンテンツ + グリフスタイル + 幾何学的制約 + 不変要素) によって、テキストレンダリングの精度が決まります。これら 4 つの層を別々に書くことは、すべての情報を 1 つのボールに丸めるよりも 3 倍効果的です。

プロンプトワードのさまざまな書き方の効果を試してみませんか?同じ画像を使用して、gpt-image2ai.art で異なるプロンプトワードのいくつかのセットを編集すると、正確な指示と曖昧な説明の間のギャップを直感的に感じるでしょう。

Try GPT Image 2 for Free Now →

プロンプトワードが正しく書かれていればAIの単語は半分正解：テキストレンダリングプロンプトワードエンジニアリングの実戦

プロンプトの言葉は形而上学ではなく工学です

プロンプトワードの 4 層構造