画像生成AI

【StableDiffusion】リアルな美女を生成するための必須プロンプト一覧【画像生成AI】

この記事でわかること
  • リアル系画像生成に重要なプロンプトワード
  • リアルな人物を生成するのに必要な要素

こんにちは、「学びが人生を豊かにする」をテーマに本日は「画像生成AIでリアルな人物を生成するのに重要なプロンプト」についてです。

画像生成AIでリアルな人物を作るにはどうしたら良いでしょうか。
civitaiをはじめ色々なサイトで参考になるプロンプトが掲載されてはいますが、結局いまいちどうしたら良いのか分からないということはないでしょうか。

本記事では自分で一からプロンプトを組み立てるのに重要なプロンプト一覧を紹介したいと思います。
特にリアルな人物を生成するのに必須となるプロンプトに焦点を当てて紹介します。

本記事を読むことで、何となくプロンプトを指定しているという状態から、ある程度方向性を見極めたプロンプトの指定が出来るようになると思います。
是非、一読してみてください。

対象読者
  • 参考となるプロンプトのコピペ画像生成から脱却したい人

優れたプロンプトを知るには

本記事では、リアルな美女を生成するのに必要なプロンプトは何かについて解説していきたいと思います。
どのようなプロンプトを使用したら良いのかというのは、唯一の正解というのはありません。
しかし、使用するモデルやプロンプトの組み合わせなど無数に存在する一方で、ある程度傾向は似ているものです。
例えば、多くの画像では「best quality」など画像品質に関わるワードはほぼ必須で使用されていますよね。

こうしたプロンプトを知りたい場合、civitaichichi-puiのサイトを参考にすると非常に優れた画像のプロンプトを確認することが出来ます。
その中で、構図や衣装の指定など細かい部分については生成したい画像に依存しますが、リアルな描画をしたいという点は共通しています。

そのため、高品質な画像を生成しているプロンプトの中で、より多く使用されているワードが重要なワードであると推測できます。
こうしたワードを特定するために、以下条件でサンプルを取得して集計しどんなワードが使用されているのか確認したいと思います。

解析条件

プロンプト収集条件

以下条件でプロンプトを収集します。

  • サイト:civitai
  • 取得する画像:リアル系BASE MODELに掲載されている人物画像
  • 取得条件:主観評価として、ぱっと見でリアルな画像
  • 取得枚数:50サンプル以上

サンプルを使用するサイトはcivitaiのサイトです。
その中で、リアル系として人気の高い「BracingEvoMix」のサンプル画像のプロンプトを取得します。

取得するプロンプトの画像は極力リアルな人物が描画されているものに限定します。
明確な線引きは困難なため、あくまで主観評価でぱっと見リアルに見える画像だけにしました。
よく見ればAIであることはすぐ分かるかもしれませんが、明らかにCGっぽいものは採用していません。

また取得する画像の枚数は50枚以上としています。

プロンプト集計条件

上記で収集したプロンプトを以下の条件で集計します。

  • 集計対象:ポジティブプロンプト
  • 強調構文は無視する
  • 要素に分類して集計

今回集計対象とするのは、ポジティブプロンプトのみです。
プロンプトは強調構文を使用することが出来ますが、これらは同一ワードとして集計します。
例えば(best quality:1.4)や(best quality:1.2)は全て「best quality」として集計するということです。

これらのワードに対して、何回このワードが使用されたのかを集計し、どんなワードが共通的に使用されているのかを分析します。

プロンプト解析

ポジティブプロンプトの解析結果

今回プロンプト集計用に取得したサンプル画像は合計64枚です。
以下に取得したサンプル画像の例を示します。

サンプル画像

ぱっと見だとAIだと分からないぐらいにはリアルな写真になっているかと思います。
上記は露出の少ない画像を選定していますが、実際にはかなりの数が露出の多い画像でした。

これらからポジティブプロンプトを抽出し、同じような種類の単語をグループ化します。
今回は以下のように分類しました。

  • 品質
    • 画質
    • 品質
  • 画風
    • スタイル
    • 照明
  • コアプロンプト
    • テーマ
    • アングル
    • 構図
    • 詳細
    • 背景
  • その他
    • その他
    • loraなど

この分類単位でどのくらいの頻度でワードが出現していたのか分析したいと思います。
また集計において1回しか出現していないワードに関しては、マイナーワードのため下記一覧には含めていません。

上記のうち、コアプロンプトとその他の部分については、生成した対象に依存する内容のため、特に詳細な分析は対象外とします。
重要なのは共通部分の「品質」と「画風」の部分であり、この二つの種類において頻出するワードが高品質な画像生成には重要です。
一応、特に人気のあるワードの紹介という形で、TOP3ワードを記載しますので参考程度にしてください。

なおプロンプトの基本的な文法やプロンプトに入れるべき重要な要素は何かなどは、下記記事で解説しています。
合わせて読んでみてください。

品質

解像度など画質に関するワードと、画像全体の品質に関するワードの一覧と出現回数です。

画質
ワード意味出現回数
8k8K画質17
highres高解像度17
beautiful detailed美しい詳細7
ultra detailed超詳細な7
32k32K画質5
detailed詳細5
finely detail細かく5
hdHD画質5
ultra high res 超高解像度4
extremely detailed非常に詳細な3
highly detailed非常に詳細な3
ultra highres超高解像度2

画質に関してよく使用されるのは「8k」、「highres」の二つです。
また、画質として画素数を表す単語だけでなく、詳細を意味する「detail」という単語が頻出していることが分かります。
そのため要素としては「画素数」、「解像度」、「詳細度」の3つを選ぶのがよさそうです。
例えば「8k, highres, ultra detailed」あたりを指定するのが人気なようです。

おすすめプロンプト
8k, highres, ultra detailed

品質
ワード意味出現回数
best quality最高品質48
masterpiece傑作43
high quality高品質5
an extremely delicate and beautiful非常に繊細で美しい3
extremely delicate and beautiful非常に繊細で美しい2
top quality最高品質2

今回サンプリングした画像枚数が64枚のため、約8割の画像にて「best quality」と「masterpeace」は指定されています。
そのため「best quality, masterpiece」と指定するのはほぼ必須のようです。
もしくは3つめを追加し「best quality, masterpiece, high quality」と指定してもよいでしょう。

おすすめプロンプト
best quality, masterpiece, high quality

スタイル

ワード意味出現回数
portrait肖像画11
photorealistic写実的な7
ultra realistic超現実的な7
photo realistic写真のようにリアルな5
RAW photoRAW写真5
bokehボケ味4
realistic現実的な4
award winning photo受賞写真2
digital photographyデジタル写真2
film grainフィルムグレイン(粒状テクスチャ)2
official art公式アート2
photon mappingフォトンマッピング2
photoshoot写真撮影2
RAW2

スタイルについては上半身または顔を重要視しているためか、肖像画を意味する「portrait」が人気が高いです。
意味合い的には人物をテーマにした写真全般を指すため、よく使用されるのかと思います。
全体的には「写真」を意味する単語と「real」という単語が多く使われていることが分かります。
従って、これら二つを指定してあげるのが良いでしょう。

おすすめプロンプト
portrait, photorealistic

照明

ワード意味出現回数
cinematic lighting映画のような照明8
backlightingバックライト6
best illumination最高のイルミネーション5
professional lightingプロの照明5
perfect lighting完璧な照明5
bright明るい5
accent lightingアクセント照明5
best shadow最高の影5
soft lighting柔らかな照明3
realistic lightingリアルな照明3
sunshine日光2
realistic shadowリアルな影2
perfect night lighting完璧な夜間照明2
natural lighting自然光2

照明に関しては特に突出して使用されているワードは無い傾向にあるように見えます。
写真撮影においては光源の位置など照明方法によって、印象が大きく変わります。
そのため、最終的には好みの照明方法を指定するのが良いでしょう。
またはダイナミックプロンプトなどで色々変えながら生成するのもありだと思います

コアプロンプトの人気ワード

テーマ
ワード意味出現回数
1girl一人の女の子30
japanese girl日本の女の子10
mature woman solo熟女ソロ5
アングル
ワード意味出現回数
from below下から8
from above上から5
pov一人称視点4
構図
ワード意味出現回数
looking at viewerカメラを見る17
spread legs足を広げる10
knees up膝を立てる4
詳細
ワード意味出現回数
blush赤面12
detailed face詳細な顔11
long hair長い髪10
背景
ワード意味出現回数
sea shore海岸6
beachビーチ6
simple backgroundシンプルな背景4
その他
ワード意味出現回数
perfect anatomy理想的な人体5
sexyセクシー5
erotic sexyエロセクシー4
lora
rolaファイル特徴出現回数
lora:add_detail詳細化13
lora:JapaneseDollLikeness_v15日本人顔5
lora:koreanDollLikeness韓国人顔4

抽出したプロンプトによる美女生成の実践

リアルな美女の画像生成しているポジティブプロンプトについて、抽出して分析しましたが、実際にこれらで美女が生成できるか実践していきたいと思います。
使用するプロンプトは上記で抽出したワードとし、その他のパラメタは以下の通りとします。

  • モデル:BracingEvoMix
  • Steps: 30
  • Sampler: DPM++ 2M SDE Karras
  • CFG scale: 7,
  • Size: 512×512

また、ポジティブプロンプトの影響を評価するためにネガティブプロンプトは特に指定しません。
上記の条件で以下3つを比較していきたいと思います。

  • テーマ(背景なども含む)のみ
  • マイナーワードの指定
  • 上位ワードの指定

テーマは「1girl」とし、マイナーワードの指定では品質などについてあまり使用されていないワードを各要素に指定して画像生成します。
上位ワードの指定では、前章で抽出した上位出現回数のワードを要素として指定し画像生成するものとします。

使用プロンプト

テーマのみ

下記プロンプトを使用します。
作成したい画像は海岸で長髪の女性がこちらを見ている画像です。

  • テーマ:1girl
  • 品質:なし
  • スタイル:なし
  • 構図:looking at viewer
  • 詳細:long hair
  • 背景:sea shore

Positive prompt:
1girl,looking at viewer,long hair,sea shore

Negative prompt:

マイナーワードの指定

マイナーワードの指定として、上記プロンプトに下記ワードを追加します。
ここでは、他と比べて使用頻度が少ないワードですが、それでも意味合い的には大きく変わりのないワードであり、それなりの効力は発揮するものと想像します。

  • 画質:hd
  • 品質:top quality
  • スタイル:photoshoot
  • 照明:bright

Positive prompt:
hd,top quality,photoshoot,bright,
1girl,looking at viewer,long hair,sea shore

Negative prompt:

上位ワードの指定

マイナーワードの代わりに上位出現回数のワードを使用します。
上位ワードとして今回採用したワードは以下の通りです。
基本的には前章でおすすめプロンプトワードとして紹介したものになります。

  • 画質:8k,highres,ultra detailed,
  • 品質:best quality,masterpiece,high quality,
  • スタイル:portrait,photorealistic,
  • 照明:bright,

Positive prompt:
best quality,masterpiece,high quality,8k,highres,ultra detailed,portrait,photorealistic,bright,
1girl,looking at viewer,long hair,sea shore,

Negative prompt:

画像生成結果

上記3つの条件のもと画像生成して出力した結果は以下の通りです。

ワード指定比較

品質指定なしの画像は、さすがに見られるレベルの画像ではありません。
それに対して、真ん中の画像はマイナーワードとはいえ、品質ワードを指定するとそれなりに見栄えの良い画像生成ができました。
さらに、今回分析した結果の上位頻出ワードを指定すると、かなり良い画像が出力できたことが分かるかと思います。

シード値による偶然ということもあるので、さらに10枚画像を生成して比較してみます。
まずは品質指定なしの画像です。

品質無10枚

次にマイナー品質ワードを追加した画像です。

マイナーワード10枚

最後に上位頻出ワードを指定した画像です。

上位ワード10枚

画像サイズが小さいため、若干分かりにくい感じはありますが、全体的に上位品質ワードを指定した画像のが良い画像になっているかと思います。
ただし、いまいちリアルさが足らないように思います。

これに対してネガティブプロンプトを追加するだけでもリアルさを出すことはできるのですが、もう少しポジティブプロンプトを工夫したいと思います。

プロンプトによるリアルさの追求

追加で工夫したい点は以下の3つです。

  • 強調構文の利用
  • 肌の詳細プロンプトの追加
  • 追加学習データの利用

強調構文

追加施策の一つ目は強調構文の追加です。
先ほどの出力結果では、リアルさがまだ足りていないため、品質ワードの強調をしたいと思います。
品質や解像度及びスタイルの部分を1.0から1.5まで0.1刻みで強調した結果が下記になります。

強調画像比較

ここも好みの部分が結構あるところかもしれませんが、個人的には1.4あたりが良いかなと思います。
今回は品質と解像度及びスタイルをまとめて強調しましたが、それぞれ個別に調整するとより良い結果になるかもしれません。
ただし、他の要素やネガティブプロンプトなどを入れるとまた異なった結果になるので、実際にはプロンプトを決定した後に最終調整で弄るのが良いでしょう。

肌の詳細プロンプトの追加

肌の詳細プロンプトを追加するのも効果が期待できます。
今回詳細な分析は省きましたが、抽出したプロンプトの「詳細」の一覧には「detailed face」というワードが2番目に出現回数が多かったです。
このワードを追加することで、よりリアルさが出ると考えられます。
face以外に肌(skin)や目(eyes)も重要な部品となるため、下記ワードを追加してみます。

  • detailed face
  • detailed skin
  • detailed eyes

下記がプロンプトを追加する前と後の比較画像です。
ちなみに、先ほど実施した強調は削除しています。

詳細プロンプト追加

先ほどの強調構文を追加した際と同様に、結構顔が鮮やかになったかと思います。

追加学習データの利用

3つめの施策は追加学習データの利用です。
前章のプロンプト集計した一覧に記載をしていますが、よく使用されるloraファイルとして「add_detail」というのがあります。
先ほどはプロンプトで肌や顔に関して「detailed」というワードを追加しましたが、似たような効果が期待できると思います。
add_detailのloraを追加した結果が下記です。

add_detailを入れると、コントラストが強くなりホリが深くなるイメージですね。
入れないよりかは多少でも入れると、リアルっぽさは強くなる感じがします。

3つの施策合算

下記画像は上記3つの施策のそれぞれの出力結果を比較用に並べたものです。
どれが一番良いかは分かりませんが、それぞれの施策は期待した通り、リアルさを強くする効果をもたらしました。

それでは、全てを追加したらどうなるでしょうか。
下記は追加前の画像と、3つの施策をすべて盛り込んだ画像の比較です。

Positive prompt:
(best quality,masterpiece,high quality,8k,highres,ultra detailed,portrait, photorealistic:1.4),1girl,looking at viewer,<lora:add_detail:0.5>,
long hair,detailed face,detailed skin,detailed eyes,sea shore,

Negative prompt:

全体的にきれいになっていく感じはありますが、逆にマネキンのようにリアルさが大分失われているようにも感じます。
必ずしも効果があるプロンプトを全て盛り込めばよいというわけではなさそうです。
恐らくは要素を詰め込みすぎたために不自然さが強まったのだと思います。
ここら辺は、細かくプロンプトを試行錯誤するしかなさそうですね。

最終的な美女画像の生成結果

プロンプトによるリアルさの追求には、やはり最後は試行錯誤が必要になりそうでした。
ただし、上記までの結果はネガティブプロンプトや高解像度化はしていません。

そこで、上記のプロンプトをベースにしてネガティブプロンプトの追加やアップスケールなどを行いたいと思います。
ネガティブプロンプトは追加するだけで、かなりの影響力を持ち簡単に高品質な画像を生成することが出来ます。
また、アップスケールをすることで高解像度化が可能となり、のっぺりした肌の質感が一気にリアルに近づくなどの効果があります。
左が元画像で右がアップスケールなど各種追加したバージョンです。

Positive prompt:
(best quality,masterpiece,high quality,8k,highres,ultra detailed,portrait, photorealistic:1.4),1girl,looking at viewer,<lora:add_detail:0.5>,
long hair,detailed face,detailed skin,detailed eyes,sea shore,

Negative prompt:
EasyNegative

ポジティブプロンプトは変えなくてもネガティブプロンプトなどを追加するだけで一気にリアルさが出ますね。
この画像であれば、それなりにリアルな人物画像を生成できたと言えそうです。

実際のところネガティブプロンプトにある「EasyNegative」が非常に強力なのですが、これを含めてポジティブプロンプトの影響を見ていきたいと思います。
下記3つのバージョンのプロンプトに対して「EasyNegative」を付与したいと思います。

  • 品質指定なし
  • マイナーワードを指定
  • 上位ワード+プロンプト工夫バージョン

EasyNegativeは確かに強力ですが、ポジティブプロンプトを工夫する影響も非常に大きいことがわかります。
最後にポイントをまとめておきます。

高品質なリアル画像を生成するには

  • 「best quality」など一覧にある上位頻出ワードを使用する
  • 強調や詳細なプロンプト指定などプロンプトワードをこだわる
  • ネガティブプロンプトを使用する
  • アップスケールによる高画質化を行う

の4つが重要!

まとめ

本記事では、civitaiに掲載されている投稿画像のプロンプトを参考に、リアルな人物を生成するために重要なワードを抽出し一覧化と分析をしました。
各ワードを使用して画像がどのように変化をするかを実際に検証し、頻出ワードを使用することが重要であることが理解できたと思います。

また、強調やネガティブプロンプトなどポジティブプロンプト以外の要素についても確認を行い、実際に美しい人物を生成できる実例を示しました。
結果として本記事から考察される重要なポイントは以下の4つです。

  • 「best quality」など一覧にある上位頻出ワードを使用する
  • 強調や詳細なプロンプト指定などプロンプトワードをこだわる
  • ネガティブプロンプトを使用する
  • アップスケールによる高画質化を行う

上記のポイントを踏まえて、さらに構図やポーズの指定など好みのプロンプトを追加していくことで、高品質な画像生成が出来ることでしょう。
是非、本記事を参考にして画像生成AIの活用を追求していって下さい。

ABOUT ME
ミスタ
ミスタと申します! このブログは主に日々学んでいる知識についてアウトプットしていくことを目的としたブログです。 その他、趣味や戯言なども時々書いたりもします。 最近は専らAI関連が興味の対象です。 このブログが少しでも誰かの役に立てればと思っています!