- リアル系画像生成に重要なプロンプトワード
- リアルな人物を生成するのに必要な要素
こんにちは、「学びが人生を豊かにする」をテーマに本日は「画像生成AIでリアルな人物を生成するのに重要なプロンプト」についてです。
画像生成AIでリアルな人物を作るにはどうしたら良いでしょうか。
civitaiをはじめ色々なサイトで参考になるプロンプトが掲載されてはいますが、結局いまいちどうしたら良いのか分からないということはないでしょうか。
本記事では自分で一からプロンプトを組み立てるのに重要なプロンプト一覧を紹介したいと思います。
特にリアルな人物を生成するのに必須となるプロンプトに焦点を当てて紹介します。
本記事を読むことで、何となくプロンプトを指定しているという状態から、ある程度方向性を見極めたプロンプトの指定が出来るようになると思います。
是非、一読してみてください。
- 参考となるプロンプトのコピペ画像生成から脱却したい人
優れたプロンプトを知るには
本記事では、リアルな美女を生成するのに必要なプロンプトは何かについて解説していきたいと思います。
どのようなプロンプトを使用したら良いのかというのは、唯一の正解というのはありません。
しかし、使用するモデルやプロンプトの組み合わせなど無数に存在する一方で、ある程度傾向は似ているものです。
例えば、多くの画像では「best quality」など画像品質に関わるワードはほぼ必須で使用されていますよね。
こうしたプロンプトを知りたい場合、civitaiやchichi-puiのサイトを参考にすると非常に優れた画像のプロンプトを確認することが出来ます。
その中で、構図や衣装の指定など細かい部分については生成したい画像に依存しますが、リアルな描画をしたいという点は共通しています。
そのため、高品質な画像を生成しているプロンプトの中で、より多く使用されているワードが重要なワードであると推測できます。
こうしたワードを特定するために、以下条件でサンプルを取得して集計しどんなワードが使用されているのか確認したいと思います。
解析条件
プロンプト収集条件
以下条件でプロンプトを収集します。
- サイト:civitai
- 取得する画像:リアル系BASE MODELに掲載されている人物画像
- 取得条件:主観評価として、ぱっと見でリアルな画像
- 取得枚数:50サンプル以上
サンプルを使用するサイトはcivitaiのサイトです。
その中で、リアル系として人気の高い「BracingEvoMix」のサンプル画像のプロンプトを取得します。
取得するプロンプトの画像は極力リアルな人物が描画されているものに限定します。
明確な線引きは困難なため、あくまで主観評価でぱっと見リアルに見える画像だけにしました。
よく見ればAIであることはすぐ分かるかもしれませんが、明らかにCGっぽいものは採用していません。
また取得する画像の枚数は50枚以上としています。
プロンプト集計条件
上記で収集したプロンプトを以下の条件で集計します。
- 集計対象:ポジティブプロンプト
- 強調構文は無視する
- 要素に分類して集計
今回集計対象とするのは、ポジティブプロンプトのみです。
プロンプトは強調構文を使用することが出来ますが、これらは同一ワードとして集計します。
例えば(best quality:1.4)や(best quality:1.2)は全て「best quality」として集計するということです。
これらのワードに対して、何回このワードが使用されたのかを集計し、どんなワードが共通的に使用されているのかを分析します。
プロンプト解析
ポジティブプロンプトの解析結果
今回プロンプト集計用に取得したサンプル画像は合計64枚です。
以下に取得したサンプル画像の例を示します。
ぱっと見だとAIだと分からないぐらいにはリアルな写真になっているかと思います。
上記は露出の少ない画像を選定していますが、実際にはかなりの数が露出の多い画像でした。
これらからポジティブプロンプトを抽出し、同じような種類の単語をグループ化します。
今回は以下のように分類しました。
- 品質
- 画質
- 品質
- 画風
- スタイル
- 照明
- コアプロンプト
- テーマ
- アングル
- 構図
- 詳細
- 背景
- その他
- その他
- loraなど
この分類単位でどのくらいの頻度でワードが出現していたのか分析したいと思います。
また集計において1回しか出現していないワードに関しては、マイナーワードのため下記一覧には含めていません。
上記のうち、コアプロンプトとその他の部分については、生成した対象に依存する内容のため、特に詳細な分析は対象外とします。
重要なのは共通部分の「品質」と「画風」の部分であり、この二つの種類において頻出するワードが高品質な画像生成には重要です。
一応、特に人気のあるワードの紹介という形で、TOP3ワードを記載しますので参考程度にしてください。
なおプロンプトの基本的な文法やプロンプトに入れるべき重要な要素は何かなどは、下記記事で解説しています。
合わせて読んでみてください。
品質
解像度など画質に関するワードと、画像全体の品質に関するワードの一覧と出現回数です。
画質
ワード | 意味 | 出現回数 |
---|---|---|
8k | 8K画質 | 17 |
highres | 高解像度 | 17 |
beautiful detailed | 美しい詳細 | 7 |
ultra detailed | 超詳細な | 7 |
32k | 32K画質 | 5 |
detailed | 詳細 | 5 |
finely detail | 細かく | 5 |
hd | HD画質 | 5 |
ultra high res | 超高解像度 | 4 |
extremely detailed | 非常に詳細な | 3 |
highly detailed | 非常に詳細な | 3 |
ultra highres | 超高解像度 | 2 |
画質に関してよく使用されるのは「8k」、「highres」の二つです。
また、画質として画素数を表す単語だけでなく、詳細を意味する「detail」という単語が頻出していることが分かります。
そのため要素としては「画素数」、「解像度」、「詳細度」の3つを選ぶのがよさそうです。
例えば「8k, highres, ultra detailed」あたりを指定するのが人気なようです。
おすすめプロンプト
8k, highres, ultra detailed
品質
ワード | 意味 | 出現回数 |
---|---|---|
best quality | 最高品質 | 48 |
masterpiece | 傑作 | 43 |
high quality | 高品質 | 5 |
an extremely delicate and beautiful | 非常に繊細で美しい | 3 |
extremely delicate and beautiful | 非常に繊細で美しい | 2 |
top quality | 最高品質 | 2 |
今回サンプリングした画像枚数が64枚のため、約8割の画像にて「best quality」と「masterpeace」は指定されています。
そのため「best quality, masterpiece」と指定するのはほぼ必須のようです。
もしくは3つめを追加し「best quality, masterpiece, high quality」と指定してもよいでしょう。
おすすめプロンプト
best quality, masterpiece, high quality
スタイル
ワード | 意味 | 出現回数 |
---|---|---|
portrait | 肖像画 | 11 |
photorealistic | 写実的な | 7 |
ultra realistic | 超現実的な | 7 |
photo realistic | 写真のようにリアルな | 5 |
RAW photo | RAW写真 | 5 |
bokeh | ボケ味 | 4 |
realistic | 現実的な | 4 |
award winning photo | 受賞写真 | 2 |
digital photography | デジタル写真 | 2 |
film grain | フィルムグレイン(粒状テクスチャ) | 2 |
official art | 公式アート | 2 |
photon mapping | フォトンマッピング | 2 |
photoshoot | 写真撮影 | 2 |
RAW | 生 | 2 |
スタイルについては上半身または顔を重要視しているためか、肖像画を意味する「portrait」が人気が高いです。
意味合い的には人物をテーマにした写真全般を指すため、よく使用されるのかと思います。
全体的には「写真」を意味する単語と「real」という単語が多く使われていることが分かります。
従って、これら二つを指定してあげるのが良いでしょう。
おすすめプロンプト
portrait, photorealistic
照明
ワード | 意味 | 出現回数 |
---|---|---|
cinematic lighting | 映画のような照明 | 8 |
backlighting | バックライト | 6 |
best illumination | 最高のイルミネーション | 5 |
professional lighting | プロの照明 | 5 |
perfect lighting | 完璧な照明 | 5 |
bright | 明るい | 5 |
accent lighting | アクセント照明 | 5 |
best shadow | 最高の影 | 5 |
soft lighting | 柔らかな照明 | 3 |
realistic lighting | リアルな照明 | 3 |
sunshine | 日光 | 2 |
realistic shadow | リアルな影 | 2 |
perfect night lighting | 完璧な夜間照明 | 2 |
natural lighting | 自然光 | 2 |
照明に関しては特に突出して使用されているワードは無い傾向にあるように見えます。
写真撮影においては光源の位置など照明方法によって、印象が大きく変わります。
そのため、最終的には好みの照明方法を指定するのが良いでしょう。
またはダイナミックプロンプトなどで色々変えながら生成するのもありだと思います
コアプロンプトの人気ワード
テーマ
ワード | 意味 | 出現回数 |
---|---|---|
1girl | 一人の女の子 | 30 |
japanese girl | 日本の女の子 | 10 |
mature woman solo | 熟女ソロ | 5 |
アングル
ワード | 意味 | 出現回数 |
---|---|---|
from below | 下から | 8 |
from above | 上から | 5 |
pov | 一人称視点 | 4 |
構図
ワード | 意味 | 出現回数 |
---|---|---|
looking at viewer | カメラを見る | 17 |
spread legs | 足を広げる | 10 |
knees up | 膝を立てる | 4 |
詳細
ワード | 意味 | 出現回数 |
---|---|---|
blush | 赤面 | 12 |
detailed face | 詳細な顔 | 11 |
long hair | 長い髪 | 10 |
背景
ワード | 意味 | 出現回数 |
---|---|---|
sea shore | 海岸 | 6 |
beach | ビーチ | 6 |
simple background | シンプルな背景 | 4 |
その他
ワード | 意味 | 出現回数 |
---|---|---|
perfect anatomy | 理想的な人体 | 5 |
sexy | セクシー | 5 |
erotic sexy | エロセクシー | 4 |
lora
rolaファイル | 特徴 | 出現回数 |
---|---|---|
lora:add_detail | 詳細化 | 13 |
lora:JapaneseDollLikeness_v15 | 日本人顔 | 5 |
lora:koreanDollLikeness | 韓国人顔 | 4 |
抽出したプロンプトによる美女生成の実践
リアルな美女の画像生成しているポジティブプロンプトについて、抽出して分析しましたが、実際にこれらで美女が生成できるか実践していきたいと思います。
使用するプロンプトは上記で抽出したワードとし、その他のパラメタは以下の通りとします。
- モデル:BracingEvoMix
- Steps: 30
- Sampler: DPM++ 2M SDE Karras
- CFG scale: 7,
- Size: 512×512
また、ポジティブプロンプトの影響を評価するためにネガティブプロンプトは特に指定しません。
上記の条件で以下3つを比較していきたいと思います。
- テーマ(背景なども含む)のみ
- マイナーワードの指定
- 上位ワードの指定
テーマは「1girl」とし、マイナーワードの指定では品質などについてあまり使用されていないワードを各要素に指定して画像生成します。
上位ワードの指定では、前章で抽出した上位出現回数のワードを要素として指定し画像生成するものとします。
使用プロンプト
テーマのみ
下記プロンプトを使用します。
作成したい画像は海岸で長髪の女性がこちらを見ている画像です。
- テーマ:1girl
- 品質:なし
- スタイル:なし
- 構図:looking at viewer
- 詳細:long hair
- 背景:sea shore
Positive prompt:
1girl,looking at viewer,long hair,sea shore
Negative prompt:
マイナーワードの指定
マイナーワードの指定として、上記プロンプトに下記ワードを追加します。
ここでは、他と比べて使用頻度が少ないワードですが、それでも意味合い的には大きく変わりのないワードであり、それなりの効力は発揮するものと想像します。
- 画質:hd
- 品質:top quality
- スタイル:photoshoot
- 照明:bright
Positive prompt:
hd,top quality,photoshoot,bright,
1girl,looking at viewer,long hair,sea shore
Negative prompt:
上位ワードの指定
マイナーワードの代わりに上位出現回数のワードを使用します。
上位ワードとして今回採用したワードは以下の通りです。
基本的には前章でおすすめプロンプトワードとして紹介したものになります。
- 画質:8k,highres,ultra detailed,
- 品質:best quality,masterpiece,high quality,
- スタイル:portrait,photorealistic,
- 照明:bright,
Positive prompt:
best quality,masterpiece,high quality,8k,highres,ultra detailed,portrait,photorealistic,bright,
1girl,looking at viewer,long hair,sea shore,
Negative prompt:
画像生成結果
上記3つの条件のもと画像生成して出力した結果は以下の通りです。
品質指定なしの画像は、さすがに見られるレベルの画像ではありません。
それに対して、真ん中の画像はマイナーワードとはいえ、品質ワードを指定するとそれなりに見栄えの良い画像生成ができました。
さらに、今回分析した結果の上位頻出ワードを指定すると、かなり良い画像が出力できたことが分かるかと思います。
シード値による偶然ということもあるので、さらに10枚画像を生成して比較してみます。
まずは品質指定なしの画像です。
次にマイナー品質ワードを追加した画像です。
最後に上位頻出ワードを指定した画像です。
画像サイズが小さいため、若干分かりにくい感じはありますが、全体的に上位品質ワードを指定した画像のが良い画像になっているかと思います。
ただし、いまいちリアルさが足らないように思います。
これに対してネガティブプロンプトを追加するだけでもリアルさを出すことはできるのですが、もう少しポジティブプロンプトを工夫したいと思います。
プロンプトによるリアルさの追求
追加で工夫したい点は以下の3つです。
- 強調構文の利用
- 肌の詳細プロンプトの追加
- 追加学習データの利用
強調構文
追加施策の一つ目は強調構文の追加です。
先ほどの出力結果では、リアルさがまだ足りていないため、品質ワードの強調をしたいと思います。
品質や解像度及びスタイルの部分を1.0から1.5まで0.1刻みで強調した結果が下記になります。
ここも好みの部分が結構あるところかもしれませんが、個人的には1.4あたりが良いかなと思います。
今回は品質と解像度及びスタイルをまとめて強調しましたが、それぞれ個別に調整するとより良い結果になるかもしれません。
ただし、他の要素やネガティブプロンプトなどを入れるとまた異なった結果になるので、実際にはプロンプトを決定した後に最終調整で弄るのが良いでしょう。
肌の詳細プロンプトの追加
肌の詳細プロンプトを追加するのも効果が期待できます。
今回詳細な分析は省きましたが、抽出したプロンプトの「詳細」の一覧には「detailed face」というワードが2番目に出現回数が多かったです。
このワードを追加することで、よりリアルさが出ると考えられます。
face以外に肌(skin)や目(eyes)も重要な部品となるため、下記ワードを追加してみます。
- detailed face
- detailed skin
- detailed eyes
下記がプロンプトを追加する前と後の比較画像です。
ちなみに、先ほど実施した強調は削除しています。
先ほどの強調構文を追加した際と同様に、結構顔が鮮やかになったかと思います。
追加学習データの利用
3つめの施策は追加学習データの利用です。
前章のプロンプト集計した一覧に記載をしていますが、よく使用されるloraファイルとして「add_detail」というのがあります。
先ほどはプロンプトで肌や顔に関して「detailed」というワードを追加しましたが、似たような効果が期待できると思います。
add_detailのloraを追加した結果が下記です。
add_detailを入れると、コントラストが強くなりホリが深くなるイメージですね。
入れないよりかは多少でも入れると、リアルっぽさは強くなる感じがします。
3つの施策合算
下記画像は上記3つの施策のそれぞれの出力結果を比較用に並べたものです。
どれが一番良いかは分かりませんが、それぞれの施策は期待した通り、リアルさを強くする効果をもたらしました。
それでは、全てを追加したらどうなるでしょうか。
下記は追加前の画像と、3つの施策をすべて盛り込んだ画像の比較です。
Positive prompt:
(best quality,masterpiece,high quality,8k,highres,ultra detailed,portrait, photorealistic:1.4),1girl,looking at viewer,<lora:add_detail:0.5>,
long hair,detailed face,detailed skin,detailed eyes,sea shore,
Negative prompt:
全体的にきれいになっていく感じはありますが、逆にマネキンのようにリアルさが大分失われているようにも感じます。
必ずしも効果があるプロンプトを全て盛り込めばよいというわけではなさそうです。
恐らくは要素を詰め込みすぎたために不自然さが強まったのだと思います。
ここら辺は、細かくプロンプトを試行錯誤するしかなさそうですね。
最終的な美女画像の生成結果
プロンプトによるリアルさの追求には、やはり最後は試行錯誤が必要になりそうでした。
ただし、上記までの結果はネガティブプロンプトや高解像度化はしていません。
そこで、上記のプロンプトをベースにしてネガティブプロンプトの追加やアップスケールなどを行いたいと思います。
ネガティブプロンプトは追加するだけで、かなりの影響力を持ち簡単に高品質な画像を生成することが出来ます。
また、アップスケールをすることで高解像度化が可能となり、のっぺりした肌の質感が一気にリアルに近づくなどの効果があります。
左が元画像で右がアップスケールなど各種追加したバージョンです。
Positive prompt:
(best quality,masterpiece,high quality,8k,highres,ultra detailed,portrait, photorealistic:1.4),1girl,looking at viewer,<lora:add_detail:0.5>,
long hair,detailed face,detailed skin,detailed eyes,sea shore,
Negative prompt:
EasyNegative
ポジティブプロンプトは変えなくてもネガティブプロンプトなどを追加するだけで一気にリアルさが出ますね。
この画像であれば、それなりにリアルな人物画像を生成できたと言えそうです。
実際のところネガティブプロンプトにある「EasyNegative」が非常に強力なのですが、これを含めてポジティブプロンプトの影響を見ていきたいと思います。
下記3つのバージョンのプロンプトに対して「EasyNegative」を付与したいと思います。
- 品質指定なし
- マイナーワードを指定
- 上位ワード+プロンプト工夫バージョン
EasyNegativeは確かに強力ですが、ポジティブプロンプトを工夫する影響も非常に大きいことがわかります。
最後にポイントをまとめておきます。
高品質なリアル画像を生成するには
- 「best quality」など一覧にある上位頻出ワードを使用する
- 強調や詳細なプロンプト指定などプロンプトワードをこだわる
- ネガティブプロンプトを使用する
- アップスケールによる高画質化を行う
の4つが重要!
まとめ
本記事では、civitaiに掲載されている投稿画像のプロンプトを参考に、リアルな人物を生成するために重要なワードを抽出し一覧化と分析をしました。
各ワードを使用して画像がどのように変化をするかを実際に検証し、頻出ワードを使用することが重要であることが理解できたと思います。
また、強調やネガティブプロンプトなどポジティブプロンプト以外の要素についても確認を行い、実際に美しい人物を生成できる実例を示しました。
結果として本記事から考察される重要なポイントは以下の4つです。
- 「best quality」など一覧にある上位頻出ワードを使用する
- 強調や詳細なプロンプト指定などプロンプトワードをこだわる
- ネガティブプロンプトを使用する
- アップスケールによる高画質化を行う
上記のポイントを踏まえて、さらに構図やポーズの指定など好みのプロンプトを追加していくことで、高品質な画像生成が出来ることでしょう。
是非、本記事を参考にして画像生成AIの活用を追求していって下さい。