生成AIで特定人物の姿を再現する場合、数枚から数十枚の人物写真を学習させる手法でありLoRAを使うのが一般的です。
著名人の場合は名前を入力すれば再現できるケースもありますが、一般人の場合にはそれもできない相談。
しかし、最近のLLMはマルチモーダル機能が進化しており、写真や動画の内容を読み取ることができます。今ならば、参照画像なしのText to Imageだけで特定人物を再現できるのでは? そう筆者は考え、試してみることにしました。
ChatGPT 5に、3枚の同じフォトセッションで撮影した写真を読み込ませ、「この写真の女性の容姿、特に顔の特徴をできるだけ細部まで再現できるよう、英語のプロンプトで記述して」という命令を与えました。
出てきたのは次のプロンプト。
A young East Asian woman (about 18-22) with a calm, neutral expression. Face: soft oval with even symmetry, gentle rounded jaw, small rounded chin; porcelain-fair skin with a warm peach undertone and a light natural sheen; very subtle natural blush, minimal makeup. Eyes: large almond-shaped dark-brown irises, clear sclera; slight inner epicanthic fold; shallow double-eyelid crease; upper lash line looks like faint natural eyeliner, lower lids clean; gaze steady and thoughtful toward the camera (variants: slight left three-quarter and light side profile). Brows: medium thickness, straight with a mild soft arch, neat, dark brown-black; inner heads soft, tails tapered. Nose: small and straight with a narrow bridge, low/shallow radix, softly defined rounded tip, small nostrils and narrow alar base. Lips: medium-full, natural pink tone with a soft sheen; defined cupid's bow; corners neutral to slightly downturned; mouth closed. Hair: long, thick, dark brown-black; parted slightly to her right; loose natural S-waves with a little frizz/volume; front strands frame the cheeks; length past the shoulders. Body/pose: mid-shot (chest-up), shoulders slightly angled; one variation with left arm lifted behind the head. Wardrobe: light-orange short-sleeve button-up blouse, small notch collar, tiny metallic buttons; fabric matte with slight wrinkles. Background: softly textured pale lace curtain, shallow depth of field. Lighting and look: warm, soft frontal light/flash with minimal shadows; vintage 1980s Japanese studio portrait vibe; gentle film-like softness while keeping natural skin texture. Framing: 50-85 mm portrait lens feel, centered composition. Keep identity consistent across poses.
衣服だけでなく、顔のパーツについても非常に詳細に記述してあります。日本語に訳してみましょう。
18~22歳くらいの若い東アジア系女性で、落ち着いたニュートラルな表情。
顔: 均整の取れた柔らかな卵型、穏やかな丸みのある顎、小さく丸みのあるあご先。陶器のように滑らかな色白肌で、温かみのあるピーチ系の下地色、わずかな自然なツヤ。非常に控えめな自然な赤みで、メイクはほとんどしていない。
目: 大きなアーモンド型で暗褐色の虹彩、白目は澄んでいる。内側に軽い蒙古ひだ、浅い二重のまぶた。上まつ毛の生え際には薄く自然なアイラインのような影があり、下まぶたはすっきり。視線はカメラに向かって静かで思慮深い(バリエーションとして、やや左向きの三分の四角度や軽い横顔も)。
眉: 中くらいの太さで、ほぼ直線的だが柔らかなアーチがある。整っており、濃いダークブラウン~黒色。眉頭はやわらかく、眉尻は細くなる。
鼻: 小さくまっすぐで細い鼻筋、低めで浅い鼻根部、やや丸みのある柔らかな鼻先、小ぶりな小鼻で幅は狭い。
唇: 中くらいの厚みで自然なピンク色、ややツヤあり。はっきりした山形(キューピッドボウ)、口角はニュートラル~わずかに下がり気味。口は閉じている。
髪: 長くて豊かな黒髪に近いダークブラウン、やや右寄りで分け目。自然なS字ウェーブで少し広がりがあり、前髪の一部が頬にかかる。肩より長い。
体・ポーズ: バストアップの中距離ショット。肩はわずかに角度がついている。バリエーションとして、左腕を後ろに上げて頭に添えたポーズあり。
服装: 薄いオレンジ色の半袖ボタンシャツ。小さなノッチカラー(開襟)で、細かい金属ボタン。マットな質感で軽いシワあり。
背景: 柔らかな模様の入った淡い色のレースカーテン。浅い被写界深度。
光と雰囲気: 柔らかく暖かい正面光(フラッシュ)で影は最小限。1980年代の日本のスタジオポートレート風。フィルム調の柔らかさを持ちながら、肌の自然な質感は保持。
構図: 50~85mm程度のポートレンズで撮影したような質感、中央寄りの構図。
注意: ポーズが変わっても同一人物として一貫性を保つこと。
これだけの情報量があれば、それなりの再現度が期待できるのではないかと思わせます。
では、このプロンプトで各種画像生成サービスを使って出力してみましょう。
![]() | ![]() | ![]() |
ChatGPT 5 | ChatGPT 5 | ChatGPT 5 |
![]() | ![]() | ![]() |
Gemini 2.5 Pro(Imagen) | Gemini 2.5 Pro(Imagen) | Gemini 2.5 Pro(Imagen) |
![]() | ![]() | ![]() |
Midjourney V7 | Midjourney V7 | Midjourney V7 |
![]() | ![]() | ![]() |
Grok Imagine | Grok Imagine | Grok Imagine |
それぞれに出力傾向があるのがわかります。ChatGPTは化粧っけがなさすぎでプレーンな感じ。Geminiは3、4歳は年上の印象。Midjourneyはアーティスティックな方面に寄せてるようです。Grok Imagineは顔の差別化があまりできないのですが、これはだいぶ寄せている方です。
GrokはImagineではない、従来の画像生成だとまた印象が変わり、ChatGPTに近い感じです。ちょっと年齢が下に見えます。
ここまでは、まあ似てないこともないかな、という程度ですが、動画にするとまた違ってきます。
同じプロンプトを使い、Veo 3のText to Videoで動画を生成させてみました。これはかなり本人らしさが出ていて、元写真のポーズを動きに取り入れているのもおもしろい。
Grok Imagineで生成(超高速)した画像からの動画生成もいい感じです。
なお、Text to Image機能を持つ動画生成サービスのうち、Runway、KLING、Viduは プロンプトの長さ制限に引っかかってしまいました(長すぎ)。
自分の場合、出したい人物が決まっていて、新しい画像生成、動画生成のソフトやサービスが出たらまずそれを試したいのですが、Image to Videoが実装されているとは限りません。初期バージョンではプロンプトのみに限定されている場合がけっこうあるのです。
例えば、最新動画生成AIであるWan 2.2のT2V(Text to Video)も、同じプロンプトで試せます。
出したい人物に寄せられるプロンプトがあれば、こうした場合でも試すことができます。
以前はプロンプトに使えるテキストの長さも、フォーマットも限定されていましたが、最近ではコンテキスト長制限がゆるくなり、カンマ区切りではなく自然な文章で記述した方が良い結果を生むようになってきました。
さらに、LLMの画像解析能力と文章表現力が大幅に改善されたことで、例えばこういう鼻の形ならこういう表現をすればいい、というのがやりやすくなったわけです。
3年前の生成AI黎明期とは違い、最近はプロンプトを細かくいじることをしなくなってしまいましたが、LLMが作ってくれた詳細なプロンプトをさらに改善することで、より本人に近づける楽しみもあります。
Gemini、Grokにそれぞれプロンプトを作らせているほか、LLMに自分が作ったプロンプトによって生成された画像を分析させ、より本物に近づける改善をさせる、といったことも試みています。平易な英文なので、自分で手直しするということも可能です。
出力する画像・動画生成ソフト・サービスとの相性もあるので、試行錯誤する楽しみもあります。
特定の人物を表現する方法として、DreamBooth、LoRA、リファレンスといった従来手法にもう一つ、人物写真の解析とプロンプト最適化を加えてもいいかもしれません。
