LoRAなし、プロンプトだけで本人にどれだけ寄せられるかチャレンジ。AIで人物写真を再現するもう一つの方法（CloseBox）

テクノロジー AI

2025 Aug 9 9:19

松尾公也

テクノエッジ編集部シニアエディター / コミュニティストラテジスト @mazzo

特集

LoRAなし、プロンプトだけで本人にどれだけ寄せられるかチャレンジ。AIで人物写真を再現するもう一つの方法（CloseBox）

生成AIで特定人物の姿を再現する場合、数枚から数十枚の人物写真を学習させる手法でありLoRAを使うのが一般的です。

著名人の場合は名前を入力すれば再現できるケースもありますが、一般人の場合にはそれもできない相談。

しかし、最近のLLMはマルチモーダル機能が進化しており、写真や動画の内容を読み取ることができます。今ならば、参照画像なしのText to Imageだけで特定人物を再現できるのでは？　そう筆者は考え、試してみることにしました。

ChatGPT 5に、3枚の同じフォトセッションで撮影した写真を読み込ませ、「この写真の女性の容姿、特に顔の特徴をできるだけ細部まで再現できるよう、英語のプロンプトで記述して」という命令を与えました。

出てきたのは次のプロンプト。

A young East Asian woman (about 18-22) with a calm, neutral expression. Face: soft oval with even symmetry, gentle rounded jaw, small rounded chin; porcelain-fair skin with a warm peach undertone and a light natural sheen; very subtle natural blush, minimal makeup. Eyes: large almond-shaped dark-brown irises, clear sclera; slight inner epicanthic fold; shallow double-eyelid crease; upper lash line looks like faint natural eyeliner, lower lids clean; gaze steady and thoughtful toward the camera (variants: slight left three-quarter and light side profile). Brows: medium thickness, straight with a mild soft arch, neat, dark brown-black; inner heads soft, tails tapered. Nose: small and straight with a narrow bridge, low/shallow radix, softly defined rounded tip, small nostrils and narrow alar base. Lips: medium-full, natural pink tone with a soft sheen; defined cupid's bow; corners neutral to slightly downturned; mouth closed. Hair: long, thick, dark brown-black; parted slightly to her right; loose natural S-waves with a little frizz/volume; front strands frame the cheeks; length past the shoulders. Body/pose: mid-shot (chest-up), shoulders slightly angled; one variation with left arm lifted behind the head. Wardrobe: light-orange short-sleeve button-up blouse, small notch collar, tiny metallic buttons; fabric matte with slight wrinkles. Background: softly textured pale lace curtain, shallow depth of field. Lighting and look: warm, soft frontal light/flash with minimal shadows; vintage 1980s Japanese studio portrait vibe; gentle film-like softness while keeping natural skin texture. Framing: 50-85 mm portrait lens feel, centered composition. Keep identity consistent across poses.

衣服だけでなく、顔のパーツについても非常に詳細に記述してあります。日本語に訳してみましょう。

18～22歳くらいの若い東アジア系女性で、落ち着いたニュートラルな表情。
顔: 均整の取れた柔らかな卵型、穏やかな丸みのある顎、小さく丸みのあるあご先。陶器のように滑らかな色白肌で、温かみのあるピーチ系の下地色、わずかな自然なツヤ。非常に控えめな自然な赤みで、メイクはほとんどしていない。
目: 大きなアーモンド型で暗褐色の虹彩、白目は澄んでいる。内側に軽い蒙古ひだ、浅い二重のまぶた。上まつ毛の生え際には薄く自然なアイラインのような影があり、下まぶたはすっきり。視線はカメラに向かって静かで思慮深い（バリエーションとして、やや左向きの三分の四角度や軽い横顔も）。
眉: 中くらいの太さで、ほぼ直線的だが柔らかなアーチがある。整っており、濃いダークブラウン～黒色。眉頭はやわらかく、眉尻は細くなる。
鼻: 小さくまっすぐで細い鼻筋、低めで浅い鼻根部、やや丸みのある柔らかな鼻先、小ぶりな小鼻で幅は狭い。
唇: 中くらいの厚みで自然なピンク色、ややツヤあり。はっきりした山形（キューピッドボウ）、口角はニュートラル～わずかに下がり気味。口は閉じている。
髪: 長くて豊かな黒髪に近いダークブラウン、やや右寄りで分け目。自然なS字ウェーブで少し広がりがあり、前髪の一部が頬にかかる。肩より長い。
体・ポーズ: バストアップの中距離ショット。肩はわずかに角度がついている。バリエーションとして、左腕を後ろに上げて頭に添えたポーズあり。
服装: 薄いオレンジ色の半袖ボタンシャツ。小さなノッチカラー（開襟）で、細かい金属ボタン。マットな質感で軽いシワあり。
背景: 柔らかな模様の入った淡い色のレースカーテン。浅い被写界深度。
光と雰囲気: 柔らかく暖かい正面光（フラッシュ）で影は最小限。1980年代の日本のスタジオポートレート風。フィルム調の柔らかさを持ちながら、肌の自然な質感は保持。
構図: 50～85mm程度のポートレンズで撮影したような質感、中央寄りの構図。
注意: ポーズが変わっても同一人物として一貫性を保つこと。

これだけの情報量があれば、それなりの再現度が期待できるのではないかと思わせます。

では、このプロンプトで各種画像生成サービスを使って出力してみましょう。


ChatGPT 5	ChatGPT 5	ChatGPT 5

Gemini 2.5 Pro（Imagen）	Gemini 2.5 Pro（Imagen）	Gemini 2.5 Pro（Imagen）

Midjourney V7	Midjourney V7	Midjourney V7

Grok Imagine	Grok Imagine	Grok Imagine