生成AIグラビアをグラビアカメラマンが作るとどうなる?第68回:Ideogram 4.0用JSON Promptビルダーを作ってみた(西川和久)

テクノロジー AI
西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

強力なi2t Ideogram 4.0登場!

6月4日、ideogram.aiからt2iのIdeogram 4.0がリリースされた。オープンウェイト版API版(有料)の2種類となる。同日ComfyUIは両方に対応。特徴としては、

  • 9.3Bパラメータ

  • ネイティブ2K

  • 出力クオリティはTurbo/Default/Qualityの3種類

  • 画像内テキストの正確な描画、bboxによるレイアウト制御、カラーパレット指定

といった感じで現在人気のあるZ-Imageなどとはちょっと違った雰囲気がある。

本来であればいつも通りここに作例を掲載したいのだが、オープンウェイト版は研究・個人の非商用利用は無料だが商用利用はNG。ここでの連載のように、紹介といえども原稿料が発生する記事には使えない……との解釈が一般的で、商用利用OKのAPI版画像を少しだけ掲載した。

またAPI版の方が少しクオリティが高いもののLoRAは使えないと、オープンウェイト版と少し仕様も異なる。

なおこの件に関しては同社に問い合わせしており、OKの返事があれば、改めてオープンウェイト版の作例を掲載したい。ただし、NGの時はお許しを。筆者のXに多数載せているので興味のある人は見てほしい。

Ideogram 4.0、これまでとちょっと違うのはPromptをJSON形式にしないと、”Image blocked by safety filter”の画像が出て、ほぼ出力されないということだろう。当初これが周知されておらず、普通に”a cat”と書くだけでも検閲に引っかかり、画像が生成されず、何も出せないと話題になっていた。

ただこれは誤解で書式通りのJSONをPromptにすれば問題無く生成できる。たしかに検閲はあるものの、(水着ではなく)ここに掲載できない程度の画像(笑)は出力可能だ。

さて、問題はJSON。これを人間が手で書くのはかなり難しい。何らかのツールが必要となる。

Ideogram 4 Prompt Builder KJ (ComfyUI Custom Node)

まず何時もお世話になっているkijai氏がIdeogram 4 Prompt Builder KJをComfyUI-KJNodesに含める形で公開した。AIは使わず、width/height、high_level_description、background、aesthetics、lighting、photo、mediumの項目を必要に応じて埋めればJSON形式のPromptが出来る仕掛けだ。

width/heightが必要なのはbboxと呼ばれる枠でオブジェクトの大きさ/位置を指定するため、どうしても物理的な大きさが必要になる(相対的なら縦横比でも出来る)。

画面キャプチャを見れば一目瞭然。オブジェクトの位置関係が枠で表示されている。これで作ったPromptは初めからJSON形式になっており、そのままIdeogram 4.0のPromptに出来る。

Ideogram 4 Prompt Builder KJを使ったjson Prompt生成例。右側のテキストが実際Ideogram 4.0に渡すjson形式のPrompt

面白いのはbbox単位の追加/削除及び、bboxの位置/大きさを調整することも可能。例えばシンプルなポートレートを作り、Promptは触らず、bboxを追加、適当な大きさで配置し、猫を追加すると言った離れ技もOK!

PromptCanvas(外部アプリ/筆者作)

Ideogram 4 Prompt Builder KJのおかげでIdeogram 4.0にJSON形式のPromptを渡せるようになったものの、これにIdeogram 4.0生成用のWorkflowが付くと、画面がどうしても窮屈になる。であれば、外部アプリ形式にすれば……と作ったのがPromptCanvasとなる。

といっても何も無いところから作ったのではなく、

この2つを参考にしつつ、1つのアプリにまとめ、image-to-promptに関しては、Vision対応のLLMで画像全体を解析し(元々はFlorence-2)、登場するオブジェクトのbbox/description/キャプション/背景説明をまとめて生成。PaddleOCRを使い日本語も正しく検出するようにした。

image-to-prompt。GPT-Imageで出力した広告っぽい画像からPrompt生成

後者に関しては通常のPromptからJSON形式へ変換に加え、System Promptのプリセットを用意。以前ご紹介したアイドルの日常、iPhoneで撮った写真風、プロが撮った写真風など生成可能にしている(md形式で追加も可能)。

PromptCanvas(text-to-prompt)。”若い日本人美女のポートレート写真、紫陽花”(Defaultプリセット)
Ideogram 4.0(API版/Default)で出力。ComfyUIで18.1クレジット(約0.086ドル/約13円)
Z-Image-Base + Distill LoRA(0.6)で出力

またどちらもIdeogram 4.0用のJSON Promptだけでなく、通常の平文Promptも出力可能にして、Z-Imageなど、一般的なPrompt用にも対応出来るようにした。LLMを使うので日本語ブツ切り形式でもOK。

LM StudioなどOpenAI API式のEndpointが扱え、Vision対応のLLMを実行でき、Pythonの環境があれば利用可能だ。興味のある人はぜひ使ってほしい。

今回締めのグラビア

今回締めのグラビアは、上記した様に商用利用になるためAPI版で扉も含め出力、長辺を1920pxにして掲載した。素の解像度は2560x1440pxと1664x2496pxと結構巨大。

手順としては、ローカルのComfyUI+オープンウェイト版で画像をチューニング、出来たPromptをAPI版に渡し生成した結果となる。もちろんPromptはPromptCanvasのtext-to-promptを使用。なおグラビアのみQuality(30.3クレジット)を使用している。

Ideogram 4.0(API版/Quality)を使ったグラビア!

有料なので何度もガチャるわけにもいかず、潜在能力を引き出せていないものの、Z-Imageなどとは違い、かなり実写っぽいのがお分かりいただけるだろうか? 左上、IIDEOGRAMとIが2つなのは、上側Iはロゴ指定がミスった感じだ。今回は諦める。

オープンウェイト版も同様な文字入りは普通に生成可能。LoRAも早いタイミングでai-toolkitが対応、絵も実写っぽいので最近はこればかり使っている。先月、HiDream-O1が凄い!と言ってたのにも関わらず(笑)。もう少しで夏。今年も一波乱あるのだろうか!?

生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧

《西川和久》

Amazon売れ筋ランキング

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。