生成AIグラビアをグラビアカメラマンが作るとどうなる? 連載記事一覧
強力なi2t Ideogram 4.0登場!
6月4日、ideogram.aiからt2iのIdeogram 4.0がリリースされた。オープンウェイト版とAPI版(有料)の2種類となる。同日ComfyUIは両方に対応。特徴としては、
9.3Bパラメータ
ネイティブ2K
出力クオリティはTurbo/Default/Qualityの3種類
画像内テキストの正確な描画、bboxによるレイアウト制御、カラーパレット指定
といった感じで現在人気のあるZ-Imageなどとはちょっと違った雰囲気がある。
本来であればいつも通りここに作例を掲載したいのだが、オープンウェイト版は研究・個人の非商用利用は無料だが商用利用はNG。ここでの連載のように、紹介といえども原稿料が発生する記事には使えない……との解釈が一般的で、商用利用OKのAPI版画像を少しだけ掲載した。
またAPI版の方が少しクオリティが高いもののLoRAは使えないと、オープンウェイト版と少し仕様も異なる。
なおこの件に関しては同社に問い合わせしており、OKの返事があれば、改めてオープンウェイト版の作例を掲載したい。ただし、NGの時はお許しを。筆者のXに多数載せているので興味のある人は見てほしい。
Ideogram 4.0、これまでとちょっと違うのはPromptをJSON形式にしないと、”Image blocked by safety filter”の画像が出て、ほぼ出力されないということだろう。当初これが周知されておらず、普通に”a cat”と書くだけでも検閲に引っかかり、画像が生成されず、何も出せないと話題になっていた。
ただこれは誤解で書式通りのJSONをPromptにすれば問題無く生成できる。たしかに検閲はあるものの、(水着ではなく)ここに掲載できない程度の画像(笑)は出力可能だ。
さて、問題はJSON。これを人間が手で書くのはかなり難しい。何らかのツールが必要となる。
Ideogram 4 Prompt Builder KJ (ComfyUI Custom Node)
まず何時もお世話になっているkijai氏がIdeogram 4 Prompt Builder KJをComfyUI-KJNodesに含める形で公開した。AIは使わず、width/height、high_level_description、background、aesthetics、lighting、photo、mediumの項目を必要に応じて埋めればJSON形式のPromptが出来る仕掛けだ。
width/heightが必要なのはbboxと呼ばれる枠でオブジェクトの大きさ/位置を指定するため、どうしても物理的な大きさが必要になる(相対的なら縦横比でも出来る)。
画面キャプチャを見れば一目瞭然。オブジェクトの位置関係が枠で表示されている。これで作ったPromptは初めからJSON形式になっており、そのままIdeogram 4.0のPromptに出来る。

面白いのはbbox単位の追加/削除及び、bboxの位置/大きさを調整することも可能。例えばシンプルなポートレートを作り、Promptは触らず、bboxを追加、適当な大きさで配置し、猫を追加すると言った離れ技もOK!
PromptCanvas(外部アプリ/筆者作)
Ideogram 4 Prompt Builder KJのおかげでIdeogram 4.0にJSON形式のPromptを渡せるようになったものの、これにIdeogram 4.0生成用のWorkflowが付くと、画面がどうしても窮屈になる。であれば、外部アプリ形式にすれば……と作ったのがPromptCanvasとなる。
といっても何も無いところから作ったのではなく、
cocktailpeanut/image-to-prompt (画像からIdeogram 4.0のPrompt生成)
cocktailpeanut/ideoprompt (テキストからIdeogram 4.0のPrompt生成)
この2つを参考にしつつ、1つのアプリにまとめ、image-to-promptに関しては、Vision対応のLLMで画像全体を解析し(元々はFlorence-2)、登場するオブジェクトのbbox/description/キャプション/背景説明をまとめて生成。PaddleOCRを使い日本語も正しく検出するようにした。

後者に関しては通常のPromptからJSON形式へ変換に加え、System Promptのプリセットを用意。以前ご紹介したアイドルの日常、iPhoneで撮った写真風、プロが撮った写真風など生成可能にしている(md形式で追加も可能)。

またどちらもIdeogram 4.0用のJSON Promptだけでなく、通常の平文Promptも出力可能にして、Z-Imageなど、一般的なPrompt用にも対応出来るようにした。LLMを使うので日本語ブツ切り形式でもOK。
LM StudioなどOpenAI API式のEndpointが扱え、Vision対応のLLMを実行でき、Pythonの環境があれば利用可能だ。興味のある人はぜひ使ってほしい。
今回締めのグラビア
今回締めのグラビアは、上記した様に商用利用になるためAPI版で扉も含め出力、長辺を1920pxにして掲載した。素の解像度は2560x1440pxと1664x2496pxと結構巨大。
手順としては、ローカルのComfyUI+オープンウェイト版で画像をチューニング、出来たPromptをAPI版に渡し生成した結果となる。もちろんPromptはPromptCanvasのtext-to-promptを使用。なおグラビアのみQuality(30.3クレジット)を使用している。

有料なので何度もガチャるわけにもいかず、潜在能力を引き出せていないものの、Z-Imageなどとは違い、かなり実写っぽいのがお分かりいただけるだろうか? 左上、IIDEOGRAMとIが2つなのは、上側Iはロゴ指定がミスった感じだ。今回は諦める。
オープンウェイト版も同様な文字入りは普通に生成可能。LoRAも早いタイミングでai-toolkitが対応、絵も実写っぽいので最近はこればかり使っている。先月、HiDream-O1が凄い!と言ってたのにも関わらず(笑)。もう少しで夏。今年も一波乱あるのだろうか!?










