生成AIグラビアをグラビアカメラマンが作るとどうなる？第68回：Ideogram 4.0用JSON Promptビルダーを作ってみた（西川和久）

テクノロジー AI

2026 Jun 20 8:00

西川和久

1962年生まれ。プログラマー、IT系ライター、カメラマン(主にグラビア)と、三足の草鞋になってもう四半世紀。

特集

生成AIグラビアをグラビアカメラマンが作るとどうなる？第68回：Ideogram 4.0用JSON Promptビルダーを作ってみた（西川和久）

生成AIグラビアをグラビアカメラマンが作るとどうなる？連載記事一覧

強力なi2t Ideogram 4.0登場！

6月4日、ideogram.aiからt2iのIdeogram 4.0がリリースされた。オープンウェイト版とAPI版（有料）の2種類となる。同日ComfyUIは両方に対応。特徴としては、

9.3Bパラメータ
ネイティブ2K
出力クオリティはTurbo/Default/Qualityの3種類
画像内テキストの正確な描画、bboxによるレイアウト制御、カラーパレット指定

といった感じで現在人気のあるZ-Imageなどとはちょっと違った雰囲気がある。

本来であればいつも通りここに作例を掲載したいのだが、オープンウェイト版は研究・個人の非商用利用は無料だが商用利用はNG。ここでの連載のように、紹介といえども原稿料が発生する記事には使えない……との解釈が一般的で、商用利用OKのAPI版画像を少しだけ掲載した。

またAPI版の方が少しクオリティが高いもののLoRAは使えないと、オープンウェイト版と少し仕様も異なる。

なおこの件に関しては同社に問い合わせしており、OKの返事があれば、改めてオープンウェイト版の作例を掲載したい。ただし、NGの時はお許しを。筆者のXに多数載せているので興味のある人は見てほしい。

Ideogram 4.0、これまでとちょっと違うのはPromptをJSON形式にしないと、”Image blocked by safety filter”の画像が出て、ほぼ出力されないということだろう。当初これが周知されておらず、普通に”a cat”と書くだけでも検閲に引っかかり、画像が生成されず、何も出せないと話題になっていた。

ただこれは誤解で書式通りのJSONをPromptにすれば問題無く生成できる。たしかに検閲はあるものの、（水着ではなく）ここに掲載できない程度の画像（笑）は出力可能だ。

さて、問題はJSON。これを人間が手で書くのはかなり難しい。何らかのツールが必要となる。

Ideogram 4 Prompt Builder KJ (ComfyUI Custom Node)

まず何時もお世話になっているkijai氏がIdeogram 4 Prompt Builder KJをComfyUI-KJNodesに含める形で公開した。AIは使わず、width/height、high_level_description、background、aesthetics、lighting、photo、mediumの項目を必要に応じて埋めればJSON形式のPromptが出来る仕掛けだ。

width/heightが必要なのはbboxと呼ばれる枠でオブジェクトの大きさ/位置を指定するため、どうしても物理的な大きさが必要になる（相対的なら縦横比でも出来る）。

画面キャプチャを見れば一目瞭然。オブジェクトの位置関係が枠で表示されている。これで作ったPromptは初めからJSON形式になっており、そのままIdeogram 4.0のPromptに出来る。

Ideogram 4 Prompt Builder KJを使ったjson Prompt生成例。右側のテキストが実際Ideogram 4.0に渡すjson形式のPrompt

面白いのはbbox単位の追加/削除及び、bboxの位置/大きさを調整することも可能。例えばシンプルなポートレートを作り、Promptは触らず、bboxを追加、適当な大きさで配置し、猫を追加すると言った離れ技もOK！

PromptCanvas（外部アプリ/筆者作）

Ideogram 4 Prompt Builder KJのおかげでIdeogram 4.0にJSON形式のPromptを渡せるようになったものの、これにIdeogram 4.0生成用のWorkflowが付くと、画面がどうしても窮屈になる。であれば、外部アプリ形式にすれば……と作ったのがPromptCanvasとなる。

といっても何も無いところから作ったのではなく、

cocktailpeanut/image-to-prompt （画像からIdeogram 4.0のPrompt生成）
cocktailpeanut/ideoprompt （テキストからIdeogram 4.0のPrompt生成）

この2つを参考にしつつ、1つのアプリにまとめ、image-to-promptに関しては、Vision対応のLLMで画像全体を解析し（元々はFlorence-2）、登場するオブジェクトのbbox/description/キャプション/背景説明をまとめて生成。PaddleOCRを使い日本語も正しく検出するようにした。