1.58bitの波が画像生成に到来。iPhoneやMacBook Neoローカルでもリアルな画像を30秒で生成するBonsai Image Ternaryを試してみた(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

LLM(大規模言語モデル)の分野では現在、さまざまな高速化技術や省メモリ化技術が花開いています。そのキーワードの一つが「Ternary(3値化)」。つまり1.58bit LLMです。筆者は先日、PrismMLの1.58bit LLM「Bonsai ML Ternary」を、メモリを8GBしか積んでいないMacBook Neoで試して「十分に使い物になるよ」という記事を書きました。


今回は、そのイメージ生成版。同じくPrismMLが、Bonsaiの画像版、Bonsai Image Ternaryをリリースしたのです。

Introducing 1bit and Ternary Bonsai Image 4B: Image Generation for Local Devices

メモリが貧しい環境においては、画像生成はまだ苦しい状況です。筆者はMacBook Neoで自作しているエージェンティックAIに、さまざまな生成AI技術を組み込んできましたが、画像生成は鬼門。FLUXなどの最新技術では太刀打ちできず、Stable Diffusion、SDXLなどの旧時代の技術を使わざるを得ない状況。結果は推してしるべし。3、4年前に戻った感じの画像しか出てきません。

このため、ビジュアライザーの背景で使う画像もドット絵レベルのものしかできません。

そこで期待するのがBonsai Image Ternary。ベースにしているのはFLUX.2 Kleinの4Bモデルなのですが、これはシリーズ最少モデルとはいっても 7.75 GBあります。

Bonsai Image Ternaryではトランスフォーマーのサイズを「6.4分の1」に削減 元モデルの 7.75 GB から 1.21 GB までスリム化しています。1bit版(0.93 GB)よりはわずかに大きいですが、それでも1GB強という圧倒的な軽さです。

1bit版がデータを「-1」と「+1」の2つだけで表現するのに対し、Ternary版は「-1」「0」「+1」の3つの状態(3値)で表現します。この「0」という選択肢が増えたことで表現力が格段に向上し、トランスフォーマーの該当部分は約10倍に軽量化しつつも、破綻の少ない高画質をキープしています。

1bit版と同様に、画質に直結する重要な5%のパーツ(プロジェクション層)だけは、FLUX.2 Kleinと同じ高精度(FP16)のまま残して守っています。

つまり、「0」の状態を使える3値(Ternary)化技術により、元のFLUX.2 Kleinの性能を95%という高水準で維持したまま、心臓部のサイズを6.4分の1(1.21 GB)まで一気に削ぎ落とした、非常にバランスの優れた軽量化モデルということになります。

その実力はどうなのでしょうか?

MacBook Neoに行く前に、すでに公式のiPhoneアプリ「Bonsai Studio」が公開されていたので、それでiPhone Airで試してみることにしました。なんと無料、ログインも無しでいけます。

ウェイトは2種類。1.58bitモデルと、1bitモデル。あまり大きさは変わりません。ならば1.58bitがいいだろうと、それから試しました。

使ったプロンプトは、妻の写真をLoRAを使わずにできるだけ忠実に再現するよう試行錯誤していたときの長文プロンプト。


東アジア系の20代前半女性。顔の再現度を最高レベルに固定。
輪郭: やや細めのオーバル。下顎は自然に絞れ、小さく丸い顎先。額は中程度、頬は柔らかく自然なカーブ。
目: 中~やや大きめのアーモンド型で、目尻は水平~3°以内の軽い上がり。浅い二重。下まぶたはなめらかで自然。虹彩は濃い茶色で奥行きがあり、白目は自然な色合い。
眉: 中くらいの太さでほぼストレート。濃いブラウン~黒。眉頭はやわらかく、眉尻は目の骨格に沿って自然に細くなる。
鼻: 細く真っ直ぐな鼻筋。横顔では浅いカーブを描き、鼻先は小さく丸い。鼻翼は狭く短く、正面からは鼻孔が少し見える程度。
口: 横幅は中くらい。上唇はやや薄く、下唇は自然な厚み。唇の山は柔らかく、閉じた口元に穏やかな微笑み。自然なピンク色。
肌: 明るいニュートラルベージュ。鼻と頬にごく薄いそばかすを残し、自然な質感(毛穴・微細な影)を保持。
髪: 黒~ダークブラウンのセミウェーブ。軽いボリューム。厚めの前髪を中央でわずかに分け、頬を包むサイドヘア。
照明: 室内の柔らかい拡散光(4300~4500 K)、左前方から。右頬に薄い影。背景はベージュ系で浅い被写界深度。
視線強調: 目には静かな意志と知的な集中力。瞳孔は安定して焦点を保ち、まぶたをわずかに細めて意思を感じさせる。

虹彩には小さく正確なキャッチライトを入れ、深みを演出。眼窩の筋肉には軽い緊張を残し、視線は揺らがない。

目を大きくしたり、ツヤを強調しすぎない。自然な微表情で、見つめ返されるような存在感を持たせる。
カメラ: 50 mmフルサイズ換算、f/2.2~2.5、胸上アップ。4 K実写質感、80年代フィルムグレイン。
表情・動き: 静かな表情からゆっくりと柔らかい微笑みへ。瞬き1回、自然な呼吸。頭の傾きは±3°以内。
スタイル: 写実的・映画的。AI的な美化処理なし。
禁止事項: 目の拡大、輪郭の細見化、美肌フィルター、アニメ調。
雰囲気: 知的で穏やか、内に強さを秘めた存在感。懐かしく温かい空気感。

これが通るかどうか。512×512ピクセルなら30秒かからず、かなり高品質な画像が生成されました。

同じシードでアスペクト比を変えることもできます。左が4ステップ、右が6ステップ。

少し前までのChatGPTやGrokの画像生成レベルには到達しています。長文の日本語プロンプトがそのまま途切れず入力できるし、標準的なパラメータ変更もできる。これが無料かつローカルで生成可能というわけです。

もう少しプロンプトを工夫してみましょう。Geminiに、先ほどの女性をマクスフィールド・パリッシュの絵画世界に呼び出したらどうなるかをプロンプトにしてもらいました。

A masterpiece painting in the distinctive style of Maxfield Parrish.

[Subject] > A 20-year-old East Asian woman, depicted with absolute facial fidelity and realistic textures. Her face features a slightly slender oval contour with a naturally tapered, small, rounded chin. Almond-shaped eyes, medium-to-large, with a subtle 3-degree outer tilt, shallow double eyelids, and deep dark-brown irises with sharp, stable pupils that convey a quiet, intelligent focus and inner strength. Medium-thick, nearly straight dark brown eyebrows. A slender, straight nose with a small, rounded tip. A soft, serene smile on her natural pink lips. Her bright neutral beige skin retains fine textures and very faint freckles on her nose and cheeks. Her dark brown, semi-wavy hair with thick bangs is slightly parted at the center, framing her face. She is dressed in flowing, classically draped neoclassical attire in rich lapis lazuli and gold.

[Setting & Atmosphere] She is elegantly posing on a classical marble balustrade entwined with moss and ivy. The background features a breathtaking, luminous Maxfield Parrish sky—an intense, glowing cobalt blue transitioning into radiant golden and amber sunlit clouds during twilight. In the distance, silhouetted neoclassical temple columns, classical architecture, and slender cypress trees rise amidst a soft, ethereal mist.

[Lighting & Style] The scene is bathed in a magical, high-contrast golden-hour light from the side, casting soft, luminous glazes and dramatic shadows that define her form. The oil painting texture shows intricate layering, luminous glazing, and a subtle vintage grain, perfectly capturing a nostalgic, serene, and otherworldly ideal beauty. No anime distortion, no facial exaggeration, pure painterly realism.

Geminiの画像生成モデルであるNano Banana 2ではこんなイメージが生成されました。人物のポージングはまさにパリッシュ的です。

同じプロンプトを使い、Bonsai Image Ternaryで生成しましたが、平面的ではあるけど悪くない出来栄えです。

参考のため、ChatGPT Imageで生成したものは、構図とかはバッチリですが、あまりパリッシュっぽくはない。

同じ人物がカフェでくつろいでいる写真の画像も生成してみました。

クラウド上の巨大なモデルと比較すると、Bonsai Image Ternaryは平面的であったり、細部の描き込み不足の部分は確かにあります。

しかし、これは「iPhoneのローカル環境で、無料で、しかも30秒足らずで生成された画像」です。

日本語による長文プロンプトを、外部のサーバに一切送信することなく安全に試行錯誤できる。しかも、1.58bit(Ternary)という極限まで削ぎ落とされたモデルサイズのおかげで、高騰化して入手困難になってしまったメモリプアなデバイスでもサクサク動いてしまうのです。

テキスト生成の世界でセンセーションを巻き起こした「1.58bitの波」は、画像生成の世界にも到達しました。

巨大なクラウドAIに頼らなくても、手元のスマートフォンやPCが十分な「想像力」を持ってくれる時代。メモリ不足で高性能な画像生成をほぼ諦めていた筆者のMacBook Neoのエージェントにも、ようやく実用的な画像生成機能を持たせることができそうです。

というわけで、Codexを使い、MacBook NeoのエージェンティックAIであるmazzaineoの画像生成モデルに、Bonsai Imageを追加することにしました。

現在はSD TurboとApple Intelligence Foundation Modelの画像生成モデルが使えるのですが、SD Turboは画像が粗く、512×512ピクセルにするだけでメモリ不足になる状態。Apple Intelligenceは参照イメージ必須な上、イラストしか生成できないという限界があります。

MacBook NeoへのBonsai Image移植

さっそくMacBook Neoで「mazzaineo」への組み込みに取りかかりました。

mazzaineoは、すでにチャットAI向けLLMとしてTernary Bonsai 8Bをインストールしており、使える状態。このほかにも音楽生成、ビジュアライザー、ビジョン、ターミナルなど各種機能を追加しており、先日はMS-DOSゲームをエミュレータで動かすことまでやりました。どこがAIって感じですが。

今回は、1.58bitの「Ternary」だけでなく、極限まで削ぎ落とした1bitの「Binary」モデルも用意。既存のSD TurboやApple Intelligenceと並べて、ボタン一つで切り替えて比較できる環境を目指します。

移植にあたっては、Apple Siliconの力を引き出すための「XcodeとMetal Toolchain」の導入や、サンドボックス環境におけるGPUへのアクセス権限周りでいくつかMac特有の罠に阻まれ、手こずることになりました。しかし、環境さえ整ってしまえばモデルサイズはTernaryが3.6GB、Binaryが3.2GBと非常にコンパクト。メモリ8GBのMacBook Neoでも、OSの通常動作を邪魔することなく余裕で共存してくれます。

さっそく同じプロンプト(512×512ピクセル / 4ステップ)を使い、手元のローカル環境で両者の実力をベンチマークしてみました。

  • Bonsai Image Ternary 4B(1.58bit): 約32.78秒

  • Bonsai Image Binary 4B(1bit): 約60.98秒

今回の筆者の環境では、より割り切ったはずの1bit(Binary)よりも、3値で表現する1.58bit(Ternary)の方が倍近く高速に処理を終えるという面白い結果になりました。「1bitだから常に軽快」とは限らないのが、ローカルAIを実機で測る楽しさです。

また、組み込み時の工夫として、生成された画像データを直接文字列(Base64)でやり取りするとブラウザがクラッシュすることがあったため、おとなしくローカルにPNGとして保存してURLで呼び出す実装に落ち着けました。これにより動作は見違えるほど安定。日常の作業画面からモデルをパチパチと切り替え、生成結果をその場で比較できる「使える」環境が整いました。

現在は、Bonsai Image Ternary 4Bをメインの画像生成に使う環境が整っています。

巨大なクラウドAIに頼らなくても、手元のスマートフォンやPCが十分な「想像力」を持ってくれる時代。メモリ不足で高性能な画像生成をほぼ諦めていた筆者のMacBook Neoにも、ようやく実用的な描画機能を持たせることができました。

ローカルAIの進化は、まだまだ私たちを楽しませてくれます。次は、Image 2 Image機能が追加されることを期待しています。

※この記事は、一部にCodexおよびGeminiとの対話による生成を使用しており、そこに筆者が加筆・修正を加えています。


《system》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。