1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、検索するたびにAIがその場で画像を描き出し、画像内の一部分をクリックするたびに深掘りして詳細な画像をさらに描き続けてくれるビジュアルブラウザ「Flipbook」を取り上げます。
これは元OpenAI研究者Zain Shah氏、Slack出身のEddie Jiao氏、Apple出身のDrew Carr氏の3名によって開発されたプロジェクトで、リアルタイムにオンデマンドでAI生成される無限の画像をブラウジングできるというWebサービスです。
このシステムでは、画面に表示されるすべてのページが1枚の画像として構成されています。画像の中の気になる部分をクリックすると、その対象をさらに深く掘り下げた新しい画像が次々と生成されます。表示されるものにはHTMLもコードもなく、特定のリンクや入力フィールドも存在しません。Web全体の情報が、画面上のピクセルとして生成される仕組みです。

▲「猫について」と入力した際に出力された画像

▲1枚目の猫の説明画像の顔の部分をクリックすると、猫の顔付近を説明する画像が出力された

▲2枚目の画像の目をクリックすると、猫の目がさらに詳細に説明された画像が出力された
画面上のテキストもすべて画像生成モデルによってピクセルとして直接描画されており、テキストの重ね合わせ(オーバーレイ)などは一切使用されていません。テキストが不完全に描画されたり配置がずれたりすることもありますが、モデルの進化とともに改善されていく見込みと述べています。
表示される情報の出どころについては、エージェント型のWeb検索と画像モデル自身が持つ世界知識の組み合わせから来ているとのことです。実際のオンライン上のデータに基づいた設計で、ChatGPTやGemini、Claudeを使った場合と同程度の事実的な正確性が期待できるとしています。
生成された画像をどんどん掘り下げていき、前に戻りたい場合は、上段の検索窓に履歴が残っており、任意の画像に戻ることが可能です。日本語でも検索でき、日本語での出力も可能です。

▲「猫の習性を日本語で説明して」と入力した際に出力された画像
また、実験的な機能として「ライブビデオストリーム」も用意されています。これは、生成された静止画を連続的なビデオストリームに変換し、探索する各画像にアニメーションとシームレスな切り替え効果(トランジション)を加えるものです。生成された画像右下に動画生成ボタンが設置されています。
現在のFlipbookは自由な探索や学習を目的としたプロジェクトですが、画像や動画モデルが進化すれば、より多くの実際のデータを取り込み、高度なインタラクティブ性を持たせ、アクションの実行やデータの保存なども可能にする計画。例えば、旅行の計画を立ててから別のサイトで予約手続きをしているような作業も、将来的にはすべてFlipbookの画面内で完結させるということです。





