あなたがここにいてほしい。話さなくてもいいから。Grok Imagineと超大型Androidタブレットがもたらす存在感(CloseBox)

テクノロジー AI
松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

NHK総合テレビ「知的探求フロンティア タモリ・山中伸弥の!?」に出演し、妻のAIアバター「AIとりちゃん」と対話して曲を作る様子が放映されてから8カ月。開発を担当してくれているクリスタル・メソッドとの開発打ち合わせは今も続いています。

そんな同社が新しい音声合成技術「SakuraSpeech」を公開しました。ボイスクローンも可能な高速な日本語TTS(Text to Speech)です。


筆者が日本テレビの番組で美空ひばりの声再現などで使った音声合成の発展形で、無料でも使えます(ボイスクローンは有料プランのみ)。

この音声応答をリアルタイムで、そして写真から本人に近いリップシンクができ、そのキャラクター設定をカスタマイズできるシステムを現在、作っているというわけです。

話さなくても良くないですか?

それはひとまず置いといて、筆者がいま面白いと思っているのは、そこにいるだけで話さないキャラクターです。

その人の存在は感じていたいけど、必ずしも話をして、返事が欲しいわけではない。もちろんそれができればベストだけど、そうでなくても良い場合もある。

例えば、今から10年近く前にGOROman(当時)さんが開発したMikulusは、Oculus Riftを使って、隣にいる初音ミクと一緒にいるだけ(PCの画面を見たりするのはできる)というアプリでしたが、呼吸している様子が感じ取れて非常に存在感があるものでした。

初音ミクとスーパームーンを眺めたペーパームーンなMikulusナイト

妻の3Dモデルで同じようなことができないかと考えていますが、まだリアルな人物の3D化には技術が追い付いていません。Hitem3D2による写真→3Dモデル化はだいぶ改善しましたが、リアルさ、リギングといった課題は依然としてあります。現時点でできるのは、3Dプリンタで等身大モデルを作ったり、Vision Proで現実空間にオーバーレイすることくらいです。

そんな折、いつものように、妻の昔の写真をAIで動かしていると、とても本人の仕草に近いものができたのです。

顔写真を自然な感じで動画にするだけなのですが、そのコツを体得した感じです。

使った動画サービスは、xAIのGrok Imagine。Grok Imagineは何といっても高速生成がウリなのですが、最近はプロンプトの解釈や再現度も非常に良いのです。

日テレの番組でも実は多用していました。ゼロからの生成ではSora 2やKlingが良かったのですが、人物の写真素材がある場合にはGrok Imagineの方が優秀なことが多かったのです。

そんなGrok Imagineが、最近になって長時間生成可能になりました。標準では6秒か10秒の生成、さらにアップスケールすると480Pを720Pにできます。これが、それぞれ6秒または10秒、さらにもう一段階延長できるようになったのです。つまり30秒までの動画ができるということになります。

これまでも、動画をいったんダウンロードしてその最終フレームを参照して動画生成すれば長尺動画はできたのですが(他の動画AIサービスも同様)、Grok Imagineは生成した動画の任意のフレームからの延長が可能。しかも高速なので、試行錯誤がしやすいのです。

妻の自然な表情を捉えた、我が家のリビングのドアの前に立っている写真を最近再発見しました。これをNano Bananaで高精細化し、さらにGrok Imagineで動画にしたところ、とても自然な6秒の動画ができました。

何度か試行錯誤していくうちに、本人の癖(視線だけが途中で斜め上に飛んでいく)をプロンプトで再現できるようになり、途中からGrok Imagineは6秒から10秒へと再生時間がのび、さらには今回の20秒、30秒への延長も可能となりました。

ある程度の長さの自然な表情変化が動画にできるとなると、それをずっと見続けていたくなるもの。幸い、我が家には大型の縦型ディスプレイが何台もあります。さらに、最近になって超大型Androidタブレットを2台、買ってしまいました。これならば手軽に表示ができそう。


購入したのは「KTC MegPad」という製品で、31.5インチと27インチの超大型Androidタブレットを自立スタンドにマウントして使うようにできています。最初は27インチ版を買ったのですが、西川善司さんに「もっと大きいのがあるよ」と唆され、31.5インチ版を追加購入。

どちらも同じ構造で、スタンドにはキャスターがついていて、移動はスムーズに行えます。バッテリー駆動可能ですが、ディスプレイ部だけの切り離しは難しいです。

ディスプレイ部は高さと仰角が変更可能。縦と横の向きも可変です。

Radius Pivot DisplayやNEC PC-100なんかを思い出しますね(どちらも使ってました)。

本体はAndroid 13または14でメモリ8GB、ストレージ128GBとそこそこまとも。ちゃんとGoogle Playも使えるので、超大型でAndroidアプリを導入できます。

ちょっと話題になったドン・キホーテの「まるででっかいスマホ」とほぼ同じスペックですが、Amazonの方が安いですし、ドンキ版は27インチのみ。

この大画面でマルチタッチが使えるのでモジュラーシンセサイザーアプリでも入れようと思っていたのですが(実際入れてみました)、自然な表情の動画を人間の顔くらいの大きさ、位置で常に表示させるという使い方もできることを改めて認識。Grok Imagineで作った、そこに佇んでいる感じの動画をほぼ等身大表示してみることに。

あなたがここにいてほしい

実際にやってみると、等身大に近いこと、自然すぎる表情変化、顔に近い位置などの条件が相まって、半端ない実在感となりました。

これまではAIで生成した妻の写真を縦型に置いた大型ウルトラワイドディスプレイにスライドショーで映してきましたが、このやり方ならば、「あなたがここにいてほしい」願望がある程度叶えられます。


もちろん、こうした表情を持たせながら本人の声、性格で対話ができれば最高なのですが、対話がなくてもそこにいてくれるだけでありがたい。部屋に置いた大型ディスプレイの窓から、実在感のある表情変化が読み取れれば、それはそれでそれで十分。

故人と遺族が対話できるサービスがテレビでセンセーショナルに取り上げられ、依存したり悪用される危険性を指摘する声が毎回上がってきますが、必ずしも対話が必要でない場合もあるし、故人を想起するのにさまざまな方法があっていいと思うのです。

とはいえ、ずっと見続けているわけではないけれど、同じ動画をループさせているとリアリティが減じてしまうので、適切なタイミングで自動生成してくれるようになれば、さらに体験は向上するはず。

例えばラストフレームからファーストフレームに遷移する動画を新たに生成して動画の末尾に追加するためのプログラムをヴァイブ・コーディングで開発したり、エージェンティックAIを作ったりすることもできるでしょう。自分をその中にオーバーレイすれば、ハリー・ポッターの「みぞの鏡」に近いものができるかもしれません。

一方、クリスタル・メソッドと現在開発中の妻のAIアバターにこうした表情変化を組み込むことも検討しています。そうすれば、対話の合間に相手の表情の不自然さを感じ取ってリアリティが損なわれることも少なくなるでしょう。

「やーい、お前んち、お化け屋敷!」と言われそうですけど。


となりのトトロ [Blu-ray]
¥5,391
(価格・在庫状況は記事公開時点のものです)
《松尾公也》

松尾公也

テクノエッジ編集部 シニアエディター / コミュニティストラテジスト @mazzo

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。