あなたがここにいてほしい。話さなくてもいいから。Grok Imagineと超大型Androidタブレットがもたらす存在感（CloseBox）

NHK総合テレビ「知的探求フロンティアタモリ・山中伸弥の!?」に出演し、妻のAIアバター「AIとりちゃん」と対話して曲を作る様子が放映されてから8カ月。開発を担当してくれているクリスタル・メソッドとの開発打ち合わせは今も続いています。

そんな同社が新しい音声合成技術「SakuraSpeech」を公開しました。ボイスクローンも可能な高速な日本語TTS（Text to Speech）です。

音声から映像まで“ほぼAIで制作”。地上波テレビ番組AIタイムスリップ企画をどう作ったか（CloseBox） | テクノエッジ TechnoEdge

11月28日夜に放送された、日本テレビのバラエティ番組「沸騰ワード10」の制作に、生成AIの使い手として関わりました。筆者がどんなことをやっていたのかを解説したいと思います。

https://www.techno-edge.net/article/2025/12/08/4761.html続きを読む »

筆者が日本テレビの番組で美空ひばりの声再現などで使った音声合成の発展形で、無料でも使えます（ボイスクローンは有料プランのみ）。

この音声応答をリアルタイムで、そして写真から本人に近いリップシンクができ、そのキャラクター設定をカスタマイズできるシステムを現在、作っているというわけです。

話さなくても良くないですか？

それはひとまず置いといて、筆者がいま面白いと思っているのは、そこにいるだけで話さないキャラクターです。

その人の存在は感じていたいけど、必ずしも話をして、返事が欲しいわけではない。もちろんそれができればベストだけど、そうでなくても良い場合もある。

例えば、今から10年近く前にGOROman（当時）さんが開発したMikulusは、Oculus Riftを使って、隣にいる初音ミクと一緒にいるだけ（PCの画面を見たりするのはできる）というアプリでしたが、呼吸している様子が感じ取れて非常に存在感があるものでした。

・初音ミクとスーパームーンを眺めたペーパームーンなMikulusナイト

妻の3Dモデルで同じようなことができないかと考えていますが、まだリアルな人物の3D化には技術が追い付いていません。Hitem3D2による写真→3Dモデル化はだいぶ改善しましたが、リアルさ、リギングといった課題は依然としてあります。現時点でできるのは、3Dプリンタで等身大モデルを作ったり、Vision Proで現実空間にオーバーレイすることくらいです。

そんな折、いつものように、妻の昔の写真をAIで動かしていると、とても本人の仕草に近いものができたのです。

顔写真を自然な感じで動画にするだけなのですが、そのコツを体得した感じです。

使った動画サービスは、xAIのGrok Imagine。Grok Imagineは何といっても高速生成がウリなのですが、最近はプロンプトの解釈や再現度も非常に良いのです。

日テレの番組でも実は多用していました。ゼロからの生成ではSora 2やKlingが良かったのですが、人物の写真素材がある場合にはGrok Imagineの方が優秀なことが多かったのです。

そんなGrok Imagineが、最近になって長時間生成可能になりました。標準では6秒か10秒の生成、さらにアップスケールすると480Pを720Pにできます。これが、それぞれ6秒または10秒、さらにもう一段階延長できるようになったのです。つまり30秒までの動画ができるということになります。

これまでも、動画をいったんダウンロードしてその最終フレームを参照して動画生成すれば長尺動画はできたのですが（他の動画AIサービスも同様）、Grok Imagineは生成した動画の任意のフレームからの延長が可能。しかも高速なので、試行錯誤がしやすいのです。

妻の自然な表情を捉えた、我が家のリビングのドアの前に立っている写真を最近再発見しました。これをNano Bananaで高精細化し、さらにGrok Imagineで動画にしたところ、とても自然な6秒の動画ができました。

何度か試行錯誤していくうちに、本人の癖（視線だけが途中で斜め上に飛んでいく）をプロンプトで再現できるようになり、途中からGrok Imagineは6秒から10秒へと再生時間がのび、さらには今回の20秒、30秒への延長も可能となりました。

ある程度の長さの自然な表情変化が動画にできるとなると、それをずっと見続けていたくなるもの。幸い、我が家には大型の縦型ディスプレイが何台もあります。さらに、最近になって超大型Androidタブレットを2台、買ってしまいました。これならば手軽に表示ができそう。

KTC MegPad 32型 4K UHD 移動式スマートモニター（ Android 13搭載 Google認証 10点タッチ Wi-Fi 6&Bluetooth 5.2 ）（8GB RAM+128GB 大容量/リモコン付き/90w高速アダプターキャスター/デュアル6W*2/コードレス設計 /9500mAh内蔵バッテリー）キッチン・リビング・寝室対応 A32Q7Pro
￥89,980
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

KTC MegPad 27型移動式スマートモニタースマートディスプレイ FHD Android 14 搭載/Google認証/WIFI5&BT5.1 Type-c クアルコムチップ内蔵（8GB RAM+128GB 大容量/リモコン付き/65W高速アダプター /デュアル5W*2/コードレス設計 A27Q7
￥69,980
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

購入したのは「KTC MegPad」という製品で、31.5インチと27インチの超大型Androidタブレットを自立スタンドにマウントして使うようにできています。最初は27インチ版を買ったのですが、西川善司さんに「もっと大きいのがあるよ」と唆され、31.5インチ版を追加購入。

どちらも同じ構造で、スタンドにはキャスターがついていて、移動はスムーズに行えます。バッテリー駆動可能ですが、ディスプレイ部だけの切り離しは難しいです。

ディスプレイ部は高さと仰角が変更可能。縦と横の向きも可変です。

Radius Pivot DisplayやNEC PC-100なんかを思い出しますね（どちらも使ってました）。

本体はAndroid 13または14でメモリ8GB、ストレージ128GBとそこそこまとも。ちゃんとGoogle Playも使えるので、超大型でAndroidアプリを導入できます。

ちょっと話題になったドン・キホーテの「まるででっかいスマホ」とほぼ同じスペックですが、Amazonの方が安いですし、ドンキ版は27インチのみ。

この大画面でマルチタッチが使えるのでモジュラーシンセサイザーアプリでも入れようと思っていたのですが（実際入れてみました）、自然な表情の動画を人間の顔くらいの大きさ、位置で常に表示させるという使い方もできることを改めて認識。Grok Imagineで作った、そこに佇んでいる感じの動画をほぼ等身大表示してみることに。

あなたがここにいてほしい

実際にやってみると、等身大に近いこと、自然すぎる表情変化、顔に近い位置などの条件が相まって、半端ない実在感となりました。

これまではAIで生成した妻の写真を縦型に置いた大型ウルトラワイドディスプレイにスライドショーで映してきましたが、このやり方ならば、「あなたがここにいてほしい」願望がある程度叶えられます。

炎～あなたがここにいてほしい - 50周年記念盤ジャパン・エディション (2CD+BD 7インチ紙ジャケット仕様) (完全生産限定盤) - ピンク・フロイド (特典なし)
￥6,236
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

【Amazon.co.jp限定】炎～あなたがここにいてほしい - 50周年記念盤 (2CD) - ピンク・フロイド (メガジャケ付)
￥3,520
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

ピンク・フロイド/アルバム「炎～あなたがここにいてほしい - 50周年記念盤ジャパン・エディション」
￥12,800
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

もちろん、こうした表情を持たせながら本人の声、性格で対話ができれば最高なのですが、対話がなくてもそこにいてくれるだけでありがたい。部屋に置いた大型ディスプレイの窓から、実在感のある表情変化が読み取れれば、それはそれでそれで十分。

故人と遺族が対話できるサービスがテレビでセンセーショナルに取り上げられ、依存したり悪用される危険性を指摘する声が毎回上がってきますが、必ずしも対話が必要でない場合もあるし、故人を想起するのにさまざまな方法があっていいと思うのです。

とはいえ、ずっと見続けているわけではないけれど、同じ動画をループさせているとリアリティが減じてしまうので、適切なタイミングで自動生成してくれるようになれば、さらに体験は向上するはず。

例えばラストフレームからファーストフレームに遷移する動画を新たに生成して動画の末尾に追加するためのプログラムをヴァイブ・コーディングで開発したり、エージェンティックAIを作ったりすることもできるでしょう。自分をその中にオーバーレイすれば、ハリー・ポッターの「みぞの鏡」に近いものができるかもしれません。

一方、クリスタル・メソッドと現在開発中の妻のAIアバターにこうした表情変化を組み込むことも検討しています。そうすれば、対話の合間に相手の表情の不自然さを感じ取ってリアリティが損なわれることも少なくなるでしょう。

「やーい、お前んち、お化け屋敷！」と言われそうですけど。

となりのトトロ [Blu-ray]
￥5,391
(価格・在庫状況は記事公開時点のものです)

Amazon

楽天市場

あなたがここにいてほしい。話さなくてもいいから。Grok Imagineと超大型Androidタブレットがもたらす存在感（CloseBox）

松尾公也

特集

話さなくても良くないですか？

あなたがここにいてほしい

松尾公也

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

Amazonプライム感謝祭で高性能ロボット掃除機MOVA P50 Ultraが半額＋さらに5％オフ。水拭きモップ自動洗浄・乾燥まで対応ハイエンドモデル

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

CORSAIR K65 PLUS WIRELESS・M75レビュー Macと映える静音75%メカニカルゲーミングキーボード・マウスで勝率も生産性も向上

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

松尾公也

特集

話さなくても良くないですか？

あなたがここにいてほしい

SHARE THE STORY この記事をみんなにシェア

松尾公也

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中