1回の指示で3分のAI動画を生成するのに、どのくらいの時間とコストがかかると思いますか? 多くの商用サービスは5、6秒からせいぜい20秒までの生成が限界ですし、月額数千円を超えるサブスクが必要です。もし、生成時間がわずか5分で、しかも無料だとしたら……。
今回紹介するHappyOysterは、AI生成した世界を自分で自在に歩き回れる「ワールドモデル」そのもの。生成される動画の品質は既存サービスに引けを取らず、生成は非常に高速で、キャラクターの一貫性もかなり高度なレベルで維持しています。数回試してみて素晴らしかったので、ここで紹介します。
HappyOysterは今年4月に高性能な動画生成AI「HappyHorse」を発表したアリババのATHチーム開発によるサービスで、ネイティブにマルチモーダルなアーキテクチャを採用し、音声と映像を同時に生成するのが特徴です。動画にBGMやナレーションが自動で付くのはこのためです。なんと7月17日まで無料。

筆者が最初に試したのは、1983年か84年ごろ、オープン直後の東京ディズニーランドで撮影した1枚のスナップ写真に、「the Japanese woman is walking in Tokyo Disneyland」というプロンプトを添えただけのものでした。
2分59秒の動画生成にかかった時間はわずか3分ちょっと。
プロンプトは自動的に「A young East Asian woman returns to a theme park at dusk, recalling old dreams. She walks through the plaza, observes the castle, and explores the gardens as twilight deepens. After checking a map and pausing under street lamps, she reflects on her memories by the lake, touching a star keychain. Finally, she stands quietly under the starlit sky, finding a sense of home and peace.」と拡張され、音楽とナレーション(英語)も付けられています。
驚くのは、最初の1枚しか人物画像がないのに、キャラクターの一貫性が見事に維持されているところです。
この動画を生成するのにかかったコストは無料。HappyOysterでは現在、1日ごとに1000クレジットが付与されており、筆者の環境での消費は480pで350クレジット、720pで480クレジットでした(消費レートはプラットフォームの規定に準じ、無料クレジットはキャンペーン等で随時配布されます)。1日に3分の動画を2回、無料で生成できる計算です。
720pでの生成は約5分でした。リップシンクだけでもこんなに速くはない。スピード違反にも程があります。
なお、HappyOysterには2つのモードがあります。今回使ったのは長尺・リアルタイム演出が可能な「Directing(ディレクティング)」モードで、最長6分、480p/720pに対応。もう一つの「Adventure(アドベンチャー)」モードは、WASDキーでワールド内を歩き回れる探索型で、こちらは1分・480pまでとなっています。
Directing | Adventure | |
|---|---|---|
最長尺 | 6分 | 1分 |
解像度 | 480p/720p | 480p |
操作 | リアルタイムのテキスト指示、一時停止・巻き戻し | WASD+カメラ操作で探索、シーン固有のインタラクション |
今度は720pで、同じ写真とプロンプトでやってみましたが、こちらは少し違うストーリーになりました。
この動画を生成したあと、「Explore」のオプションボタンを押すと、10秒ほどで前処理が終わり、再生している途中でプロンプトを追加できるようになります。その内容が以降の映像にリアルタイムで反映される——まさにDirectingモードの真骨頂です。
長尺の動画では本来、シーンディスクリプションやコンテを用意して個別のシーンごとに生成する必要がありますが、HappyOysterではこれをリアルタイムで差し込めるのがすごいところ。
1分を過ぎたあたりで「ネバーネバーランドに行ってピーターパンに会う」とプロンプトを打つと、空中に城が出現。ティンカーベルを呼び出すと、彼女が手のひらに乗ってきます。


せっかくなので、登場人物である妻(AI)の歌声を乗せた「Never Never Land」のカバーをBGMにしてみました。
筆者は妻の歌声でミュージックビデオを作るのを生き甲斐にしていますが、映像生成やリップシンクそのものより音楽制作に時間を割きたいタイプ。こうして手軽に長尺の動画ができるのは嬉しい限りです。
商用利用については、アップロードした素材に対して正当な知的財産権を持っていれば、生成物の権利は基本的に自分に帰属し、商用利用も可能とされています(中国の「生成AIサービス暫定管理弁法」やAI生成コンテンツのラベリング義務など、適用される法令の遵守が前提)。ただし今回のように東京ディズニーランドの写真やピーターパン、ティンカーベルといったディズニーのIPを含む場合は、第三者の著作権・商標にあたるため、そのまま商用利用するのは難しい点に注意が必要です。あくまで「自分が権利を持つ素材で」という前提つきと考えておきましょう。
惜しいのは、現時点でクレジットの追加購入やサブスクリプションには対応していないこと。ただし高頻度で使いたい場合は、「Credit Details → Apply for Extra Credits」から追加クレジットを申請できる導線が用意されています(申請はしました)。
Adventureモードもやってみました。こちらは1回(1分)60クレジットだけの消費で済みます。


主人公を第三者視点で見るか、一人称視点で見るかを選び、主人公と背景をそれぞれ画像とプロンプトで指定。1分少々でワールドが生成され、その中をキーコマンドで1分動けます。
WASDキーで移動、上下左右カーソルでカメラアングル、攻撃する、かがむ、ジャンプ、スプリントのキーコマンドも用意されています。1分動いたら、その動画はダウンロード可能に。
Directingモードと違い、ゲームの3Dグラフィックスっぽい感じですね。なお、作ったワールドを再訪しても、同じだけクレジットを消費します。
時間制限(1分)内であれば、そのワールドを自由に動けるってところが、空条承太郎とDIOのザ・ワールドっぽいですね(それより長いけど)。
もっと遊びたい、早く明日にならないかなあ。















