OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか

テクノロジー AI

2024 Feb 16 20:11

kogu

ゲームとWebのフリーランス開発者。3DCGからゲーム開発の世界に入り20年。今は生成AIの変化を追いかけて日々実験しています。

特集

OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか

OpenAIが新しい動画生成モデル「Sora」を発表し、合わせて技術レポートも公開しました。

Soraはテキストから最長1分の動画を生成できるモデル。静止画像から動画の生成や、動画の補完も可能です。

作例を見る限り、現在公開されているどの動画生成モデルよりも、品質や一貫性において圧倒的に優れています。

技術レポートによると、Stable Diffusionなどの画像生成や他の動画生成モデル同様、SoraはTransformerを使った拡散モデルで動画を生成します。

従来の動画生成より広範な視覚汎用モデルであり、様々な課題を解決していると説明しています。

高い一貫性と品質

Soraの生成した動画は圧倒的な一貫性と品質を持っています。従来の動画生成では1分もの尺の生成は難しく、また無理に長い生成をすれば形状や構図などが破綻していました。

公式のサンプルから幾つか紹介します。

マンモスのサンプルでは、雪煙の向こうから現れるもう一頭のマンモスを含め、破綻なく最後まで描かれています。

こうした表現は従来の動画生成では非常に破綻しやすかったものです。

3DCG風のキャラクターのサンプル。ロウソクの融けていく様子や動き続けるキャラクターの形状や表情も、最後まで一貫性が保たれています。

コーヒーの海に浮かぶ海賊船は、素晴らしい流体シミュレーションの結果のように見えます。

喫水線や光の質感は不自然ですが、帆や船の形状に決定的な破綻はありません。

山道を走り続ける白いSUVは、車も背景も一貫した表現を保っています。

砂煙や障害物に多少不自然さはありますが、ドローンで撮影したかのような構図も安定しています。

飼い主を起こす猫。女性の腕と猫の腕がありえない変化をする以外、どこも一貫して破綻なく表現されています。

テキスト指示への高い忠実性

GPTやDALL Eの成果を組み込んだことで、生成を指示するテキストへの忠実性が高い点も特徴的です。たとえば上のサンプルを生成した指示は次のような内容です。

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
（スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持って何気なく歩いています。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。多くの歩行者が歩き回っています。）

この指示に確かに適合する動画が生成されています。これほど細かい指示への忠実性はDALLE 3の場合と同じく、ChatGPTのようなLLMからの生成でも効果的です。

公開時期は不明

現在、SoraはOpenAIの内部チームが安全性やポリシー適合について評価しているほか、フィードバックを得るため一部の専門的なクリエイターに提供中です。

一般公開の時期については言及がなく、今回の公開はAIによってどんなことが可能になるのかを広く感じてもらうためだとしています。

Soraは「ワールドシミュレーター」か？

ここからはゲーム開発者であり、画像生成が広まって以降「世界を描ける汎用の生成AIレンダラ」をずっと追いかけてる筆者の立場から感想を少し。

従来の動画生成モデルと比較して、Soraは確かに品質が飛躍的に伸びています。いま一般に利用可能なRunwayやPikaなどの商用サービスや、SVDやAnimateDiffなどのローカル実行可能なモデルは、Soraによってひどく遅れたものになるかもしれません。少なくとも作例の一貫性や多様性、連続性は、他の作例を圧倒してます。

ソーシャルメディアの反応はこの手のデモ公開時に共通の傾向で、「すげえ」という驚きや、「仕事なくなる日が早まるな」という競合するプロの声。

そして「Soraは世界エンジンだ！」といったSF的なものも。私個人の感想はどれも入り混じってますが、毎年生成AIの汎用レンダラとしての未来について記事を書いたり、動画生成をしばしば試したりしている分、SF的な飛躍が気になります。

たとえば技術レポートのタイトルは「ワールドシミュレーターとしてのビデオ生成モデル」ですし、そうしたメッセージが幾つも込められているように感じます。

そうしたビジョンを受けて、Soraが物理シミュレーションなどを現実世界を取り扱えるモデルだとみなすポストもあります。

しかし、少なくとも発表されたSoraには、そうした物理エンジンとしての正しさが備わっていないことを、OpenAI自身も次のように述べています。

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.
The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.
（現行モデルには弱点があります。複雑なシーンの物理を正確にシミュレートするのに難がある可能性があり、原因と結果の特定のインスタンスを理解できない場合があります。たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。
また、モデルは、プロンプトの空間的な詳細について取り違える可能性があります (たとえば、左右を混同するなど)。また特定の軌跡でカメラを動かすなど、時間の経過を伴うできごとの細かな記述も苦手とする可能性があります。）

概要で公開されたサンプルでも、ハイイロオオカミの子供が遊ぶものや、バスケットボールのもので物理的な破綻は顕著で、細かく見れば他の動画にも多数見つかります。

なんらかの一貫したモデルを持つならば起きないはずの小さな破綻は、これが表現という最終出力を再構成して生み出された動画であることを示しています。