プロ品質をローカルで使えて商用利用可能な音声付き動画生成AI「LTX-2.3」登場。Web版「LTX Studio」も（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、Lightricksよりリリースされた、最新の音声付き動画生成AIモデルである「LTX-2.3」を取り上げます。2026年1月にご紹介した、Sora 2 Pro越えのローカル動画生成AI「LTX-2」のアップデート版になります。

Sora 2 Pro超えのローカル動画生成AI「LTX-2」登場、英語ネイティブでない研究者がAI利用で論文投稿数89%増など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」（第127回）は、Sora 2 Pro超え性能でテキストから音声付き動画を生成するAI「LTX-2」や、スマホで撮った普通の動画を4Dシーンに変換するAIモデル「NeoVerse」を取り上げます。

https://www.techno-edge.net/article/2026/01/15/4817.html続きを読む »

新モデルLTX-2.3は、前モデルLTX-2の性能をベースにしつつ、エンジンの根幹から改良が加えられており、映像のディテール、動きの自然さ、音声のクリアさ、そしてプロンプトへの忠実度が大幅に向上しています。

LTX-2.3は、単一のモデル内で同期した動画と音声を生成するように設計された、DiT（Diffusion Transformer）ベースの音声・動画基盤モデルです。

今回のアップデートでは、より高品質なデータでトレーニングされた最新のVAEを使用して、潜在空間を再構築しました。これにより、細部がよりシャープになり、動きも格段に安定。画像から動画を生成する際の一貫性も向上しており、微細なテクスチャが圧縮過程で失われずに保持されるほか、ラストフレームの補間により、動画の結末がより自然で意図通りに仕上がるようになっています。

また、テキストコネクタが従来の4倍に拡大されたことでプロンプトの理解力が高まり、複数の主語、空間関係、文体指示といった複雑なプロンプトも、より正確に反映できるようになりました。具体的には、カメラの動き、シーンの構図、キャラクターの細かなアクションなどが含まれます。

音声面でも新しいボコーダーによってノイズが減り、映像と緊密に同期したクリアなオーディオを生成します。

また横向きから切り取ったものではなく、学習段階から縦型データを用いたネイティブなポートレート動画生成に対応しており、最大1080×1920の解像度で活用できる品質を備えています。

用途に合わせてスピード重視の「Fast Flow」と、品質重視の「Pro Flow」を選択でき、最長20秒、最大4K解像度、24から50FPSの生成が可能です。

LTX-2.3は、フルコード、モデルの重み、トレーニングコード、APIアクセス、さらにはウェブベースで生成できる「LTX Studio」（WindowsとmacOSに対応）などが公開されており、ローカル環境で動かしたり、独自のファインチューニングを行ったり、既存のワークフローに直接組み込んだりすることができます。個人や年間収益が1000万ドル未満の企業であればモデルの利用、改変、再配布、商用利用も含めて無料で自由に行うことができます。