この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第114回)は、アリババ開発のテキスト・画像・音声・動画を統合したマルチモーダルAIモデル「Qwen3-Omni」や、マイクロソフト開発のAIにゼロからソフトウェアリポジトリを生成させる「ZeroRepo」を取り上げます。
また、AIが細菌を殺すウイルスを生成した世界初の研究や、Googleの動画生成AI「Veo 3」が迷路解きなどの未学習の視覚タスクを処理できることを実証した研究をご紹介します。
そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、生徒の興味や理解によって生成AIがその人に合わせた内容に自動変更する教科書システムを提案した研究を別の単体記事で取り上げています。
テキスト・画像・音声・動画を統合したマルチモーダルAIモデル「Qwen3-Omni」をアリババが発表
アリババグループのQwen TeamはマルチモーダルAIモデル「Qwen3-Omni」を発表しました。このモデルは、テキスト、画像、音声、動画など、多様な入力を処理し、テキストと自然音声の両方でリアルタイムのストリーミング応答を提供するように設計されています。
119の言語で文章を理解し、19言語の音声を聞き取り、10言語で話すことができます。40分間の長い音声も処理でき、応答速度は約0.234秒です。
音声処理においては特に優れた成果を示し、36の音声および音声視覚ベンチマークのうち32でオープンソース最高性能を、22で全体最高性能を達成しました。これはGemini-2.5-ProやGPT-4o-Transcribeといった強力なクローズドソースモデルをも上回る結果です。数学やSTEM分野のタスクでもGPT-4oやGemini-2.0-Flashを上回る性能を示し、視覚的推論や文書理解においても競争力のある結果を出しています。

Qwen3-Omni Technical Report
Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
Paper | GitHub
Googleの動画生成AI「Veo 3」、迷路解きなどの未学習の視覚タスクを解決できることを実証
Google DeepMindの研究チームが、動画生成モデル「Veo 3」が訓練されていない幅広い視覚タスクを解決できることを実証しました。この研究は、動画モデルがコンピュータビジョンにおいて汎用的な基盤モデルになる可能性を示しています。
研究では、Veo 3に画像と文章による指示を与えるだけで、62種類の視覚タスクを実行できることを確認しました。これらのタスクには、物体のセグメンテーション、エッジ検出、超解像、画像編集、物理法則の理解、道具使用のシミュレーション、迷路解きなどが含まれます。
モデルは知覚、モデリング、操作、推論という4つの階層的な能力を示しており、特に「Chain-of-Frames」(CoF)と呼ばれる動画生成を通じた段階的な視覚的推論が可能であることが明らかになりました。
定量的な評価では、エッジ検出やインスタンスセグメンテーション、迷路解きで高い成功率を達成しました。前世代のVeo 2と比較して、すべてのタスクで大幅な性能向上が見られ、画像編集専用モデルのNano Bananaに匹敵する性能を示す場合もありました。
Video models are zero-shot learners and reasoners
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
Project | Paper
AIにゼロから完全なソフトウェアリポジトリを生成させる技術「ZeroRepo」をマイクロソフトが開発
Microsoftなどの研究チームが、大規模言語モデル(LLM)を用いてゼロから完全なソフトウェアリポジトリを自動生成する技術「ZeroRepo」を開発しました。
従来のLLMは関数やファイル単位のコード生成では優れた性能を示していましたが、複雑な依存関係を持つ大規模なリポジトリ全体を生成することは困難でした。この問題の根本的な原因は、自然言語による計画表現の曖昧性と長期的な一貫性の欠如にありました。
研究チームは「Repository Planning Graph」(RPG)というグラフ構造を使って、ソフトウェアの機能と構造を明確に整理する方法を開発しました。RPGは、機能目標と実装設計を単一のグラフに統合し、ノードで階層的な機能とファイル構造を、エッジでデータフローと依存関係を表現します。これにより、自然言語の曖昧さを排除し、長期的な計画の一貫性を保証します。
6つの有名ソフトウェアプロジェクトでテストした結果、機能の81.5%を正しく実装し、テストの69.7%に合格しました。これは従来手法よりそれぞれ27%、36%高い成績です。生成されたコードは平均3万6000行で、Claude Codeの約4倍、他のベースラインの約64倍の規模です。


RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang
Paper
世界初、AIが細菌を殺すウイルスを生成に成功 スタンフォード大学などが研究発表
研究者たちがAIを使って、細菌を殺すウイルス(バクテリオファージ)の完全な遺伝情報を人工的に作り出すことに成功しました。
スタンフォード大学とArc Instituteのチームは、「Evo」という言語モデルを使用して、「ΦX174」というファージをお手本にして新しいファージを設計しました。ΦX174は約5,400文字の遺伝コードを持つ小さなウイルスで、大腸菌に感染します。
研究者たちは約300個の人工ファージ候補を設計し、実際に合成して大腸菌に感染させたところ、16個が生きたファージとして機能しました。これらの人工ファージは天然のものとは大きく異なり、最大392個の変異を含んでいました。
驚くべきことに、いくつかの人工ファージは元のΦX174よりも優れた性能を示しました。例えば、Evo-Φ69という人工ファージは競争実験で他のファージを圧倒し、Evo-Φ2483は細菌をより速く殺すことができました。
最も重要な成果は、薬剤耐性菌への対応です。ΦX174に耐性を持つようになった大腸菌に対して、ΦX174単独では効果がありませんでしたが、16個の人工ファージを混ぜた「カクテル」は、わずか数回の処理で全ての耐性菌を殺すことができました。
Generative design of novel bacteriophages with genome language models
Samuel H. King, Claudia L. Driscoll, David B. Li, Daniel Guo, Aditi T. Merchant, Garyk Brixi, Max E. Wilkinson, Brian L. Hie
Paper