Opus 4.8に肉薄するオープンソースモデル「GLM-5.2」、VRAM4.5GBで動くコーディング特化AI「Gemma4-12B-Coder」など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下(Seamless)

2014年から幅広い分野の研究論文をピックアップして解説しているメディア「Seamless」(シームレス)を個人運営しています。

特集

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第149回)は、Opus 4.8に肉薄するオープンソースモデル「GLM-5.2」や、テキストや画像から動き回れるゲーム世界を創るAI「DreamX-World 1.0」を取り上げます。

また、1Bパラメータで巨大モデルを一部上回るという新たな世界モデル「Looped World Models」や、VRAM4.5GBで動くコーディング特化のローカルAI「Gemma4-12B-Coder」をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、LLM(大規模言語モデル)に日本語の技術文書を書かせたり推敲させたりするためのAI向けの日本語文章規範スキル「japanese-tech-writing」を別の単体記事で取り上げています。



Opus 4.8に肉薄するオープンソースモデル「GLM-5.2」 大規模コード構築などでGPT-5.5やOpus 4.7を超える

Z.aiが長時間タスク向けのモデル「GLM-5.2」をMITライセンスで発表しました。前世代から長時間作業をこなす能力が伸び、100万トークンの長大なコンテキストを実用レベルで扱えるようになりました。

ポイントは、ただ扱える文章量を増やすだけでなく、長く入り組んだコーディング作業の中でも品質が落ちにくいことです。コーディング性能も強化され、速度やコストに応じて思考のレベルを選べるようになりました。

実力は、長時間の開発コーディングタスクを測るFrontierSWEというベンチマークでClaude Opus 4.8にあと1%まで迫り、GPT-5.5やOpus 4.7を上回りました。

GLM-5.2
Z.ai
Project | GitHub | Blog

テキストや画像から動き回れるゲーム世界を創るAI「DreamX-World 1.0」

「DreamX-World 1.0」は、テキストや画像からインタラクティブな動画の世界を作り出すAIモデルです。実写やゲームなど多様な映像スタイルに対応しており、生成された世界の中を、プレイヤーのように自由にカメラを動かして探索できます。

カメラ制御の計算を効率化して推論遅延を約30%削減したほか、一度通り過ぎた場所に再び戻った際に元の景色を再現する記憶機能も備えています。さらに、テキストで指示するだけで、複数のキャラクター同士や動く物体が関わり合う複雑なイベントを発生させることも可能です。

長時間の動画生成でも映像の崩れを防ぐ工夫が施されており、8基のRTX 5090 GPUを使用した場合、最大16 FPSという滑らかなリアルタイム生成を実現しました。

DreamX-World 1.0: A General-Purpose Interactive World Model
DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
Project | Paper | GitHub | Hugging Face

1Bパラメータで巨大モデルを一部上回るという新たな世界モデル「Looped World Models」

世界モデルとは、AIが次に何が起こるかを予測・シミュレーションするための仕組みです。例えば、ロボットが「この手を伸ばしたら、コップはこう動く」と内部で先読みするようなものです。ゲームやロボット制御、自動運転などで使われます。

従来の世界モデルは、長期的な予測精度を維持するためにモデルを深く大規模にする必要があり、計算コストの増加や予測誤差の蓄積が課題となっていました。

この課題に対し、「Looped World Models」(LoopWM)ではパラメータを共有するTransformerブロックを反復的に適用するループ構造を新たに提案しています。これにより、従来手法と比較して最大100倍のパラメータ効率を達成しました。

性能評価において、LoopWMは約1Bパラメータという小規模なモデルでありながら、ScienceWorldベンチマークではClaude(claude-opus-4-6-max)のより大規模なモデルを上回る性能を示しました。別のベンチマークであるAlfWorldでも多くの採点項目でClaudeと同等以上の結果を出したが、完全一致での採点ではClaudeにわずかに及びませんでした。

論文の最後に意図的に開示範囲を限定していると述べています。

Looped World Models
Hongyuan Adam Lu, Z.L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
Paper

VRAM4.5GBで動く、コーディング特化のローカルAI「Gemma4-12B-Coder」

「Gemma4-12B-Coder」(GGUF)は、Googleの「Gemma 4 12B」をベースに、yuxinlu1さんが作成したコーディング特化のファインチューンモデルです。約4.5GBのメモリ(VRAM)の空きがあれば、自分のPC上でローカルに動かせるといいます。

いきなりコードを書き出すのではなく、アプローチや処理の複雑さなどを自分でChain-of-Thoughtしてから解決策を提示する点が特徴です。学習データには、実際にテストをクリアしたコードと、その思考手順だけが使われています。

工夫として、主たる教師モデル(Composer 2.5)が解けなかった問題は、別のモデル(Fable 5)に正しい思考手順を一から再構築させ、テストをパスしたものだけを学習データに加えています。これにより、教師モデルが取りこぼした難しいケースも補えるようになっています。

一度に読み込める文章量(コンテキスト長)は256K。お使いのPCの性能に合わせて、約4.5GBの軽量版から約11.8GBのほぼフル精度版まで、複数のサイズが用意されています。

Gemma4-12B-Coder
yuxinlu1
Hugging Face


《山下(Seamless)》

Amazon売れ筋ランキング

山下(Seamless)

2014年から幅広い分野の研究論文をピックアップして解説しているメディア「Seamless」(シームレス)を個人運営しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。