「猫は人生のほとんどを寝て過ごす」などの猫文をプロンプトに混ぜるとAIが混乱する「CatAttack」脆弱性など、生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第107回)は、猫文をプロンプトに混ぜるとAIが混乱して数学の問題を大幅に間違える脆弱性「CatAttack」や、テキストや画像からプレイできる360度な3Dゲームワールドを生成できるAI「HunyuanWorld 1.0」を取り上げます。

また、Microsoftが20万件の会話データを分析して生成AIが職業に与える影響を調査した最新の研究や、Googleが開発した地球を詳細に地図化するAI「AlphaEarth Foundations」をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するオープンソースモデル「Hierarchical Reasoning Model」(HRM)を別の単体記事で取り上げています。



テキストや画像からプレイ可能な360度の3Dゲームワールドを生成できるAI「HunyuanWorld 1.0」をTencentが開発

Tencentが開発した「HunyuanWorld 1.0」は、テキストや画像からプレイ可能な360度の3D世界を生成するフレームワークです。探索可能でインタラクティブなバーチャル世界を作り出します。

まず、入力されたテキストや画像から360度パノラマ画像を生成します。これには「Panorama-DiT」という拡散トランスフォーマーモデルを使用し、球面投影による歪みや境界の不連続性を処理します。

次に、生成されたパノラマを意味的にレイヤー分解します。視覚言語モデルがシーン内のオブジェクトを認識し、前景オブジェクト、背景、空というレイヤーに自動的に分離します。各レイヤーは個別に深度推定され、オクルージョン(隠れた部分)は画像補完技術で埋められます。

最後に、各レイヤーを3Dメッシュに変換します。深度情報を使用して2D画像を3D形状に変形させ、レイヤー間の深度を整合させて統一された3D世界を構築します。

さらに「Voyager」という拡張機能により、初期視点から離れた場所も探索できます。これは生成済みの3D情報をキャッシュし、新しい視点の生成時に参照することで、空間的な一貫性を保ちながら世界を拡張していく仕組みです。

評価実験では、既存の最先端手法と比較して、生成品質と入力との整合性の両面で優れた性能を示しました。

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels
HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
Project | Paper | GitHub

Microsoftが20万件の会話データを分析し、生成AIが職業に与える影響を調査

マイクロソフトの研究チームが、Microsoft Bing Copilotの20万件の会話データを分析し、生成AIが職業に与える影響を調査しました。

研究では、会話を「ユーザーゴール」(利用者がAIに求める支援)と「AIアクション」(AIが実行する作業)に分類して分析しています。最も一般的なユーザーゴールは情報収集と文章作成で、AIは主に情報提供や助言などのサービス的役割を担っていることが判明しました。

各職業のAI適用可能性スコアを算出した結果、通訳・翻訳者、作家、カスタマーサービス担当者などの知識労働や対人コミュニケーションを主とする職業が上位にランクインしました。一方、看護助手や建設作業員など、身体的作業を伴う職業はスコアが低くなっています。

興味深いことに、AI適用可能性と賃金の相関は0.07と極めて低く、高賃金職業が必ずしもAIの影響を強く受けるわけではないことが示されました。教育要件についても、学士号を必要とする職業でやや高いスコアが見られた程度です。

Working with AI: Measuring the Occupational Implications of Generative AI
Kiran Tomlinson, Sonia Jaffe, Will Wang, Scott Counts, Siddharth Suri
Paper

地球を詳細に地図化するAI「AlphaEarth Foundations」をGoogle DeepMindが開発

Google DeepMindが開発した地球観測AI「AlphaEarth Foundations」は、衛星データから高精度な地図を作成する手法です。このシステムは、限られた地上観測データから、農業や森林管理、災害対応に必要な詳細な地図を効率的に生成できます。

特徴は、光学衛星画像、レーダーデータ、LiDAR、気候データなど、多様な衛星データを統合的に処理できることです。従来の手法では個別に扱われていたこれらのデータを組み合わせることで、地表の複雑な特性をより正確に把握できるようになりました。

性能評価では、既存手法と比較して平均約23.9%の誤差削減を達成しました。訓練データが極めて少ない状況でも優れた性能を発揮しました。例えば、各カテゴリーにつき10サンプルしかない場合でも、作物の種類を高精度で識別できます。

このシステムは10メートルという高い空間解像度で全球をカバーし、時間的な変化も連続的にモデル化できます。2017年から2024年までの年次データがGoogle Earth Engineを通じて利用可能で、データは64バイトという非常にコンパクトな形式で提供されます。

AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, William J. Rucklidge, Masha Samsikova, Chenhui Zhang, Evan Shelhamer, Estefania Lahera, Olivia Wiles, Simon Ilyushchenko, Noel Gorelick, Lihui Lydia Zhang, Sophia Alj, Emily Schechter, Sean Askay, Oliver Guinan, Rebecca Moore, Alexis Boukouvalas, Pushmeet Kohli
Paper | Blog

「猫は人生のほとんどを寝て過ごす」などの猫文をプロンプトに混ぜるとAIが混乱。数学の正解率が大幅に低下する脆弱性「CatAttack」

研究者たちは、数学の問題の末尾に「興味深い事実:猫は人生のほとんどを寝て過ごす」といった、問題とは全く無関係な一文(トリガー)を付け加えるだけで、AIが誤った答えを導き出す確率が劇的に高まることを発見しました。

この手法は「CatAttack」と名付けられています。

実験では、このような無関係なトリガーを追加することで、あるモデルでは不正解を出す確率が300%以上も増加しました。

また、この脆弱性は特定のAIモデルに限った話ではありません。DeepSeekで発見されたトリガーは、Qwen、Llama、Mistralといった他の主要なAIモデルにも転用でき、推論モデルではエラー率が最大500%、一般的な指示チューニングモデルでは最大700%も増加するという結果になりました。

さらに、この攻撃はAIを間違えさせるだけでなく、応答が不必要に長くなる現象も引き起こしました。AIは無関係な情報と問題を結びつけようと過度に思考を巡らせてしまい、結果として計算時間やコストの増大につながる可能性があります。

Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models
Meghana Rajeev, Rajkumar Ramamurthy, Prapti Trivedi, Vikas Yadav, Oluwanifemi Bamgbose, Sathwik Tejaswi Madhusudan, James Zou, Nazneen Rajani
Paper


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。