Googleは、同社のAIモデル「Gemini 3.5 Flash」に、コンピューターの画面を認識して操作を実行する「コンピューター使用(computer use)」機能を組み込みツールとして統合したと発表しました。
これまで同機能は「Gemini 2.5 Computer Use」が独立したモデルとしてのみ提供されていました。Gemini 3.5 Flashに組み込まれたことで、開発者は3.5 Flashを使用して、ブラウザ、モバイル、デスクトップ環境全体で認識、推論、アクションを実行できるカスタムエージェントを確実に構築できるようになります。また開発者や企業は、Gemini APIおよびGemini Enterprise Agent Platformを通じて、今すぐ利用を開始できます。
AIが「自分でパソコンを操作する」時代が、より身近になってきました。これまでAIは質問に答えたり文章を生成したりするのが主な役割でしたが、今回の統合によってGemini 3.5 Flashは画面を「見て」「考えて」「クリックや入力などの操作を実行する」ことが一つのモデルで完結できるようになります。企業にとっては、ソフトウェアの継続的なテストや、複数の業務アプリをまたいだ知識作業の自動化といった、長時間・複雑な業務フローの自動化に活用できる可能性があるとGoogleは説明しています。

プロンプトインジェクション対策を多層的に実装
Googleによれば、実際の環境で動作するエージェントが悪意ある外部入力(プロンプトインジェクション)によって意図しない操作を行うリスクを軽減するため、Gemini 3.5 Flashのコンピューター使用機能には標的型の敵対的トレーニングが施されているとしています。
あわせて、企業向けのオプション安全機能として以下の2種類が提供されます。
・機密性の高い操作や取り消し不可能な操作に対して、ユーザーの明示的な確認を必須とする機能
・間接的なプロンプトインジェクションが検知された場合にタスクを自動停止する機能
Googleはこれらを「多層防御(defense-in-depth)」アプローチの一環と位置づけており、安全なサンドボックス環境の利用、人間による確認ステップの組み込み、厳格なアクセス制御との組み合わせを開発者に推奨しています。詳細はベストプラクティスドキュメントで公開されています。
活用例:アクセシビリティ監査やアプリ機能分析
Googleが示したデモでは、Gemini 3.5 Flashがコンピューター使用機能を活用してGeminiアプリを分析し、機能のカテゴリ別リストを返す例や、自社ドキュメントのアクセシビリティ問題を自動監査する例が紹介されています。
Googleは開発者向けに、Browserbaseがホストするデモ環境での即時テスト、Gemini APIおよびGemini Enterprise Agent Platformを通じたリファレンス実装とドキュメントへのアクセスを提供しています。価格や具体的なプランの詳細については、各プラットフォームの公式情報を参照する必要があります。








