Google、新AIモデル「Gemini」発表。動画もネイティブに理解するマルチモーダル、Pixel 8 Proにも導入へ

テクノロジー AI
Munenori Taniguchi

Munenori Taniguchi

ウェブライター

  • X

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他

特集

Google

日本時間12月7日、Googleは新開発のAIモデル「Gemini」を発表しました。モバイル機器からデータセンターまで、あらゆる用途に対応すべく、Gemini Ultra、Gemini Pro、Gemini Nanoの3種類を用意します。

Geminiは5月に開催されたGoogle I/O 2023で開発中であることがアナウンスされていました。この新AIモデルは、まずは開発者および企業顧客が独自のアプリケーションで使用できるよう、12月13日よりGoogle Cloud経由でのライセンス供与を行う予定になっています。顧客はGoogle AI StudioまたはGoogle Cloud Vertex AIのGemini APIを使用してGemini Proにアクセス可能になるとのこと。

またGoogle Bardは、今回の発表時点ですでに世界170カ国でGeminiが導入され、OpenAIのChatGPTや、GPT-3.5を使用する他のAIボットに勝るとも劣らない実力を備えるようになったとのこと(対GPT-4の発言はなし)。現在は英語のみですが、Googleは「近い将来」より多言語に対応していくと述べています。

Googleのスンダー・ピチャイCEOは発表において、GeminiはこれまでのGoogle Bardで可能であったほぼすべての部分において、全体的に大きな改善をもたらすものだと述べ「人々は製品がずっと良くなったことに気づくだろ」と説明しました。

また、Geminiのモバイルデバイス向けバージョンであるGemini Nanoは、Android端末上でネイティブかつオフラインで実行可能になります。まずはPixel 8 Proでいくつかの機能が利用可能になる予定で、その後他のAndroidデバイスにも対応を拡大していく予定です。ちなみにいくつかの機能とは「レコーダー」アプリにおける自動要約機能と、Gboard キーボードのスマートリプライ機能とされています。


なお、Googleは来年、Geminiのなかでも最も強力なGemini Ultraを搭載した「Bard Advanced」のプレビューを開始する予定だとしました。Bard Advancedではテキストだけでなく、画像、オーディオ、ビデオを入力として受付け、目的とする出力を行うことができます。

Google DeepMindの責任者であるデミス・ハサビス氏は、テキストだけでなく、マルチモーダルなインタラクションこそがGeminiの真価だと述べ、Geminiを「最初からネイティブにマルチモーダルになるように構築した」と述べました。

デモンストレーションでは子どもの算数の宿題を写真にしてBardに入力し、問題に対して回答のどこが間違っているのかを教える手助けになるような利用方法を紹介しています。

Geminiに手書きの絵や様々な物体を見せ、自然な会話で解釈や推論、提案を尋ねるデモ




《Munenori Taniguchi》
Munenori Taniguchi

Munenori Taniguchi

ウェブライター

  • X

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他

特集

BECOME A MEMBER

テクノエッジ友の会に登録しませんか?

今週の記事をまとめてチェックできるニュースレターを配信中。会員限定の独自コンテンツのほか、イベント案内なども優先的にお届けします。