RokidスマートAIグラス レビュー 先行販売まもなく終了、「全部できる」スマートグラスをMeta・Evenと比較

ガジェット ウェアラブル
Ittousai

Tech Journalist. Editor at large @TechnoEdgeJP テクノエッジ主筆 / ファウンダー / 火元

特集

Rokidの「RokidスマートAIグラス」、Makuakeでの先行販売がまもなく終了します。

RokidスマートAIグラス(Rokidグラス)は、単色の両眼ディスプレイで視界に文字や画像を表示できるタイプのスマートグラス。AIの眼と耳になるカメラとマイク、声になるオープンイヤースピーカーも搭載します。

できることは、GPT / Geminiベースの独自AIと会話したり、外国語の対訳を表示する、ボイスレコーダーとして議事録を作成、カメラで見ているものを動画・写真撮影・AIに訊くメニューや看板を翻訳させる、音声と地図でナビゲーション、原稿やメモを表示するテレプロンプター、スマホの通知表示や音楽再生など。

日本でも「スマートグラス」と呼ばれる商品は毎週のように発売されており、世界でもっとも売れているMetaの Ray-Ban MetaやOakley Meta もついに国内発売を迎えましたが、Rokidグラスは現時点で他にない有利な点があり、選択肢として外せない製品です。Rokidからお借りした一般発売前サンプルを試用した印象をお伝えします。

オフライン翻訳&見て聞くだけで 字幕×音声 解説|Rokid スマートAIグラス


■ ディスプレイ・カメラ・スピーカーの「全部入り」、販売実績も強み

Rokidグラスの利点について、現在の市場環境も含めて挙げれば、

・ディスプレイとカメラ、スピーカーを搭載する「全部入り」
・標準でGeminiとChatGPTをユーザーが選択でき、複数の翻訳エンジンなどAI機能の選択肢
・日本国内でアクセサリを含め正式に販売しており、サポートも提供する

さらに
・開発者向け情報提供に積極的で、アプリの開発や追加が比較的容易
・日本以外の市場でもすでに販売実績がありユーザー数が多く、エコシステムが確立

といった点も、ハードウェア・ソフトウェア仕様を超えて強い点です。

■ メタ・Evenと比較

画面がないオーディオグラス型も含めれば、いわゆるAIグラス、スマートグラス製品は多数のメーカーが競って販売するようになりました。

日本で正式に購入できるメジャーな製品としては、今月から買えるようになったメタのRay-Ban Meta / Oakley Meta AIグラスや、両眼ディスプレイと長時間駆動が魅力の Even Realities G2があります。

それぞれの魅力や立ち位置を整理すると、

▲ Ray-Ban Meta / Oakely Meta

ディスプレイなし・カメラあり・スピーカーあり・操作は音声と本体タッチ

国内で販売中のレイバンメタ・オークリーメタは、ディスプレイを備えないオーディオグラスタイプ。Instagramのメタらしく、カメラ機能とMeta AIを前面に訴求します。

レイバンやオークリーの定番サングラスそのもののデザインや素材で、スタイルとレンズの選択肢が豊富。

InstagramやFacebook、メッセンジャーなど自社サービスとの連携に加えて、Apple Music / Amazon Music / Spotify、Google / Outlookカレンダー、Appleヘルスケア、Garminなど他社アプリとの連携にも対応。日本発売にあたりLINE対応も予告済み。

米国で2023年に発売以来、1000万本近くを販売してアップデートを重ねており、ウェアラブルを念頭に独自のAIモデルを開発するなど、メタが全社的なAI戦略の要にする製品。

▲ Even G2

ディスプレイあり(単色両眼)・カメラなし・スピーカーなし・操作は音声と本体タッチに加えオプションのリング

中国のスタートアップEven Realiiesが販売するEven G2は、読みやすい両眼ディスプレイを搭載しつつ、カメラは非搭載。プライバシー懸念を周囲に与えることなく、常に着けやすい。

他社ではメガネのツル部分に収めるオープンイヤースピーカーもないため、細い金属フレームで「普通のメガネにしか見えない」洗練されたスタイル。

多機能よりもディスプレイ表示を主とした実用性重視の設計から、一日使える長時間駆動、オプションのリング Even R1によるサイレント操作にも対応。

低消費電力重視の独自プラットフォームながら、コンソールモードなど開発者向けの機能開発に積極的。プラグイン的に簡易な独自アプリを追加しやすい仕組みがある。

▲設計思想と立ち位置の違い

Meta、Evenいずれも魅力的な人気商品ですが、同じ「スマートグラス」と呼ばれていても設計思想は異なり、基本的な「できること」が大きく違います。

たとえばメタはディスプレイがなく、届いた通知を一覧したり、1週間分の天気予報をサッと見る等は不可。音声のリアルタイム通訳はできるものの(国内では今後対応)、相手の言葉を字幕として見ることはできません。カメラとソーシャルメディア連携は大きな魅力ですが、プレビューがないため超広角の画角とレンズの位置(左目の左側)に慣れが必要など。

Even G2はディスプレイグラスとして「ユーザーをアシストする情報の表示」に特化した引き算の設計。リング操作も含めて、視界に重なる情報ディスプレイとして有能ですが、カメラつきタイプのように見せて翻訳させたりメモしたり、計算させる等は不可。

単なるハンズフリーカメラとして主観の写真や動画を撮ってシェアすることも、AIの読み上げや音楽を聴くこともできません。(イヤホンとは両立するため、音楽アプリのディスプレイにすることはできます)

■ 視認性が高く広視野角の単色ディスプレイ、カメラのプレビューも

対するRokidグラスは「ディスプレイあり・カメラあり・スピーカーあり」で、上記のようなユースケースにすべて対応します。この、現時点でのスマートグラスの主要用途を一本で網羅する点がまず大きな魅力です。

ディスプレイはグリーン単色。比較的視野角が広く、両眼式であることも手伝って明るく、テキストの視認性は優れています。

▲画像:レンズ越しにスマホで撮影。肉眼ではもっとくっきりと明るく見える。

Rokidに限らず、グラス型のディスプレイは表示が広くなるほど「人によって変わるメガネとしてのフィット、掛け方」と「ディスプレイ光学系として最適なレンズと眼球の相対位置」の関係が難しくなり、ユーザーインターフェースを視界の端にさりげなく配置すると本当に見切れたり、メガネがずれて視界から外れるといった問題が発生しがちです。

▲画像:キャプチャ機能で表示とカメラ画像を合成撮影。肉眼ではこれくらいはっきり読める。

Rokidグラスはウェーブガイド式レンズの範囲で表示領域を上下に広く調整できるため、人により違うメガネと目の距離などに応じて、見やすい位置を選べるのが優秀です。

輝度は最大1500ニトと明るく、夜間などは高輝度で正面表示すると視界を妨げて危険を感じるほど(歩き読みは止めましょう)。

■ 低遅延の89か国語翻訳、ローカル含め複数モデルを選択

MetaやGoogleと異なり、Rokidは自社でAIモデルを開発するわけではないものの、それがAI機能で自社囲い込みの動機がない、ある程度オープンな設計につながっています。

たとえば「Hi Rokid」のウェイクワードで呼べる「Rokid AI」は、グラスとの音声会話に最適化した独自の汎用AIですが、「中身」のロジック部分については会話と画像理解のそれぞれについて、ユーザーがGPT-5またはGeminiモデルを選択できる仕組みです。

翻訳機能についても、マイクロソフトなど複数のプロバイダから翻訳エンジンを選択でき、インターネット接続不要のローカルモデルも利用できます。

実際に使用してみると、言語の自動検出と対訳表示が特に便利。

スマホアプリを覗き込むことなく、対面の相手やプレゼンテーションを見たまま確認できるリアルタイム翻訳や通訳はスマートグラスの大きな魅力ですが、機種によってはグラス側のメニューを辿って対象言語を選んだり、スマートフォンを取り出さないと設定できないこともあり、とっさの対応や切り替えに手間取ることがあります。

「自動検出」がある翻訳エンジンを選べるのはRokidだけではありませんが、複数言語の話者が交代するような場合、とりあえず設定しておく場合には威力を発揮します。

(周囲で同時に複数言語が話されるような場合は対応が難しく、また言語の検出もある程度の長さとクリアに聞こえることが前提なので、分かっていれば事前に選択しておくほうが精度は上がりますが)

原語と翻訳先を両方視界に表示する対訳表示も、表示領域の広さと読みやすさが活きる機能。

ある程度は聞き取れる言葉なので機械翻訳よりもニュアンスは掴める、でも知らない単語や自信のない言い回しがたまにある、といった場合、認識精度に限界がある翻訳に頼らず、必要に応じて確認できるのは便利です。

対訳のままアプリ側にテキストで履歴が残り、エクスポートもできるため、文字起こしと翻訳がセットになった簡易的なボイスレコーダーとしても活用できます。

似たような機能には「会議メモ」があり、こちらは音声そのものを録音して、後からアプリ側でAI文字起こしや要約、音声とテキストのエクスポートができる機能。

AIの翻訳や要約は一時期に比べれば優秀になりましたが、マイクを通じた認識の段階では各社ともまだまだ課題があるため、あとで人間なり別のAIに聞かせる用途ではこちらのほうが役立ちます。

■ AIアシスタントは驚きの生々しさ。ややポンコツなダウナー系AIお姉さんボイス

AIアシスタントは声や本体タッチで呼ぶことができ、翻訳や音声メモなど機能の起動や、一般的な質問や会話、「これは何?」で眼の前のものをカメラ撮影して説明といったことができます。

AIモデルとしてChatGPTやGeminiを選べるものの、フロントエンドとしてはスマートグラスとしての応対や機能の呼び出し等に対応した「Rokid AI」と会話するかたちです。

使ってやや動揺したのは、このRokid AIの既定(かつ現時点で唯一)の音声が、非常に生々しい女性の発音なこと。

音声モデルの違いといえばそれまでですが、一般的なAIアプリの会話モードで使われるTTSエンジンがどちらかといえばアナウンサーや同時通訳者のような、滑らかではあってもあくまでAIアシスタントとしての落ち着きと明朗さを優先した、いわばSiri や Alexa的な呼びかけ口調であることが多いのに対して、Rokid AIの日本語音声はこう、なんとも言い難い、「あまり作っていない声で朗読してください」でトレーニングしたような、全体的には日本語として非常に自然ながら妙な生々しさのある、「ダウナー系お姉さん」的なボイスです。

AIとの会話自体は、一般的な質問の範囲ならば十分に賢く、またAIグラスのなかでは回答の長さをやや長めに調整しており、ひとつの話題について更問いして詳しく展開するような問答もできます。

■ 写真・動画撮影は「視界の記録」 超広角に慣れれば便利

「カメラあり」で期待される「AIに見せて質問」「写真・動画の撮影」はどちらも及第点。

12Mピクセルでセンサーも小さいため、最近のスマホの強力なカメラとはさすがにモノが違い、解像度や暗所での撮影などはひと昔前のスマホカメラ画質になる限界があり、スマホカメラの置き換えを想像すると落胆します。

一方で、両手が塞がっていても見たものをそのまま撮れる、手に構えて覗き込む必要がない顔マウントカメラとしての利便性は代えがたい魅力。

「撮影したいと思うような対象なら、スマホを取り出す手間を惜しむより高画質を選ぶ」という意見はもっともですが、ケース・バイ・ケースで選べば良く、カメラグラスを掛けたらスマホが取り出せなくなるわけではありません。

同様の反応は携帯電話にカメラがついた時点でもあり、せっかくの被写体を低画質で撮るのはもったいない、カメラはずっと優れたものがあるのだから無駄な機能という意見もありましたが、手軽な撮影手段で写真を撮るシチュエーション自体が広がったのは歴史が教えるところ。

掲示物をさっとメモ代わりに撮りたい、明るい場所の状況や雰囲気の記録など、メガネのカメラでも十分に用が足りる状況は多々あり、AIにそのまま渡してテキストで内容を記録できるのはシンプルに便利です。

スマホ撮影のようにズームや正確な画角決定こそできないものの、スマホ転送を待たなくても、撮影直後に単色でプレビューを表示して、イメージどおりの構図になっていたかはすぐ確認できます。

なにより、料理など両手を使った作業や「ハンズオン」を気軽に残したり、子どもと遊ぶ様子など、撮影役として一歩引くことなく自分がその場で体験した主観動画を記録できるのは、カメラつきグラスならではの強みです。

■ 好みの分かれるスタイルと「光る眼」問題。視力補正は磁石式レンズ対応で容易

顔面に装着するファッションアイテムでもあり、人の個性を表現するメガネとしてのスタイルについて。

Rokidグラスはあからさまにテックギア!顔面コンピュータ!という外観でもなく、一般的なサングラスと比較して極端に重くもないものの(約49g)、ツルやフレームにはある程度の厚みがあり、ウェーブガイド式のレンズもやや目立ちます。

こればかりは写真を確認したり、自身で試着してどこまで許容できるか、好みかそうでないかの問題ですが、XREALやVITUREなどのビデオグラスとは比較にならないほど軽く目立たず、カラーディスプレイのため独特の厚いレンズを採用したMeta Ray-Ban Display(国内未発売)よりはすっきり軽く常時着用のメガネ寄り、かといって金属フレームの細いメガネと比較すれば太く、いかにも樹脂製のサングラス、といった程度でしょうか。

外観については、素材やスタイルそのものより、ツルの目立つ部分に非常に目立つRokidロゴがあること(ご丁寧に左右両側)、レンズの外側の反射が強く、ディスプレイの表示が目立ちやすい点がやや気になりました。

ロゴについては、MacBook背面のリンゴを大多数の人は気にしなかったり、特にアーリーアドプター向けガジェットの場合、気に入った製品の企業ロゴを身に着けることで自分を表現したいファン的なユーザーにはむしろ嬉しい可能性もあります。

レンズの問題は、コーティングで反射が強く、ほぼ平面なのでそのまま映り込むことがひとつ。ミラーグラスというほどでもありませんが、たとえば高画質のカメラでオンライン会議すると、背景はバーチャルで隠せてもレンズの映り込みでデスクが映り込みます。

それ以上に気になるのは、レンズに光を通して眼に届けるウェーブガイドの仕組みと品質から、外側への光の漏れが多く、使用中は対面の相手から眼が緑に光って見えること。

よほど近くで覗き込んだり、高画質のカメラでピントを合わせないかぎり左右反転の文字自体は読み取れませんが、なにか表示していること、読んでいることは歴然と分かります。

Rokidもこれは認識しており、プライバシーを重視して表示の位置を変えて面積を小さく、輝度を落とすモードも用意しています。

とはいえ、ステージの演者が妙に上や下を見てプロンプターを読んでいてもスルーされる現状はあり、いずれスマートグラスが当たり前になれば、場によっては相手の言葉を逃さず拝聴していることの現れと受け取られるかもしれません。

少なくとも、メガネ型のディスプレイだから自分にしか見えない、対面の相手に気づかれないように資料を読もう、といった使い方は難しいとはいえます。

視力補正用のレンズは、マグネットで手前側に貼り付ける簡易な仕組み。ウェーブガイド式のディスプレイはレンズ自体に光を導く経路が刻まれているため、度付きにする場合は工場で特殊なレンズから製造する製品もあり、高価だったりメガネ自体の納期が遅くなることもよくありますが、Rokidグラスは後からクリップオン式のレンズを取り付けできます。

■ TTSは苦笑する読み上げも。聞き取りや会話のライブ感も課題

スマートグラス以外のRokid製品、たとえばビデオグラスのRokid Maxや、ヘッドレスなAndroid TV端末Rokid Stationなどを愛用しておおむね高く評価してきた経験からしても、Rokidグラスは意外なほどの意欲作。海外市場ですでに好調なこと、マクアケでの先行販売も記録的な数字になっていることにも納得感があります。

とはいえ粗削りな点、ローカライズが完全ではない点、ハードウェア的に無理をして詰め込んだと思われる点は多々あります。一例を挙げれば、

・Rokid AIの会話、特に読み上げの弱さ。発音自体は不気味なほど自然である一方、漢字や数字の奇妙な読み方、文脈無視がたまに挟まって虚を衝かれます。

たとえば「喉が渇いて」(カツいて)、「夜空にきれいな月が」(ガツが)など。文脈で分かるものはともかく、「約140分」(ツマじゅうよんゼロぶ)などは耳だけで聞いても混乱します。

これはおそらくテキストで受け取った回答を読み上げるTTSエンジンの弱さで、原理的には更新での改善も十分に期待できます。一方、あくまでターン式のテキスト会話を音声に変換していることから、回答には一定の待ち時間があり、割り込んで訂正にすぐ反応などは不可。

現時点では、ChatGPTやGeminiなどのライブ会話専用モードのように自然な会話ができるわけではありません。

会話についてはもうひとつ、Rokid AI固有ではなく他社とも共通の課題ではありますが、日本語の聞き取りにはまだ改善の余地があります。はっきり発音して、音としては完全に伝わっていても、同音異義語や区切りを間違えた語に認識されてしまい、しかもAIモデル側は音とテキストの関係を意識していない(変換後のテキストを渡されている)ために、言葉を尽くして訂正しても理解されず諦めることも。

・バッテリーの弱さ。ウェイクワード無効化で改善

「全部入り」で多機能である反面、バッテリー駆動時間は弱点。公称では「通常使用」で8から10時間、音楽再生で6時間、Bluetooth通話で4時間とされていますが、何もしていないときでも「ハイRokid」を常時聞き取りしていることもあり、いつの間にか減っていることが少なくありません。

カメラがないグラスでは動画も写真も撮りようがないため撮影でバッテリーは減らない、スピーカーがない製品では音楽再生に使わないという当たり前の話ではありますが、多機能で使い道が多いことも、相対的にバッテリーの減りが速い印象に拍車をかけています。

充電自体は容易で、マグネット式コネクタのUSB-C接続ケーブルをツルの先端につけるだけ。充電ケースもありますが、ケースなしのケーブルだけ持ち歩けば良いのは嬉しい点です。

節約法としては、音声操作を使わない場合、ウェイクワードの常時聞き取りを無効にすることで、スリープ時の消費を大幅に削減できます。

標準では指輪やリストバンドなどのコントローラがなく、ウェイクワードをオフにすると手動で音声聞き取りモードにするか、ツルのタッチ操作になってしまうため、操作性としては落ちますが、翻訳など特定の機能を決まったタイミングで使うだけなら、スマホアプリを簡易的なリモコンやシャッターボタンとして使うこともできます。

・外部コントローラも対応、アプリ開発はAndroidベース

Even G2のリングR1や、Meta Ray-Ban DisplayのリストバンドMeta Neural Bandの有用性から、スマートグラスの重要な要素になりつつある外部コントローラについて。

スマホアプリをリモコンとして使えるほか、標準では現時点で用意していないものの、Rokidは筋電リストバンドMudra Linkとのパートナーシップを発表するなど、OS側としては汎用のBluetoothコントローラに対応しています。

中身の YodaOS Sprite は Rokid独自のプラットフォームであるものの、Androidをベースとしており、グラス側で動く単体アプリ、スマホ側の連携アプリとも開発者向けSDKを公開済み。

いまのところ、サードパーティのアプリや一般ユーザーのプラグインをスマホアプリ側から探して使えるような仕組みにこそなっていないものの、開発環境や弄りがいについては期待できます。

これは「欲を言えば」のレベルですが、現時点で外部アプリやサービスとの連携は少なく、メガネはメガネで完結しがちな点もやや気になりました。会話や翻訳ログを活用するにはアプリから手動でエクスポートの必要があります。

AIについても、バックエンドとしてGPT-5やGeminiモデルは選べても、会話するのはあくまでRokid AI。アプリのChatGPTやGeminiと会話ログやメモリーが継続するわけではなく、頼めるのは基本的な質問やグラス本体機能の呼び出しのみです。

つまり Google が目指すように、エコシステム全体を貫く軸としてのAIとメガネで会話する世界観、AIが様々なサービスやアプリを能動的に使い、メガネで会話は指示と承認になる世界観には至っていません。こちらの方向性は、アプリ開発の柔軟性とあわせて今後に期待する部分です。

総評。すでに一定の実用性、GoogleでもMetaでもない立ち回りに期待

スマートグラス評価の前提として。MetaやEvenなど人気の製品、AIブームの徒花的なマイナー製品も含め、分野がまだ全体に発展途上で、UXのベストプラクティスも確立しておらず、モバイルOS連携含めエコシステムも限定的です。

またメガネ型にスマホ的機能を詰め込むハードウェアも、まだまだ形状やバッテリーのトレードオフを承知で無理を通す力技であることを忘れなければ、Rokidグラスの全体的な使用感は意外なほど良好

肝心の画面の視認性は高く、撮影や翻訳などの基本機能は、メガネで完結しがちではあるもののすでに実用的です。一方で、Rokid AIがたまに挟んでくる奇妙な日本語や、日本語の聞き取りの弱さなど、まだ発展途上の部分もあります。

あとはGoogleやMetaのように自前でAIモデルやプラットフォーム、広範なエコシステムを持っていないデバイスメーカーであるRokidがどこまでアップデートにやる気を見せるか、継続するかが大きく、現時点で確定したことは言えません。

しかし販売実績という意味ではすでに一定以上の成功を収めていること、試用中にも頻繁にアップデートがあり、機能の改善が続いていることは客観的な事実です。

良く言って没個性なスタイル+Rokidロゴが目立つ本体に抵抗がなければ、Metaに近いカメラ、日本語対応のAI、翻訳などの実用機能、プラスアルファとして今後の改善を楽しめる優れた選択肢です。

オフライン翻訳&見て聞くだけで 字幕×音声 解説|Rokid スマートAIグラス|マクアケ

リアルタイム翻訳メガネ|AI搭載スマートグラス


《Ittousai》

Amazon売れ筋ランキング

Ittousai

Tech Journalist. Editor at large @TechnoEdgeJP テクノエッジ主筆 / ファウンダー / 火元

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。