NANAのテック・アルテミス 仕事に役立つBizテック観測所(第14回)
スマホの「次」はメガネを通して見える世界? 『Rokid スマートAIグラス』が示す次世代のインターフェースと生活

米Rokid, Inc.とフューチャーモデル株式会社は都内で日本戦略発表会を開催し、AIグラスブランド「Rokid(ロキッド)」の最新モデル『Rokid スマートAIグラス』の国内投入を発表した。一般発売に先立ち、2026年2月26日より応援購入サービス「Makuake」での先行販売が実施された。
本製品はメガネ型のフレームを採用したAI・ARデバイス。わずか約49gという世界最軽量級の軽さで、リアルタイム翻訳やAIアシスタント、4Kカメラなどの機能を搭載する。装着者は、翻訳内容の表示や目的地までのARナビ、4Kでの映像撮影などを、グラスを通じて視界の中でシームレスに行うことができる。
同製品のコンセプトは、「スマホの次の進化したインターフェース」。つまり、スマートフォンの「次」の存在を目指した製品ということになる。
背景にあるのが、スマートフォンという存在の成熟だ。性能向上の幅は徐々に緩やかになり、進化はより高精細なカメラや高速なプロセッサといったスペック競争へと向かっている。
一方で、私たちのスマートフォンの使い方そのものは、この十数年で大きく変わっていない。ポケットから取り出し、画面を見つめ、指で操作するという前提は今も同じだ。
Rokidが提示するのは、GUI(グラフィカル・ユーザーインターフェース)中心の体験から、音声や視線を起点とするNUI(ナチュラル・ユーザーインターフェース)への移行。同社は本製品を、手と視線を画面から解放する新たなインターフェースとして位置づけ、その可能性を示す。
一本のフレームに集約されたAI体験

『Rokid スマートAIグラス』の外観は一般的なメガネに近いが、フレーム内部にカメラ、スピーカー、マイク、バッテリー、演算基盤を内蔵し、単体でAI処理まで行うことができる。イヤホン、レコーダー、カメラ、翻訳機といった役割を一本のフレームに集約し、日常の延長線上でAIを扱う設計だ。

レンズ内には高輝度のデュアルディスプレイを備え、情報を視界に重ねて表示する。12MPのSony製センサーにより、一人称視点での4K撮影にも対応。音響は指向性スピーカーによるオープンイヤー方式を採用し、音楽再生は周囲の音を遮らずに行える。内蔵マイクにより、ハンズフリー通話も可能だ。
本製品は、89言語対応のリアルタイム翻訳(※オンライン89言語、オフライン6言語)をはじめ、物体認識、会議の録音・文字起こし・要約、レンズ内に原稿を表示するテレプロンプター機能などを備える。

中でも便利なのが、物体認識機能だ。気になる対象に視線を向け、「Hi Rokid、これは何?」と問いかけるだけで、AIアシスタントがその場で解説を行う。情報を検索するのではなく、視界の中で呼び出す体験を目指す。
本体重量は約49g。約600gのApple Vision Proのようなヘッドセット型とは異なり、長時間かけ続けられる装着性を重視した。デバイスとして存在を主張するのではなく、日常に溶け込むことを前提とした設計思想が貫かれている。
スタンバイは約24時間、通常使用では約8時間のバッテリー性能を備え、度付きレンズにも対応する。
実機体験で見えた“視線を落とさない”操作感

会場で実機を体験して印象的だったのは、操作のための準備動作がほとんど必要ないことだった。
写真や動画は音声操作で撮影できる。スマートフォンを取り出し、構えるという一連の動作が不要で、視線の流れが途切れにくい。
装着したまま会場内を歩いてみると、スマートフォンを手に持つ場合に比べ、視線を落とす時間が明らかに短い。情報は視界の延長線上に現れるため、首を大きく傾ける必要がない。これまでの生活が“下を向く動作”を前提にしていたことに気づかされる。
周囲を見ながら、同時に情報へアクセスする。この同時性は、画面を注視する体験とは質が異なる。情報を取り出すというより、視界の中に自然に重なる感覚に近い。

こうした準備動作の少なさは、AI体験にも直結する。音声を中心にAIへアクセスし、翻訳や検索、ナビゲーションを行う。リアルタイム翻訳では相手の言葉が視界内に字幕として表示され、ARナビでは進行方向に矢印が重なる。いずれもスマートフォンで実現可能な機能だが、画面を注視しないという前提が体験の質を変える。
今回の発表会では、日本市場向けの体制も明らかにされた。ユーザーデータは日本国内サーバーで運用し、国内サポートも整備する方針だという。海外発デバイスに対する心理的ハードルを下げる狙いもあるだろう。

もっとも、「Rokid」のようなAI・ARグラスが普及してきたとしても、すぐにスマートフォンが不要になる社会が到来するとは考えにくい。バッテリー持続時間や装着感、常時カメラを備えるデバイスへの社会的受容など、検証すべき論点は多いからだ。音声中心の操作があらゆる場面で最適とも限らない。
それでも、進化の軸がスペック競争からインターフェースへ移りつつある兆しは確かにある。視線を落とす時間を減らせるか。情報へたどり着くまでの動作をどこまで短縮できるか。そうした問いに対するひとつの提案が、このデバイスだ。
情報をデバイス経由で探しにいくのではなく、見たままに問いかければ答えが返ってくる世界。その距離がさらに縮まるなら、インターフェースの主役は画面から視界と声へと移っていく可能性がある。























