『Vision Pro』の発表からAppleのモノづくり戦略を読み解く(インターフェイス編) 歴代製品に共通する“掛け算のうまさ”

 『WWDC 2023』で発表されたAppleの新たなプロダクト『Apple Vision Pro』(以下、『Vision Pro』。AR・VRいずれの領域にもまたがったウェアラブルデバイスで、基調講演では魅力がたっぷりと語られた。このプレゼンテーションを見ていると、『Vison Pro』に採用された様々な機構が、過去のAppleのプロダクトを発展させたモノであることがわかる。Appleは自社の技術を開示しないクローズドな企業だが、過去に発表されたプロダクトの採用テクノロジーが、新たな製品の進化にフィードバックされることが多々あり、こうしたテクノロジーの仕組みと進化をたどることで、同社のねらいが見えてくる。いくつかの例をあげながら、「Appleのモノづくり」に迫ってみよう。

多様なインターフェース(操作系)の始祖は『iPhone』と『Apple Watch』

 Vision Proには「コントローラー」のようなデバイスは存在せず、インターフェースとしては声・手のジェスチャー・瞳の動きが用いられるようだ。こうした身体の動きを検知するテクノロジーが主にiPhone・Apple Watchの上で進化し続けてきたことは周知のとおり。長きにわたりアップデートしてきたさまざまなテクノロジーについて振り返ることで、Vision Proがこれらの機能をどのように実装しているのか予測できるはずだ。

音声認識(Siri)

 2011年、『iPhone 4S(iOS 5)』に組み込まれたバーチャルアシスタント「Siri」は声によってiPhoneをコントロールできる機能であり、能力の高さやAIの柔軟なコミュニケーションが話題になった。振り返れば、近年も目覚ましい発展を続けるAIと一般のユーザーが出会った大きな事件であったといえる。

出典:https://www.youtube.com/watch?v=hSJqPul24DI

 2014年には呼びかけるだけで起動する「Hey Siri」機能を搭載。2016年には開発者にAPIが公開され、macOS Sierraへの対応も発表された。Siriの技術が、Vision Proのインターフェースに活用されていることは間違いないだろう。特に「Hey Siri」機能の詳細を見ていくと、この機能の実装はVision Proのインターフェースにも影響を与えている可能性が高い。

 「Hey Siri」という機能は簡単で、ユーザーがiPhoneに「Hey Siri」と呼びかけることでSiriが起動するというもの。キッチンに立っていたり、手が離せないような状況でもiPhoneに指示を与えられる便利な機能だ。ちなみにこの「フレーズに反応してオンになる」という仕組みを実現するために、「機械学習を用いた音声認識」が採用されている。

「Hey Siri」機能は、ハンズフリーでSiriを呼び出すことができる機能です。非常に小さな音声認識システムが常時作動していて、この2つの単語だけを聞き取ります。 「Hey Siri」の検知には、ディープニューラルネットワーク(DNN)が使われており、各瞬間の声の音響パターンを音声の確率分布に変換しています。このスコアが十分に高ければ、Siriが目を覚ますのです。

引用元(著者訳):https://machinelearning.apple.com/research/hey-siri

 また、「Hey Siri」はユーザーに向けてパーソナライズされる。つまり「話者がユーザー本人であるかどうか」を把握できるのだ。「世界各国の言語を認識し、応答する」「ハンズフリーで指示を与える」「使用者がユーザー本人であることを認識する」といった「声でデバイスを制御すること」の基幹技術にSiriのテクノロジーが活かされていることは間違いないだろう。

出典:https://www.youtube.com/watch?v=GYkq9Rgoj8E

関連記事