『Google Pixel 4』最大の驚きは、優れた録音・文字起こし機能?

 Googleは、米国ニューヨークで10月15日(日本時間10月16日)に、新製品の発表イベント「Made by Google ’19」を開催し、主力のスマートフォン新機種「Pixel 4・Pixel 4 XL」を発表したが、その新機能の一つである文字起こしアプリの開発秘話が明らかになった。

録音や転写を端末内で完結させるのは利点あり、難易度の高い開発を間に合わせる

 『CNN』は「Google Pixel最大のサプライズは、転写アプリだ」と報じた(参考:https://edition.cnn.com/2019/10/16/tech/google-pixel-recorder-ai-transcribe-app/index.html)。

 ローンチイベントでGoogle Pixel4は主役の座を獲得したが、AIで強化された録音・転写アプリは、おそらく最大の驚きだった。

 レコーダーは、会議、音楽、講義などを記録するためのものだ。リアルタイムで認識して書き起こし、音楽や拍手などのノイズを識別できる。また録音から特定の単語を検索できる。

 レコーダーは、新しいPixelに内蔵されており、この最新のAndroidアプリの機能は、以前のPixelモデルにも展開される。

 かなりシンプルなアプリのように思えるかもしれないが、レコーダーのプロダクトマネージャーであるシェリー・リン氏は「携帯のバッテリーを消耗することなくスピーディな文字起こしを行うのは簡単ではない」と語っている。Googleは、通常リモートサーバーにある多くのAIをハンドセットに詰め込む方法を模索する必要があった。

 リン氏が「正直なところ、始めた時は、出荷できるか分からなかった」と語るように、録音アプリは数多あるが、通常、単に録音する以上のことは、インターネットに接続する必要がある。リン氏によると、レコーダーの全ての操作を端末内で完結させるメリットは2つあり、ハンドセットに音声や関連テキストが留まっている限り、ユーザーのプライバシーを保護できる。また、リモートサーバーと行き来せずに、スピーチをより迅速に書き起こすことも可能だという。

 このアプリはGoogleがユーザーの録音を聞くことはないという。リン氏によると、アプリはデフォルトで全ての録音と転写を携帯内に保存し、データは標準のAndroidデバイス暗号化の対象となる。Google DriveやGmail等のGoogleプロダクトにエクスポートしない限り、Googleはそのデータを見ることができないそうだ。

「巨大なAI内蔵によるバッテリー消耗」「Google Playには重すぎる」という課題を克服

 しかしアプリを携帯電話で使用できるようにするのは困難を極めた。その理由は、メイン・プロセッサーをフル稼働させ、バッテリーを使い果たしてしまう複数のAIに依存していたからだ。これらには、転写用AIモデル、検索で機能するもの、句読点を挿入するもの、音声以外の音を分類するものが含まれる。

 リン氏は、チームが3月に本格的にアプリ開発を始めた時、最大のAIである転写モデルが携帯のバッテリーを30分もしないうちに使い果たしたことを明かした。

 初期は、このソフトウェアはスマホをフリーズさせ、オンライン・アプリストアであるGoogle Playで提供するには大き過ぎた。アプリのAIを小さくするために、転写モデルをどうにかスリム化し、長時間のスピーチをキャプチャできるようにトレーニングしたという。

 この試行錯誤の甲斐あり、Pixel 4に搭載されたGoogleのレコーダーアプリは、スマートフォン内のAIを使用して、音声録音から転写することができるようになった。

関連記事