2020.09.02 07:00

Microsoft Wordの新たな“自動文字起こし機能”から考える、音声認識マーケットのこれから

文＝mugiho

　先日、WebバージョンのMicrosoft Wordに音声文字起こし機能が追加された。

　同サービスは、Microsoft 365サービスに加入中のすべてのユーザーに無料で提供され、Azure Cognitive Serviceと共同で開発されており、録音された音声ファイルか直接録音での文字起こしを可能にするものだ。今までの文字起こしアプリと異なる点としては、音声データ内の複数人の話し手をマイクロソフトAI聞き分け書き分けるというものが含まれる。

　また、対応ファイル種類も豊富で、20MBのMP3、WAV、M4A、MP4などの書き起こしが可能となる。今回の対応は主に授業の文字起こしなどに使用できる学生や、インタビューなどを文字起こしするジャーナリストがターゲットのようだ。

　リリース直後の現在は、オンラインバージョンかつ英語のみで提供されているが、2020年末にはiOSやアンドロイドでの書き起こしサービスも開始する予定だ。しかし、この機能には制限があり、アップロード形式での文字起こしは月間で5時間までとなっている（直接ワード内で録音するものには制限はない）。

　現在、文字起こしサービスはOtter.ai、Rev、Amazon Transcribe、Trintなど多く存在するが、このようにワード作成編集の一部としての機能を提供するサービスは少ない。ワードソフトの中に文字起こし機能を持つものとしては、Google Docsが挙げられる。

　Microsoft Wordの大きな競合相手でもあるGoogle Docsは、その簡単なアクセシビリティから（ブラウザ内での使用、登録無料、コラボレーション機能）学生などを中心とした多くのユーザーから支持されている。

　その中でも、今回のワード機能と比べられるのがGoogle Docs Voice機能だろう。これはGoogle Docs内で提供されている音声入力サービスで、マイクボタンをして直接音声をマイクから拾わせることにより、音声を書き起こしていく。日本語では句読点や改行、その他の編集コマンドには対応しておらず、あとから行う必要があるが、全体としてもしっかり音声を拾ってくれる。例えば、すでにiPhoneなどに録音されて保存されているものを直接マイクに向かって再生することによって、文字起こしを簡単にすることができる。

　近年、音声認識機能の向上とそれに対応したAI機能によって、音声による操作性の幅が大きく広がっている。例えばAmazonのAmazon Echoに搭載されているAlexaやAppleのSiri、Google HomeのGoogleアシスタント、MicrosoftのCortanaなど音声によって、音楽をかけたり、地図を調べたり、文字を入力したり、検索をかけたりなどあらゆるコマンドが可能となった。ハンズフリーなので、マルチタスク環境や必ずしも体を動かさずに操作ができることは、より多くの人たちへのアクセスを実現することができる。