2024.05.14 11:45

OpenAI『GPT-4o』を発表　テキスト・画像・音声のリアルタイム処理に対応した旗艦モデル

文＝リアルサウンドテック編集部

　OpenAIは5月14日（日本時間）、『GPT-4o（GPT-4オムニ）』を発表した。同社は『GPT-4o』を「新たなフラッグシップモデル」と位置づけており、テキスト・画像・音声のリアルタイム認識・処理に対応。くわえて大幅な処理の高速化も実現したという。

　OpenAIの説明によれば、既存のモデルと比較して特に画像・音声の認識能力が向上しているとのことで、音声入力に対する応答速度は平均して232〜320ミリ秒と、人間の反応速度に近い水準を実現しているとのことだ。テキスト処理に関して英語とコーディングにおいては『GPT-4 Turbo』の能力に匹敵し、それ以外の言語においても大幅な改善がおこなわれている。

　『GPT-4o』はテキスト・画像・音声の認識（入力）だけでなく、出力にも対応する。デモ動画を見る限り、かなり自然な発話が可能になっており、笑い声や歌声、感情表現も出力していることがわかる。従来の『GPT-3.5』『GPT-4』では、音声出力時のプロセスとして「別モデルで音声からテキストへ変換」「『GPT-4』でテキストを処理、出力」「再び別モデルでテキストを音声に変換」という3つの手順を踏んでいた。そのため、前述したような感情表現を含む出力を苦手としていた。

　しかし、今回の『GPT-4o』ではテキスト・画像・音声のすべてを同一モデルでトレーニングしており、同じニューラルネットワークによって処理することで笑い声や歌声、感情表現の出力が可能になったようだ。つまり『GPT-4o』はこれらすべてのモダリティを組み合わせた新たなマルチモーダルAIということになる。

　なお、現状『GPT-4o』で利用できる機能としては一部機能に限定されている。OpenAIは今後数週間で「一部の信頼できるグループへ提供していく」旨を明かしている。