OpenAI『GPT-4o』を発表 テキスト・画像・音声のリアルタイム処理に対応した旗艦モデル

 OpenAIは5月14日(日本時間)、『GPT-4o(GPT-4オムニ)』を発表した。同社は『GPT-4o』を「新たなフラッグシップモデル」と位置づけており、テキスト・画像・音声のリアルタイム認識・処理に対応。くわえて大幅な処理の高速化も実現したという。

 OpenAIの説明によれば、既存のモデルと比較して特に画像・音声の認識能力が向上しているとのことで、音声入力に対する応答速度は平均して232〜320ミリ秒と、人間の反応速度に近い水準を実現しているとのことだ。テキスト処理に関して英語とコーディングにおいては『GPT-4 Turbo』の能力に匹敵し、それ以外の言語においても大幅な改善がおこなわれている。

 『GPT-4o』はテキスト・画像・音声の認識(入力)だけでなく、出力にも対応する。デモ動画を見る限り、かなり自然な発話が可能になっており、笑い声や歌声、感情表現も出力していることがわかる。従来の『GPT-3.5』『GPT-4』では、音声出力時のプロセスとして「別モデルで音声からテキストへ変換」「『GPT-4』でテキストを処理、出力」「再び別モデルでテキストを音声に変換」という3つの手順を踏んでいた。そのため、前述したような感情表現を含む出力を苦手としていた。

 しかし、今回の『GPT-4o』ではテキスト・画像・音声のすべてを同一モデルでトレーニングしており、同じニューラルネットワークによって処理することで笑い声や歌声、感情表現の出力が可能になったようだ。つまり『GPT-4o』はこれらすべてのモダリティを組み合わせた新たなマルチモーダルAIということになる。

 なお、現状『GPT-4o』で利用できる機能としては一部機能に限定されている。OpenAIは今後数週間で「一部の信頼できるグループへ提供していく」旨を明かしている。

OpenAI「Sora」が『Adobe Premiere Pro』で使えるように! アドビがAIによる動画生成機能を年内導入

アドビは本日、同社の『Adobe Premiere Pro』において動画生成を含む複数の機能に対応すると発表した。発表内容には動…

関連記事