2024.05.31 07:00

AIに関する“3つの観点”にもとづいて比較した「GoogleとOpenAIの動向」　

Googleもついに動画生成アプリを開発

　画像や音楽を生成するクリエイティブAIについても、アップデートや新アプリが発表された。

　2024年2月に公開された画像生成アプリ「ImageFX」は、画像編集機能が追加された（※8）。この機能は、生成された画像に対してブラシを使って範囲指定すると、その範囲で画像を再生成するというもの。再生成は、通常の生成と同様にテキストで内容を指示する。

　さらにウェイティングリストからユーザー登録をすると、DeepMindが開発した最新画像生成AIである「Imagen 3」による画像生成が可能となる。このAIを使えば、よりテキストの指示に忠実で高精細な画像が生成できる。ただし、2024年5月時点では利用できるのは18歳以上のアメリカ在住のユーザーに限られる。

　なお、ImageFXは日本からでも利用可能だが、入力テキストは英語が推奨されている。

　ImageFXと同時に公開された音楽生成アプリ「MusicFX」は楽曲の特徴をテキスト入力すると、その内容に沿った楽曲が生成されるというものである。このアプリに、楽器ごとにミキシングできるDJモードが追加された。同アプリも日本から利用できるが、やはり英語によるテキスト入力が推奨されている。

Try DJ Mode on MusicFX

　さらに、入力テキストで指示された内容にしたがって動画を生成する「VideoFX」も発表された。同アプリが生成する動画は1分以上の高画質なものであり、動画生成AIにおける課題であった「一貫した被写体」の表現も実現している。同アプリを利用するにはウェイティングリストにユーザー登録する必要があるのだが、Imagen 3と同様に当面は18歳以上のアメリカ在住のユーザーに限られる。

Google DeepMind's text-to-video model Veo creates 60 second video

　クリエイティブAIを活用した実験的なアート作品『無限な不思議の国（Infinite Wonderland）』も公開された（※9）。この作品は、不朽の児童小説『不思議の国のアリス』を構成する約1,200の文章すべてについて、5人のアーティストが制作した画像を学習したAIが文章に沿った画像を生成するというものである。簡単に言えば、画像生成AIをフル活用した絵本である。この絵本では好きな文章を選択すると画像が生成されるが、画像の再生成も可能なので読むたびに新しい視覚体験ができる。つまり、一度の読書体験で完結することはなく、まさに「無限な不思議の国」を実現している。

Visual Artists x Imagen | Google Lab Sessions

総合商社的なGoogle、専門店的なOpenAI

　Google I/O 2024では実験段階のAIエージェント「Project Astra」も発表された（※10）。このAIは、入力された動画から状況を認識したうえで、ユーザーからの質問にリアルタイムに答えてくれる。デモ動画を視聴すれば、同AIができることを理解できるだろう。動画では、AIがスマートフォンを通じてPCの画面に表示されたソースコードを認識し「暗号化関数と復号化関数」と解説している。

Project Astra: Our vision for the future of AI assistants

　実のところ、Google I/O 2024に先立つ5月13日、OpenAIはProject Astraとほぼ同等の性能を実現したAI「GPT-4o」を発表している（※11）。以下に引用するGPT-4oのデモ動画では、手書きした簡単な一次方程式を同AIが解く様子が確認できる。

Live demo of GPT-4o vision capabilities

　以上のように、GoogleとOpenAIは対話型AI開発において“ほぼ同等”のレベルにいるといってよいだろう。しかしながら、Project Astraは2024年後半からの提供なのに対して、GPT-4oはすでに段階的に提供が始まっている。

　サービス展開という観点ではOpenAIが先行しているが、この点からただちにOpenAIがGoogleを凌駕していると断言するのは早計である。以上に引用したProject Astraデモ動画の最後では、同AIをメガネ型端末から利用する様子が収録されている。

　この様子から、かつてGoogleが開発したGoogle GlassがAIを搭載して再発明されることが予感される。このように、Googleは「自社の知的財産をAIサービス開発に活用できる」という点において、OpenAIを凌駕している。こうしたAIによる再発明は、前述したGemini for Google Workspaceにも見られる。

　とはいえ、AI開発に関してGoogleとOpenAIとを比較する場合、安易に優劣をつけるのは適切ではないだろう。というのも、両社ではAIを展開するビジネス戦略が異なっているからである。Googleは基盤モデルやクリエイティブAIを自社サービスに実装したうえで、幅広いユーザーにさまざまな用途でAIを使ってもらおうとしている。

　対してOpenAIは発表時点で最高性能の基盤モデルやクリエイティブAIを印象深くリリースして、AIに敏感なユーザーを虜にしてから、一般ユーザーにも認知されようとしている。こうした戦略の違いをあえて比喩的に表現すれば、“総合商社的な”Googleと“専門店的な”OpenAIと言えるかもしれない。

　AIをめぐるGoogleとOpenAIの開発競争について、たしかに言えるのは、この競争は今後も続く、ということである。そして、こうした競争は一般ユーザーにとって歓迎すべきことである。なぜならば、健全な競争によってより良いサービスが提供されるようになるからである。今後も両社の競争から、驚くべきAIサービスが誕生することだろう。

〈参考〉
（※1）Google Japan Blog「Gemini が新たな領域へ : より高速なモデル、ロングコンテキスト、AI エージェント」
（※2）Gemini Advancedユーザー登録ページ
（※3）Google Blog「Generative AI in Search: Let Google do the searching for you」
（※4）Google Japan Blog「Gemini for Google Workspace で生産性を維持する 3 つの新しい方法」
（※5）Google Blog「Experience Google AI in even more ways on Android」
（※6）Google Blog「Ask Photos: A new way to search your photos with Gemini」
（※7）Google Blog「Experience Google AI in even more ways on Android」
（※8）Google Blog「Introducing VideoFX, plus new features for ImageFX and MusicFX」
（※9）Google Blog「How four artists used AI to endlessly reimagine “Alice’s Adventures in Wonderland”」
（※10）Google Japan Blog「Gemini が新たな領域へ : より高速なモデル、ロングコンテキスト、AI エージェント」
（※11）OpenAI Blog「Hello GPT-4o」