PUBGやフォートナイトのトッププレイヤーもいずれAIに? DeepMind、ヒトを超えるAIプレイヤーを開発
最先端のAI研究をけん引するGoogle傘下のAI企業DeepMindが、また新たな画期的AIを開発した。今度のAIは、あの古典的FPSでヒトを凌駕するスコアを叩き出したのだ。こうしたAIの強さのカギは、リアルスポーツの上達にも通じるものだった。
「チームプレイからの学び」を重視
DeepMindは、4日、古典的マルチプレイ対応FPS『Quake III Arena』のプレイにおいて熟練した人間プレイヤーのゲームスコアを超えるAIを開発したと発表した。このAIの開発には、同ゲームの「キャプチャ・ザ・フラッグ(Capture the Flag:略してCTFと表記される)」と呼ばれるゲームモードが採用された。CTFにおいては、プレイヤーは二組のチームに分かれて、対戦チームの陣地にある旗を奪い合う(トップ画像および下の動画参照。グラフィックは研究効率を考慮してカスタマイズされたものを使っている)。
ハイスコアを狙うためには、刻々と変わる戦況を理解することとチームメイトとの協力プレイが不可欠となる。最終的なゲームスコアは、CTFを繰り返しプレイして得られたスコアを集計するのだが、ゲームステージはランダムに変わるようにした。というのも、ゲームステージが同じだと最適戦略がある種のパターンに落ち着く「覚えゲー」化してしまい、そうなると記憶力に勝るAIが有利になるからだ。
「FTW(For The Win:「勝利のために」の略称)」と名づけられたAIは、CTFで勝利した場合、勝利を導いたプレイが以後優先的に選択されるようになる「強化学習」と呼ばれるアルゴリズムを実装することによって、ゲームが上達するように開発された。強化学習における学習ポイントは、以下の3点にまとめることができる。
■AIは自身の個々の行動ではなく、チームメイトや対戦チームとの行動から学習するようにした。簡単に言えば、チームプレイからの学習を重視。
■学習における強化は、ゲームに勝利した時だけではなく、AIが個別に設定したプレイにおいても起こるようにした。例えば、旗を奪うプレイを強化する、ということができる。
■AIのプレイを決定する処理として、個々のゲームプレイを通じて変わらない長期的戦略とゲームごとに変わる短期的戦略のふたつを実装した。
プレイ上達のカギは「状況判断」
以上のように開発されたFTWとプレイレベルの異なる40人のヒトのプレイヤーが参加して、ランダムにチーム分けしてCTFを45万回繰り返した結果、FTWがトップスコアを記録した(下のグラフ参照)。
こうした結果をうけて、FTW開発チームがAIの学習過程を調査したところ、ゲームごとにプレイを最適化する短期的戦略の処理速度の改善がスコア上昇と関係が強いことがわかった。さらに人為的に短期的戦略の処理速度を上げてみたところ、スコア上昇が認められた。この調査結果から、ゲームが上達するためには状況判断を速くできるようにすればよい、ということが言えそうだ。
また、FTWの学習にはあらかじめ特定の戦略を設定しないで、あくまでプレイのなかから最適戦略を学習する「教師なし学習」というアルゴリズムが採用されていた。それゆえ、同AIがどのような戦略を学習するのかについては開発チームにもわからなかった。しかしながら、学習した戦略は、くしくも敵プレイヤーを待ち伏せて狙撃するキャンプといった人間プレイヤーにとっても典型的なものであった(下の画像参照)。
ビデオゲームがヒトとAIの主戦場?
それにしても、DeepMindはなぜAIにゲームをプレイさせるのか。その理由は、ルールが明確であり、かつ勝敗というかたちで評価が明確に行えるゲームの特徴が、AIの性能を測るうえで好都合だからだ。
AIにチェスのようなターンベースの知能ゲームをプレイさせることは、AI研究の初期から行われていた。そして、知能ゲームのなかでも最も指し手が多い囲碁でトッププロに勝利したことで、このジャンルでのAI研究は区切りがついたと見られている。その後、AIが挑戦すべき次なるゲームとして選ばれたのが、刻一刻と戦況の変わるFPSをはじめとしたビデオゲームなのだ。空間認識を伴う戦況理解とチームプレイが求められるビデオゲームこそが、AIをさらにヒトに近づける次なる試金石として相応しいというわけなのである。現在、AIにビデオゲームをプレイさせる試みは盛んに行われており、最近ではテスラ・モーターズのCEOイーロン・マスク氏が参加しているAI研究のNPOであるOpenAIが、人気MOBAゲーム『Dota 2』において、AIチームがヒトのチームに勝利したことを発表した。
このままAIが進化すれば、やがてPUGBやフォートナイトのトッププレイヤーがAIとなる日が来るのかもしれない。
トップ画像および挿入画像出典:DeepMind blog「Capture the Flag: the emergence of complex cooperative agents」
■吉本幸記
テクノロジー系記事を執筆するフリーライター。VR/AR、AI関連の記事の執筆経験があるほか、テック系企業の動向を考察する記事も執筆している。
Twitter:@kohkiyoshi