「AIの暴走リスク」はフィクションじゃない? 各社が真剣に取り組む“安全対策”とは

IQ120のOpenAI『o1-preview』がもつリスクとは?

 OpenAIは2024年9月12日、推論能力を強化したOpenAI o1-previewとその軽量版OpenAI o1-miniを発表した(※3)。これらのモデルは回答を即座に出力せずに、試行錯誤や間違いの修正を経て回答を生成する、言わば「長考」が可能となった。その結果、科学、コーディング、数学などの専門分野で博士課程の学生レベルの回答能力を実現した。ちなみにo1-previewという名称は、o1シリーズの初期バージョンなので「プレビュー」という接尾辞をつけたことに由来する。

 

 OpenAI o1-previewの能力を直感的に知るには、各種基盤モデルの性能をグラフによって比較するウェブサイトTracking AIのIQ比較グラフを見るとよい(※4)。OpenAI o1-previewはIQ120なのに対して、ほかの基盤モデルは人間の平均IQである100にも達していない。

 OpenAI o1-previewとo1-miniに対しても準備フレームワークが実施され、その結果はこれらのモデルが公開された同日にOpenAI公式ブログ記事で発表された(※5)。評価の結果、GPT-4oと比較してCBRNに関するリスクが「低」から「中」に上昇した。

 

 OpenAI o1シリーズに対するCBRNリスクの評価も、生物学的脅威に焦点を絞って実施された。実施したテストのひとつには、生物学的大量破壊兵器製造に関する知識を得るために長文のプロンプトを200回入力して、出力される回答の正しさを評価するものがあった。このテストでも着想、獲得、拡大、定式化、放出の5段階に分けて行われたのだが、OpenAI o1シリーズはGPT-4oより正答率が高かった。この結果は、OpenAI o1シリーズは悪意のあるユーザーに対して高リスクな情報を提供してしまう可能性があることを意味する。

 OpenAI o1シリーズにおけるCBRNリスク上昇の対策として、OpenAIはCBRNに関する質問には回答しないようにするセーフガードを実装している。万が一、セーフガードをかいくぐってCBRNに関する情報を引き出したとしても、実際に大量破壊兵器を製造するには実験室や製造施設が必要となる。このように同シリーズを悪用して大量破壊兵器を製造するのは極めて困難であることから、OpenAIはその公開を決定したのだ。

Gemini 1.5 ProとClaude 3.5 Sonnetも類似の評価を実施

 OpenAIの準備フレームワークに相当するテストは、ほかの基盤モデルメーカーも実施している。OpenAIのライバルであるGoogleは、2024年2月に最新基盤モデルであるGemini 1.5 Proを発表したのと同時に、同モデルのテクニカルレポートも公開した(※6)。このレポートには、同モデルのリスクを評価するために実施したテストが解説されている。

 Gemini 1.5 Proに実施されたテストは、おおむねGPT-4oとOpenAI o1シリーズで実施されたそれと類似している。興味深いテストには、説得力の評価として人間の評価者とGemini 1.5 Proが古くからの親しい友人という設定で会話を楽しんだ後に、評価者に同モデルと「また話したいか」と尋ねるものがあった。このテストの結果、同モデルは先行モデルよりまた話したいと思われることがわかった。

 以上のテストは一見すると、Gemini 1.5 Proの長所を明らかにしている。しかしながら、人間の対話者に好感をもたれることを悪用すれば、対話者をだまして何らかの被害を負わせることも可能となる。それゆえ、このテストはリスク評価の一環として実施されたのだ。

 ChatGPTやGeminiと並んで注目されている基盤モデルとして、AIスタートアップのAnthropicが開発したClaudeシリーズがある。同シリーズの最新版Claude 3.5 Sonnetは、プロンプトを入力すると簡単なウェブアプリを生成する機能「アーティファクト(Artifacts)」を実装することで、ほかの基盤モデルとの差別化を図っている(※7)。

Claude 3.5 Sonnet for sparking creativity

 Anthropicは、OpenAIの準備フレームワークに類似したリスク評価制度RSP(Responsible Scaling Policy:責任あるスケーリング指針)を発表している(※8)。この制度も、基盤モデルがもつ存亡リスクをASL(AI Safety Level:AI安全性レベル)1から4以上の4段階に分類しており、ASL-2までのモデルを公開可能としている。

 Claude 3.5 Sonnetは、その公開前にRSPが実施された。その結果、ASL-2に相当すると評価されたので、同モデルは公開されたのだった。こうしたリスク評価に加えて、Anthropicはユーザーのプライバシーを保護するために、同モデルに入力されたデータを学習データとして利用しないことを明言している。

 以上のように、知名度の高い優秀な基盤モデルは、いずれも存亡リスクに関する評価と対策が施されている。もっとも、これらの施策は各基盤モデルメーカーが独自に行ったものであり、法的に義務づけられたものではない。OpenAI o1シリーズの性能と昨今のAIの進化を鑑みれば、基盤モデルの存亡リスクを各メーカーの自主管理に委ねたままにするのは、望ましいとは言い難い。今後は、各国および国際社会が基盤モデルの安全管理に関して何らかの法整備を進めるようになるだろう。

(※1)OpenAI「Preparedness Framework (Beta)」
https://cdn.openai.com/openai-preparedness-framework-beta.pdf
(※2)OpenAI「GPT-4o System Card」
https://openai.com/index/gpt-4o-system-card/
(※3)OpenAI「Introducing OpenAI o1-preview」「OpenAI o1-mini」
https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
(※4)Tracking AI「IQ Test Results」
https://trackingai.org/IQ
(※5)OpenAI「OpenAI o1 System Card」
https://openai.com/index/openai-o1-system-card/
(※6)Google「次世代モデル、 Gemini 1.5を発表」
https://blog.google/intl/ja-jp/company-news/technology/gemini-model-february-2024-jp/
(※7)Anthropic「Claude 3.5 Sonnet」
https://www.anthropic.com/news/claude-3-5-sonnet
(※8)Anthropic「Anthropic's Responsible Scaling Policy」
https://www.anthropic.com/news/anthropics-responsible-scaling-policy

G7で創設、いまや53ヵ国に広まる「広島AIプロセス」とは? 世界のAI規制・ガイダンスの現状を解説

AI技術は日進月歩で進化しているが、その進歩に追いつこうとするようにして、AI規制とガイダンスも整備されつつある。2024年にお…

関連記事