AIはなぜ“わかっている”ように見えるのか? 改めておぼえておきたい「人工知能」の基本

改めておぼえておきたい「人工知能」の基本

 「ターミネーター」シリーズをはじめ、SF映画の中でAIは長らく恐怖の対象だった。人類に反乱し、ときに人間を支配する。あるいは、冷たい合理性で命を選別する。「AI」という言葉には、どこか「いつか人間を超えてしまうもの」という不安がつきまとっていたように思う。

 ところが今、私たちは毎日のようにAIと会話している。

 ChatGPTに文章を整えてもらう。Geminiに調べ物を手伝ってもらう。Claudeに長い資料を読ませる。ときには仕事の悩みや、まだ言葉になっていない考えまで打ち明ける。かつて映画の中で恐れられていたAIに、私たちは思っている以上に多くの情報を渡している。

 もちろん、AIへの恐怖が消えたわけではない。ただ、その形は変わった。かつてのように「AIが人類に反乱する」というSF的な恐怖よりも、いま現実味をもって語られているのは、「AIに仕事を奪われる」「AIによって人間の役割が置き換えられる」という不安であろう。

 AIは、遠い未来に人類を脅かす空想上の存在から、目の前の仕事や生活に影響を与える、現実の存在へと変わった。手元の画面にいる、身近な話し相手になった。その“近さ”こそが、いまのAIの便利さであり、新しい怖さでもある。

 だからこそ、リアルサウンドテックでは、「AIと人間」「AIと社会」を軸とした連載を開始する。技術の紹介だけではなく、これから「AI社会」と呼ばれるであろう今を生きるユーザー目線で、AIの背後にいる人々、企業、そして社会の動きを掘り下げていきたい。

 第一回となる今回、まずは改めて考えたい。そもそもAIとは何なのか。なぜ、まるで何でも知っているように見えるのか。そして、その便利さの裏側には、どんな危うさがあるのだろうか。

そもそもAIとは何か

 今日使われている「AI」という言葉は、Artificial Intelligenceの略称で、日本語で「人工知能」のことを指す。簡単に言えば、人間が知的におこなっているように見える作業を、コンピューターで実現しようとする技術の総称である。

 AIは特定のアプリやサービスの名前ではない。ChatGPTだけがAIなのではなく、これまでも存在した将棋AI、顔認識、音声認識、翻訳ソフト、迷惑メールの判定、動画配信サービスのおすすめ表示なども、広い意味ではAIに含まれる技術だ。

 振り返ってみれば、AIはずっと前から私たちの生活に入り込んでいたといえる。ただ、それは多くの場合、私たちが見ているものの裏側にいた。検索エンジンがページの順位を決め、ECサイトが「あなたへのおすすめ」を表示し、スマートフォンが写真に写った顔を分類する。私たちはそれをAIだと意識しないまま、AIによって整理された世界を見ていた。

 ところが、ChatGPTを始めとする「生成AI」の登場で、その存在は急速に可視化されていった。

 生成AIとは、その呼び方が示すように文章、画像、音声、動画、プログラムなどを作り出すAIのことだ。分類する、判定する、予測するだけではなく、こちらの指示に応じて“何かを作る”。その代表格が、「ChatGPT」や「Gemini」「Claude」のような会話型AIである。

 AIを身近な存在にした大きなきっかけは、やはり「ChatGPT」だろう。2022年にChatGPTが一般公開されたことで、AIは研究者やエンジニアだけのものではなくなった。

 ただし、初期のころはまだ、使いこなす上で技術的理解と工夫が必要だった。日本語より英語でプロンプトを書いた方が、望んだ結果を得られやすい。AIに明確な役割を与え、条件を細かく指定する。出力形式を決め、生成された内容を確認して修正する。いわゆる「プロンプトの書き方」にはコツがあった。

 つまり、ChatGPTが一般に広がり始めたあともしばらくは、AIとのやり取りに「命令文を書く」感覚が残っていた(もちろん、自分の望む出力結果を得たい場合には現在も有効な手段だ)。

 しかし、モデルの進化とともに、その空気は変わっていった。特に、非エンジニア層にとって、AIは「うまく命令するもの」から「自然に話しかけるもの」へ近づいた。音声や画像も含めてやりとりできるモデルが登場したことで、AIとの距離はさらに縮まった。

 これは筆者の経験からも言えることだが、人は、会話できる相手に心を見出してしまう。返事が自然であればあるほど、そこに理解があるように感じてしまう。これはメリットでもあり、リスクでもある。AIが人間のように話すことと、人間のように理解していることは同じではない。しかし、その境界をあいまいにしてしまうものが、自然な会話なのである。

AIは確率的に言葉を組み立てている

 ChatGPTやGemini、Claudeのような会話型AIの中心には、大規模言語モデル、いわゆる「LLM(Large Language Model)」がある。

 LLMは、膨大な文章データをもとに、言葉と言葉の関係性を学んだ計算プログラムだ。ある文脈の中で、次にどんな言葉が来る可能性が高いかを予測しながら文章を作ることに特化している。

 単純化すれば、AIは「知っているから答えている」というより、その場にふさわしい“それらしい答え”を確率的に組み立てている。

 だからAIは、何でも知っているように見える。歴史を聞けば起こった出来事の経緯を語り、科学について聞けば仕組みを説明し、映画を聞けば作品を論じる。人生の悩みについて相談をすれば、それらしい助言を返してくれる。

 だが、AIは世界を直接見ているわけではない。人間のように経験し、悩み、考え、責任を引き受けているわけでもない。過去に学習したデータと、入力された文脈をもとに、もっとも自然に見える言葉を組み立てている。

 もちろん、これを「ただの予測変換」として理解してしまうと、現在のAIの力を見誤る。モデルは巨大化し、推論能力も高まり、画像や音声を扱うマルチモーダル化も進んでいる。外部ツールや検索との連携も進み、AIは単に文章を続けるだけの存在ではなくなっている。

 AIのバージョンアップの裏側で変わっているのは、知識量だけではない。どのように答えを組み立てるのか。どこまで推論するのか。どんな問いには慎重になるのか。外部情報とどうつながるのか。そうした設計の積み重ねによって、AIの振る舞いは変わっていく。

 だから、AIは驚くほど自然に話す。長い文章を要約し、論点を整理し、画像を読み取る。仕事や創作の現場では、頼もしい相棒になる。

 だが、自然な文章を書くからといって、世界を人間と同じように経験しているわけではないことは、改めて強調しておきたい。もっともらしい説明をするからといって、その説明が必ず正しいわけでもないのだ。

関連記事

リアルサウンド厳選記事

インタビュー

もっとみる

Pick Up!

「コラム」の最新記事

もっとみる

blueprint book store

もっとみる