画像生成AIはなぜ文字を上手く“描けない”のか
AIの技術的進化において、テキストによる画像生成はそのほかの分野に比べて視覚的に「わかりやすく凄い」というのも相まって、広く認知されるようになった。約6年前は鳥の姿形をようやく制御できるかできないか(※1)という具合だったのにもかかわらず、現在では鳥に限らず様々なコンテンツを、美しく高解像度に生成できるようになった。
しかし、文字の完全な描写には未だ困難が伴っている。試しにAdobeが提供する画像生成AI『Firefly』にSign with the words "Real Sound" painted on it(訳:"Real Sound"という文字の描かれた看板)と入力して画像を生成してみよう。
こちらの期待に反して看板に描かれているのはすべて大文字であり、SOUNDの"N"が抜けてしまった。
この生成はなぜ失敗してしまったのか、そしてAIが文字を生成することはなぜ難しいのか。本記事では、その理由や生成AIが抱える課題について解説していきたい。なお、本記事の解説に関して
- 著者は大学の学部生でAIと芸術について研究しているが、技術的な専門家ではない。
- シンボルグラウンディング問題(※2)については直接的には取り扱わない。つまり、文字と意味の対応を学習することの困難さについての議論ではなく、テキストの命令から文字の「形状」を画像に生成するというタスクそのものの困難さについて議論する。
- 解決方法の検討は行わず、(データセットをとにかく増やすという方法以外で)解決手法を提示した研究紹介にとどまる。
- 以下の説明は全て2023年10月現在のことである
ことを事前に承知していただきたい。
まず、テキストから画像を生成するようなAIが文字・文章を正しく描けない理由として、以下の4点が挙げられる。
- 文字は、点と線(曲線)をパズルのように組み合わせたものである。人間は、そのパズルのミスに非常に敏感であり、少しのミスも許されない。
- AIに画像を生成させる時、命令が文章のみだと「文字を書く」という命令も文字によって成される。従って、パズルの仕方についての説明はされない。
- 文字が表す概念が、音(アルファベットなど)/音節(ひらがななど)/意味(漢字など)の3パターンに分けられており、後者になればなるほど文字の種類が指数関数的に増え、生成が難しくなる。
- そもそも最近有名になった巨大なAIモデルのほとんどが、テキストを処理する際に文字を読んでないことが多い。
ここからは、それぞれの理由について細かく記していきたい。
1. 文字には構造がある
そもそも「AI(人工知能)」とはどういったものを指すのだろうか? 当然様々な定義づけがされているが、ここでは暫定的に「生物、特に人間の知能を人工物、特に計算機(コンピューター)によって模倣しようとする試み」としたい(※3)。つまり、AIには知能を模倣しているように見えることが求められているのだ。このとき重要なのは模倣しているように「見えている」ことであり、実際に知能を持っているかどうかというのは関係ない。
筆者がなぜこの定義付けから議論を始めたかというと、いまの超高精度な画像生成AIも、データセットから視覚的パターンの傾向を把握することはできるが、それがどのような理由でパターン化されているのかは学習していないことを示すためである。たとえば「リンゴ」がおおむね赤色であるということは、データセット内にあるリンゴが写っている画像を見ればわかることだが、知能を模倣するうえでは「なぜリンゴが赤色なのか」を知る必要はないのである。
私たちが文字を書くとき、アルファベットの"Z"がなぜその形状なのかということを理解する必要はない。しかし、"Z"という文字は、左上から右下に一本の線のストロークで書かれるということは学習している。また、"Z"という文字の右隣に"OO"という文字が続くと、それが動物園("ZOO")を意味していることを学習している。私たちは文字が、点と線(曲線)を組み合わせたものであることを理解しており、さらにその配置パターンが何を指し示すのかを知っているのだ。
上記の例では「"ZOO"という文字を描く」という命令をした結果、動物園のようなデザインと"ZIO"という文字が生成されている。「ZOO」という配置パターンは理解していないが、ZOOという単語が示す"動物園っぽさ"をフォントやデザインに反映してしまっている。
AIはパターンを学習しているが、文字を形づくるためのパズルの手法は学習していない。この問題は、画像生成AIが手の形状を上手く描写できないということに共通している。
AIが学習するデータセット内で、手は様々な写り方をしている。それらから手というイメージを学習すると、手には肌の質感、爪、指があることがわかる。しかし、データセットには、指が5本写っている場合もあれば、一部が隠れている場合もある。手のひらも手の甲もデータセットには存在するが、それらには同時に表裏が写っている訳ではない。したがって、指は「5本」だとか、手のひらと手の甲が裏表であるということはパターンの傾向としてしか学習しておらず、解剖学的な理解はそこにない。そのため、どうしても指があり得ないところに生まれたり、人と人の手がくっついてしまったりするというわけだ。
こうした構造的ミスは、記号の描写にとっては致命的である。"ほんだな"と"はんだな"では、"ほ"と"は"の一本の横線の違いしかないが、後者は決定的に間違っていると言える。人間は道を走る車が前方を向いているか、後方を向いているかという問題には気づきにくいが、"ほ"と"は"の違いには敏感である。ほかの画像生成タスクと比べて記号は構造が直接的に意味を左右するため間違いを誤魔化せないという点で、文字の生成は難しさを伴う。