生成AIは“算数”が苦手？「9.9」と「9.11」の大小を間違えるLLMの“頭の中”

2024.11.21

2024年夏、ChatGPTなどの強力な大規模言語モデル（LLM）をベースとした生成AIサービスが「9.11と9.9はどちらが大きいですか？」といった非常にシンプルな問題に引っかかったことがネット上で話題になりました。

このとき「同じ問題を試してみたら、本当に生成AIが間違えた！」といった感想が多く見られましたが、それだけにとどめておくのはもったいないと感じたので、データサイエンティストである私なりに少し深掘りして考えてみました。

なぜ生成AIはこんな簡単な問題でミスをしてしまうのでしょうか。LLMの仕組みとともに考えていきます。そして改善策もご紹介します。

生成AIが苦手なことは？

今回の実験では、複数の主流生成AIサービスを同時に比較できる「天秤AI byGMO（以下、天秤AI）」を利用し、次の4つのLLMで実験しました。いずれも2024年8月6日時点に天秤AIが対応していたLLMです。

・GPT-4o
・Claude 3.5 Sonnet
・Gemini 1.5 Pro
・Llama3 70b Instruct

LLMの生成結果にはランダム性があるため、本稿で紹介する全ての実験は5回程生成を繰り返しています。なお天秤AIはAPI経由での利用となるため、これから紹介する画像は、各AIサービスの公式のチャット画面とは挙動が若干異なる場合があることをご注意ください。

9.11と9.9の大小比較問題に正解できるLLMは？

まずは話題の「9.11」と「9.9」の大小について各LLMに質問します。

結果は以下のように分かれました。

・Gemini 1.5 Pro：基本的に毎回正解
・GPT-4o, Claude 3.5 Sonnet：たまに正解するが、基本的には「『9.11』の方が大きい」と誤答
・Llama3 70b Instruct:：安定して毎回『9.11』の方が大きい」と誤答

天秤AIチャット画面、質問「9.11と9.9の大小を比較して」と各LLMの回答例

この結果だけを見ると、Gemini 1.5 Proが一番優れていると思われるかもしれませんが、結論を出すのはまだ早いです。

質問を少し変えてみましょう。

小数点前の「9」を「5」に変えるだけで、全てのLLMが不正解となりました。

天秤AI チャット画面、質問「5.11と5.9の大小を比較して」と各LLMの回答例

LLMに「言い訳」させてみよう

なぜLLMはこんなにも単純な問題で間違ってしまうのかを探るために、私はとりあえず言い分を聞いてみました。LLMは自身の思考プロセスを完全に説明できるわけではありませんが、彼らの「言い訳」から、その特性や限界を垣間見ることができるかもしれません。

ここではLLMの言い訳が長文にならないよう「理由を簡潔に教えて」と指示します。

天秤AIチャット画面、各LLMが質問「5.11と5.9の大小を比較して」の回答についての理由説明

それぞれの言い訳から、全てのモデルが小数点以下の「11」が「9」より大きいと誤って認識していることがわかります。つまりLLMは小数点以下の桁数を正しく認識できていないようですね。

ならば、小数点以下の桁数をそろえてあげれば、LLMは正しく判断できるのではないかという考えが自然に思い浮かびます。ということで次のような質問もしてみました。