生成AIは“算数”が苦手？「9.9」と「9.11」の大小を間違えるLLMの“頭の中”

2024.11.21

LLMが正しい答えを出すにはどうすれば？

「LLMは簡単な数値問題を解けない」と指摘することだけが、本稿の目的ではありません。適切な方法を見出し、正しい回答を導き出すことができるようにすることも重要です。

ステップ・バイ・ステップ思考

生成AIのプロンプトで「ステップ・バイ・ステップで考えてください」と指示すると生成の質が上がります。この「ステップ・バイ・ステップ思考」は、確かに有効な手法の1つです。実際にClaude 3.5 Sonnetは掛け算の計算をステップ・バイ・ステップで行おうとしていましたね。

しかし数値計算においてステップ・バイ・ステップ思考は精度を大幅に向上させるものの、正解を100％出せるわけではありません。

ステップ・バイ・ステップで「strawberry」に含まれる「r」の数を数える過程の例。1回目は正解だったが、2回目は誤りとなった

LLMにミスをさせない「シンプルな方法」

LLMは、曖昧な表現も理解できる点が強みです。しかし裏を返せば、正確性を追求することには向いていません。

LLMに100%の正確性を求めるのは「木に縁りて魚を求む」ようなことです。正確性が求められる数値計算などは、生成AIのLLMに任せるのではなく、プログラムを使いましょう。これは暗算が苦手な人が電卓を使うのと同じことです。

シンプルに「プログラムを実行して回答してください」と指示するだけで良いのです。

ちなみにここでは「書いて」ではなく「実行して」と明確に伝える必要があります。そうしないとプログラムを書いただけで回答が間違ったままになることがあります。

天秤AIはAPIを利用しているだけなのでプログラムを自動で実行することはできませんが、各生成AIサービスのUIでは実行できます。ということで、ChatGPTでやってみましょう。

まずは9.11と9.9の大小比較問題。

ChatGPT チャット画面、質問「プログラムを実行して回答してください　9.11と9.9の大小を比較して」とプログラム表示回答

正解しましたね。次に「strawberry」の「r」の数。

ChatGPT チャット画面、質問「プログラムを実行して回答してください　strawberryのrの数を数えて」とプログラム表示回答

こちらも正解しました。最後に「100000000000000000000000000000000」の「0」の数です。

ChatGPT チャット画面、質問「プログラムを実行して回答してください　100000000000000000000000000000000には０がいくつ並んでいますか？」とプログラム表示回答

LLMはプログラムを実行することで、全ての問題に正解を出しました。

実は、2024年10月時点のChatGPTに掛け算の問題を出すと、最初からプログラムを動かして回答しています。「LLMの計算能力が向上した」といった記事を時折見かけますが、プログラムを動かしているわけですから、当然のことですね。

ChatGPT チャット画面、質問「1204*1402」とプログラム表示回答

おわりに

OpenAI、Anthropic、Google、Metaといった企業の努力によって、LLMを含む生成AIは格段に使いやすく、私たちの生活に浸透しつつあります。しかし、「生成AIは万能である」という誤解は避けなければなりません。

現状の生成AIはあくまでも確率に基づいてそれらしい文章や画像を生成しているに過ぎず、その出力の正確性や倫理性については常に注意が必要です。

生成AIをより有効に活用するためには、「生成AIは何が得意で何が苦手なのか」を理解し、「道具として適切に使いこなす」という姿勢が重要になってくるでしょう。