生成AIは“算数”が苦手?「9.9」と「9.11」の大小を間違えるLLMの“頭の中”

杜 博見

AIGMOインターネットグループ

LLMが正しい答えを出すにはどうすれば?

「LLMは簡単な数値問題を解けない」と指摘することだけが、本稿の目的ではありません。適切な方法を見出し、正しい回答を導き出すことができるようにすることも重要です。

ステップ・バイ・ステップ思考

生成AIのプロンプトで「ステップ・バイ・ステップで考えてください」と指示すると生成の質が上がります。この「ステップ・バイ・ステップ思考」は、確かに有効な手法の1つです。実際にClaude 3.5 Sonnetは掛け算の計算をステップ・バイ・ステップで行おうとしていましたね。

しかし数値計算においてステップ・バイ・ステップ思考は精度を大幅に向上させるものの、正解を100%出せるわけではありません。

ステップ・バイ・ステップで「strawberry」に含まれる「r」の数を数える過程の例。1回目は正解だったが、2回目は誤りとなった

LLMにミスをさせない「シンプルな方法」

LLMは、曖昧な表現も理解できる点が強みです。しかし裏を返せば、正確性を追求することには向いていません。

LLMに100%の正確性を求めるのは「木に縁りて魚を求む」ようなことです。正確性が求められる数値計算などは、生成AIのLLMに任せるのではなく、プログラムを使いましょう。これは暗算が苦手な人が電卓を使うのと同じことです。

シンプルに「プログラムを実行して回答してください」と指示するだけで良いのです。

ちなみにここでは「書いて」ではなく「実行して」と明確に伝える必要があります。そうしないとプログラムを書いただけで回答が間違ったままになることがあります。

天秤AIはAPIを利用しているだけなのでプログラムを自動で実行することはできませんが、各生成AIサービスのUIでは実行できます。ということで、ChatGPTでやってみましょう。

まずは9.11と9.9の大小比較問題。

ChatGPT チャット画面、質問「プログラムを実行して回答してください 9.11と9.9の大小を比較して」とプログラム表示回答

正解しましたね。次に「strawberry」の「r」の数。

ChatGPT チャット画面、質問「プログラムを実行して回答してください strawberryのrの数を数えて」とプログラム表示回答

こちらも正解しました。最後に「100000000000000000000000000000000」の「0」の数です。

ChatGPT チャット画面、質問「プログラムを実行して回答してください 100000000000000000000000000000000には0がいくつ並んでいますか?」とプログラム表示回答

LLMはプログラムを実行することで、全ての問題に正解を出しました。

実は、2024年10月時点のChatGPTに掛け算の問題を出すと、最初からプログラムを動かして回答しています。「LLMの計算能力が向上した」といった記事を時折見かけますが、プログラムを動かしているわけですから、当然のことですね。

ChatGPT チャット画面、質問「1204*1402」とプログラム表示回答

おわりに

OpenAI、Anthropic、Google、Metaといった企業の努力によって、LLMを含む生成AIは格段に使いやすく、私たちの生活に浸透しつつあります。しかし、「生成AIは万能である」という誤解は避けなければなりません。

現状の生成AIはあくまでも確率に基づいてそれらしい文章や画像を生成しているに過ぎず、その出力の正確性や倫理性については常に注意が必要です。

生成AIをより有効に活用するためには、 「生成AIは何が得意で何が苦手なのか」 を理解し、 「道具として適切に使いこなす」 という姿勢が重要になってくるでしょう。
70 件

杜 博見

【GMOインターネットグループ デベロッパーエキスパート / GMOインターネットグループ グループ研究開発本部AI研究開発室データ解析・AI研究グループ 所属】
2023年 GMOインターネットグループ株式会社 新卒入社。博士。グループ横断のプロジェクトでAI技術を用いた解析支援・開発に携わっている。

ranking

  • 1
    サムネイル

    お台場発着に決定!日本でも“豪華客船体験”ができる?「ディズニークルーズライン」の価格・アトラクション最新情報

  • 2
    サムネイル

    Nintendo Switch 2について現在わかっていること、期待したいこと

  • 3
    サムネイル

    深剃り可能で持ち運びもラクラクパナソニック高性能シェーバー「ラムダッシュ パームイン」の実力を試してみた

  • 4
    サムネイル

    「甘い物は別腹」が科学的に解明されてしまう!!

  • 5
    サムネイル

    そろそろ日本語対応?iPhone 16eにも搭載のApple Intelligenceができること全てと、今さらMagSafe解説

  • 1
    サムネイル

    お台場発着に決定!日本でも“豪華客船体験”ができる?「ディズニークルーズライン」の価格・アトラクション最新情報

  • 2
    サムネイル

    GMOインターネットグループ陸上部、青山学院大学・鶴川正也選手の所属内定を発表

  • 3
    サムネイル

    2025年のケータイ業界を占う、山根博士が見つけた最新の“変態スマホ”5つを紹介

  • 4
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 5
    サムネイル

    逸品発見!100均電子レンジ調理器6選。焼き魚にだし巻き卵、マカロニまで!

  • 1
    サムネイル

    総菜や冷凍食品がお店の味に!?1人暮らしにこそおすすめしたいノンフライヤーの意外な使い方

  • 2
    サムネイル

    お台場発着に決定!日本でも“豪華客船体験”ができる?「ディズニークルーズライン」の価格・アトラクション最新情報

  • 3
    サムネイル

    2025年のケータイ業界を占う、山根博士が見つけた最新の“変態スマホ”5つを紹介

  • 4
    サムネイル

    GMOインターネットグループ陸上部、青山学院大学・鶴川正也選手の所属内定を発表

  • 5
    サムネイル

    iPhone 16eが登場!サイズは?充電持ちは?カメラ性能は?Apple IntelligenceやUSB-C搭載の新製品、注目ポイントまとめ

internet for you.