生成AIは“算数”が苦手?「9.9」と「9.11」の大小を間違えるLLMの“頭の中”

杜 博見

AIGMOインターネットグループ

LLMが正しい答えを出すにはどうすれば?

「LLMは簡単な数値問題を解けない」と指摘することだけが、本稿の目的ではありません。適切な方法を見出し、正しい回答を導き出すことができるようにすることも重要です。

ステップ・バイ・ステップ思考

生成AIのプロンプトで「ステップ・バイ・ステップで考えてください」と指示すると生成の質が上がります。この「ステップ・バイ・ステップ思考」は、確かに有効な手法の1つです。実際にClaude 3.5 Sonnetは掛け算の計算をステップ・バイ・ステップで行おうとしていましたね。

しかし数値計算においてステップ・バイ・ステップ思考は精度を大幅に向上させるものの、正解を100%出せるわけではありません。

ステップ・バイ・ステップで「strawberry」に含まれる「r」の数を数える過程の例。1回目は正解だったが、2回目は誤りとなった

LLMにミスをさせない「シンプルな方法」

LLMは、曖昧な表現も理解できる点が強みです。しかし裏を返せば、正確性を追求することには向いていません。

LLMに100%の正確性を求めるのは「木に縁りて魚を求む」ようなことです。正確性が求められる数値計算などは、生成AIのLLMに任せるのではなく、プログラムを使いましょう。これは暗算が苦手な人が電卓を使うのと同じことです。

シンプルに「プログラムを実行して回答してください」と指示するだけで良いのです。

ちなみにここでは「書いて」ではなく「実行して」と明確に伝える必要があります。そうしないとプログラムを書いただけで回答が間違ったままになることがあります。

天秤AIはAPIを利用しているだけなのでプログラムを自動で実行することはできませんが、各生成AIサービスのUIでは実行できます。ということで、ChatGPTでやってみましょう。

まずは9.11と9.9の大小比較問題。

ChatGPT チャット画面、質問「プログラムを実行して回答してください 9.11と9.9の大小を比較して」とプログラム表示回答

正解しましたね。次に「strawberry」の「r」の数。

ChatGPT チャット画面、質問「プログラムを実行して回答してください strawberryのrの数を数えて」とプログラム表示回答

こちらも正解しました。最後に「100000000000000000000000000000000」の「0」の数です。

ChatGPT チャット画面、質問「プログラムを実行して回答してください 100000000000000000000000000000000には0がいくつ並んでいますか?」とプログラム表示回答

LLMはプログラムを実行することで、全ての問題に正解を出しました。

実は、2024年10月時点のChatGPTに掛け算の問題を出すと、最初からプログラムを動かして回答しています。「LLMの計算能力が向上した」といった記事を時折見かけますが、プログラムを動かしているわけですから、当然のことですね。

ChatGPT チャット画面、質問「1204*1402」とプログラム表示回答

おわりに

OpenAI、Anthropic、Google、Metaといった企業の努力によって、LLMを含む生成AIは格段に使いやすく、私たちの生活に浸透しつつあります。しかし、「生成AIは万能である」という誤解は避けなければなりません。

現状の生成AIはあくまでも確率に基づいてそれらしい文章や画像を生成しているに過ぎず、その出力の正確性や倫理性については常に注意が必要です。

生成AIをより有効に活用するためには、 「生成AIは何が得意で何が苦手なのか」 を理解し、 「道具として適切に使いこなす」 という姿勢が重要になってくるでしょう。
70 件

杜 博見

【GMOインターネットグループ デベロッパーエキスパート / GMOインターネットグループ グループ研究開発本部AI研究開発室データ解析・AI研究グループ 所属】
2023年 GMOインターネットグループ株式会社 新卒入社。博士。グループ横断のプロジェクトでAI技術を用いた解析支援・開発に携わっている。

ranking

  • 1
    サムネイル

    大ベストセラーで人生をデザインしなおそう! ──独立系書店店主が選ぶ「幸せな自分時間を取り戻す」ための4冊

  • 2
    サムネイル

    どの位まで聞こえるの?徹底性能比較!100円ショップの「防犯ブザー」&「ホイッスル」4選

  • 3
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 4
    サムネイル

    今日からできる、「なんかいいな」と思わせる写真の撮り方

  • 5
    サムネイル

    秋の夜長に!2024年、一気見したくなるNetflix映像作品7選

  • 1
    サムネイル

    大ベストセラーで人生をデザインしなおそう! ──独立系書店店主が選ぶ「幸せな自分時間を取り戻す」ための4冊

  • 2
    サムネイル

    秋の夜長に!2024年、一気見したくなるNetflix映像作品7選

  • 3
    サムネイル

    どの位まで聞こえるの?徹底性能比較!100円ショップの「防犯ブザー」&「ホイッスル」4選

  • 4
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 5
    サムネイル

    逸品発見!100均電子レンジ調理器6選。焼き魚にだし巻き卵、マカロニまで!

  • 1
    サムネイル

    どの位まで聞こえるの?徹底性能比較!100円ショップの「防犯ブザー」&「ホイッスル」4選

  • 2
    サムネイル

    秋の夜長に!2024年、一気見したくなるNetflix映像作品7選

  • 3
    サムネイル

    リアル育成ゲーム!「クワガタ・カブトムシのブリーディング」は驚くほど面白い

  • 4
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 5
    サムネイル

    箱根の紅葉シーズン、見頃をどう知る?温泉も充実エリア!?見どころ・穴場、渋滞回避ルートまで全部教えます!

internet for you.