GMOメディアの「日本語言語モデルの実践的評価」研究が人工知能学会に採択、IT分野での大規模言語モデルの能力差を解明

安蔵 靖志

AIGMOインターネットグループソーシャルグッド
GMOメディアは、「大規模言語モデルの日本語実践的評価:JGLUEITパスポート試験を用いた比較分析」をテーマとした研究を実施しました。大規模言語モデル(LLM)が持つ推論能力(正確な解答を導き出す力)や問題解決能力の特徴を分析することで、LLMごとのIT分野における能力差を解明しました。

本研究論文は人工知能学会が主催する「2024年人工知能学会全国大会」に採択されており、詳細とその結果はコエテコAI教育研究所のWebサイトで公開されています。

論文執筆者は、GMOメディア サービス開発部 シニアエンジニアの羽中田将氏。GMOメディアに2018年に入社し、2020年まで技術推進室でレコメンドやデータ分析基盤の作成。その後、サービス開発部インフラチームのDBA(Database Administrator)で、MySQLの運用を担当。AIチーム発足に伴い、2023年よりサービス開発部AIチームに所属し、社内データ活用やAIの推進を行っています。

「ITパスポート試験」によってIT分野におけるLLMの能力を評価

現在、各方面でChatGPTをはじめとする大規模言語モデル(LLM)の評価が行われており、医療や法律といった特定の専門分野に関する有用性の評価も進められています。今回の研究は、IT分野においてLLMがどの程度の能力を持っているかを解明することを目的に実施しました。

本研究でLLMの持つIT分野の推論・問題解決能力を評価するにあたっては、ITに関する基本的な知識や応用能力を測る国家試験「ITパスポート試験」の問題についてLLMがどのくらい正解を導き出すかを指標としました。対象としたLLMの通りです。

研究対象のLLM(シリーズ名(モデル名/開発者)

・GPT-3.5(gpt-3.5-turbo-1106/OpenAI)
・GPT-4(gpt-4-11-6-preview/OpenAI)
Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2/Stability AI)
・Swallow(Swallow-7B-instruct-hf/東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所の研究チーム)
・Nekomata(nekomata-7b-instruction/rinna)
・ELYZA-japanese-Llama-2-7b(ELYZA-japanese-Llama-2-7b-instruct/ELYZA)

研究方法1.汎用的な日本語問題と専門的な日本語問題を使用した各LLMの性能比較

入力される情報が特定分野へ特化していることが、LLMの解答の精度にどのように影響を与えるかを検証するため、LLMが一般常識をどの程度解答できるかを評価する「JGLUE試験」と「ITパスポート試験」の2つの試験に解答させ、正答率を検証しました。JGLUE試験は日本語LLMの精度を評価する基本的な試験の一つで、一般常識の質問に対する解答のスコアを基にLLMの精度を評価するものです。またLGLUE試験とITパスポート試験の結果を比較して分析を行いました。

研究方法2.プロンプトへのヒント挿入によるLLM推論能力(正確な解答を導き出す力)の向上評価

LLMが解答を導き出す力をさらに検証するため、解答を導くために役立つヒントをプロンプトに追加し、ヒントが提供された場合に、各LLMが正答率をどの程度向上させるかを評価しました。ヒントを含まないプロンプトで問題に解答させた<研究方法1>と、ヒントを含むプロンプトで問題に解答させた<研究方法2>の正答率を比較し、ヒントの有無がLLMの性能にどのような影響を及ぼすかを分析しました。

IT分野の問題に対して一定程度論理的な解答を導き出すことが期待できることが判明

2つの研究から判明したことは、以下の通りです。

研究方法1において、「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」は、約70%の精度で正しい解答を導き出しました。最も解答の精度が高かったのは「ELYZA-japanese-Llama-2-7b-instruct」で、正答率は72.3%です。

一方で、JGLUE試験のような一般常識問題で高い正答率を出せる「Japanese Stable LM Instruct Alpha 7B v2」「nekomata-7b-instruction」は、IT分野を苦手とする傾向が見られました。

研究方法2においては、IT分野が苦手なLLMであっても、解答を補助するヒントを与えることで、ほとんどのLLMで解答の精度が向上することが分かりました。

回答率一覧(LLMが獲得した点数割合)

IT分野での正確な解答を導き出す力はLLMモデルの間で差異があり、LLMにITmedia分野の質問する場合においては、ある程度有効的に活用できるLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、活用に注意しなければならないLLMがあると分かりました。

今後は他資格試験でもLLM評価、試験講座の開発を促進

GMOメディアは、提供するサービスをさらに進化させるため、2023年7月にAIチームを発足させました。さらにAIチームは、AIを教育に適用させる研究を通じて日本の教育産業に貢献することを目的に、プログラミング教育プラットフォームの「コエテコ byGMO」の知見を活かした研究を行う「コエテコAI教育研究所」を立ち上げました。本研究は「コエテコAI教育研究所」によるものです。

今回の調査結果では、専門分野に特化したチューニングを施していない汎用的なLLMでも、IT分野の正確な解答を一定の精度で期待できることが分かりました。ITパスポート試験の学習においても、解答に誤りがある可能性を踏まえた上で、「分からない単語や概念について質問する」「練習問題を作成する」などの活用方法はある程度有効といえます。

本研究によって、各LLMに得意分野や不得意分野があると判明したことは、有用であると考えられます。今後もコエテコAI教育研究所は、同様の方法でほかの資格試験を用いたLLMの評価分析を行っていく予定です。またその結果を基に、資格試験をはじめとする学習場面でLLMを活用した授業の提案や対策講座の開発を促進していくとしています。


GMOインターネットグループは、「AIで未来を創るNo.1企業グループ」の実現をテーマにさまざまな取り組みを行っており、自社の研究を論文として発表することもその1つです。論文の発表により、新たなアイデアや問題解決方法を社会に提供できるほか、業界全体の技術進歩や知識共有の促進が可能となります。また、ほかの研究者や企業との協力機会の獲得にもつながり、結果として未来創造が加速されることにもなるでしょう。

安蔵 靖志

Techジャーナリスト/家電エバンジェリスト
家電製品協会認定 家電製品総合アドバイザー(プラチナグレード)、スマートマスター。AllAbout デジタル・家電ガイド。ビジネス・IT系出版社を経てフリーに。デジタル家電や生活家電に関連する記事を執筆するほか、家電のスペシャリストとしてテレビやラジオ、新聞、雑誌など多数のメディアに出演。KBCラジオ「キャイ~ンの家電ソムリエ」にレギュラー出演するほか、ラジオ番組の家電製品紹介コーナーの商品リサーチ・構成にも携わっている。

ranking

  • 1
    サムネイル

    8つのポイントをチェックして「エアコン節電」、正しく賢く、快適に使うには?

  • 2
    サムネイル

    日本一危険な動物園「ノースサファリサッポロ」はコスパ最高!距離感ゼロの超ふれあい系テーマパークだった!

  • 3
    サムネイル

    話題のオートミール生活レシピ!和風仕上げがおいしい!白米と置き換えで9日間で2kg減

  • 4
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 5
    サムネイル

    Googleの最上位AIモデル「Gemini Ultra」が登場!早速試してみました

  • 1
    サムネイル

    8つのポイントをチェックして「エアコン節電」、正しく賢く、快適に使うには?

  • 2
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 3
    サムネイル

    「聞く技術」は信頼度を高める──独立系書店店主が選ぶ「聞き上手」になれる本5選

  • 4
    サムネイル

    日本一危険な動物園「ノースサファリサッポロ」はコスパ最高!距離感ゼロの超ふれあい系テーマパークだった!

  • 5
    サムネイル

    「たこ焼き器」で作る“たこ焼き以外レシピ”は予想以上においしくて楽しい

  • 1
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 2
    サムネイル

    Googleの最上位AIモデル「Gemini Ultra」が登場!早速試してみました

  • 3
    サムネイル

    全部試した!1食250kcalの「マイサイズ」で一番おいしいのは?

  • 4
    サムネイル

    8つのポイントをチェックして「エアコン節電」、正しく賢く、快適に使うには?

  • 5
    サムネイル

    AIでこんなことできたら!? が現実に!GeminiとGoogleマップの連携が便利!

internet for you.