学習の偏りとバイアス
さらに、もうひとつの問題は、「人があまり語らないこと」は学習できない点です。
GPT-xに対して以前よく指摘された(最近ではすっかり解決されてしまっていますが)問題で、こういうものがありました。
「ビートルズのメンバーは誰?」という問いに対して、GPT-xはうまく答えることができます。ところが「ジョン・レノンが属したグループ名は?」という問いにはうまく答えられませんでした。これは、インターネット上にそのような表現が少ないためです。
あまりに自明でインターネット上に書かれていないことや、レアな言い回し、超マイナーすぎるネタといったことについては学習できません。そのため、それを使って文章を作ったり、問いに答えたりすることもできません。
もっともTGAはいくらでも追加で学習させることができます。「このカテゴリーの勉強が不足しているな」と分かったら、すぐに補強可能なので、クリティカルな問題とはならないでしょう。
先ほどのロシアとウクライナの戦争についても、今ではちゃんと答えられるかもしれません。ただし、いろいろな価値観によるバイアスがかかり、学習に偏りが出る可能性は指摘されています。
特に顕著なのが経済的バイアスです。GPT-xは日本語より英語のほうが有能です。開発会社が英語圏の会社であること、インターネット上にあるデータは日本語よりも英語の方がはるかに多いことが主な要因であると思いますが、マイナーな言語の学習のために計算資源を使うのは経済的に割が合わないのでやらない可能性もあります。
全世界80億人の中で、日本語を使う人は1億人程度です。英語、スペイン語、中国語を使う人に比べたら圧倒的に少ないわけで、そのようなマイナーな言語に対して開発コストを割くのは経済合理性の観点からすると「ないわー」という話になりかねません。
DeepL(編集部注:ドイツのDeepL GmbHが2017年に発表・提供開始した高精度なAI翻訳サービス)で最近まで対ハングルの翻訳機能がなかったのも、ひょっとしたらそういう話者の人口的な理由があるからかもしれません。
また、テキストを与えるとそれに応じた絵を生成してくれるText to Image AI(
t2i)の世界でも日本を含むアジアを題材にした絵の生成があまり得意ではありません。
ヨーロッパ風の絵は非常に精巧にバリエーション豊かに描けるのに、アジアや日本風の絵は、まだまだ稚拙な出来栄えでバリエーションも少ないのです。描かれている漢字風の文字を見てみると一目瞭然。これは、学習データの不足が原因ではないかと考えられますが、ここにもTGAと同様に経済的バイアスが理由としてあるのかもしれません。日本、アジアの絵がヘタといってもアニメ絵は得意だったりするので、ますますその可能性があります。
最後に、以上の考察は、強いエビデンスがあるわけではなく、長年AIと付き合ってきた筆者がここ最近のAIたちを見て生み出した、とある「妄想」であることをお伝えしておきます。
GPT-xに対して以前よく指摘された(最近ではすっかり解決されてしまっていますが)問題で、こういうものがありました。
「ビートルズのメンバーは誰?」という問いに対して、GPT-xはうまく答えることができます。ところが「ジョン・レノンが属したグループ名は?」という問いにはうまく答えられませんでした。これは、インターネット上にそのような表現が少ないためです。
あまりに自明でインターネット上に書かれていないことや、レアな言い回し、超マイナーすぎるネタといったことについては学習できません。そのため、それを使って文章を作ったり、問いに答えたりすることもできません。
もっともTGAはいくらでも追加で学習させることができます。「このカテゴリーの勉強が不足しているな」と分かったら、すぐに補強可能なので、クリティカルな問題とはならないでしょう。
先ほどのロシアとウクライナの戦争についても、今ではちゃんと答えられるかもしれません。ただし、いろいろな価値観によるバイアスがかかり、学習に偏りが出る可能性は指摘されています。
特に顕著なのが経済的バイアスです。GPT-xは日本語より英語のほうが有能です。開発会社が英語圏の会社であること、インターネット上にあるデータは日本語よりも英語の方がはるかに多いことが主な要因であると思いますが、マイナーな言語の学習のために計算資源を使うのは経済的に割が合わないのでやらない可能性もあります。
全世界80億人の中で、日本語を使う人は1億人程度です。英語、スペイン語、中国語を使う人に比べたら圧倒的に少ないわけで、そのようなマイナーな言語に対して開発コストを割くのは経済合理性の観点からすると「ないわー」という話になりかねません。
DeepL(編集部注:ドイツのDeepL GmbHが2017年に発表・提供開始した高精度なAI翻訳サービス)で最近まで対ハングルの翻訳機能がなかったのも、ひょっとしたらそういう話者の人口的な理由があるからかもしれません。
また、テキストを与えるとそれに応じた絵を生成してくれるText to Image AI(
t2i)の世界でも日本を含むアジアを題材にした絵の生成があまり得意ではありません。
ヨーロッパ風の絵は非常に精巧にバリエーション豊かに描けるのに、アジアや日本風の絵は、まだまだ稚拙な出来栄えでバリエーションも少ないのです。描かれている漢字風の文字を見てみると一目瞭然。これは、学習データの不足が原因ではないかと考えられますが、ここにもTGAと同様に経済的バイアスが理由としてあるのかもしれません。日本、アジアの絵がヘタといってもアニメ絵は得意だったりするので、ますますその可能性があります。
最後に、以上の考察は、強いエビデンスがあるわけではなく、長年AIと付き合ってきた筆者がここ最近のAIたちを見て生み出した、とある「妄想」であることをお伝えしておきます。
森川 幸人
ゲームAI設計者、グラフィック・クリエイター、モリカトロン株式会社代表取締役、筑波大学非常勤講師
ゲームAIの研究開発、CG制作、ゲームソフト、アプリ開発を行う。ゲーム「がんばれ森川君2号」「ジャンピング・フラッシュ」「アストロノーカ」「くまうた」「ねこがきた」などを開発。ゲームAIに関する論文「ゲームとAは相性がよいのか?」(2017年・人工知能学会)などを執筆。X:@morikawa1go