目覚ましい進化を遂げつつある人工知能(AI)。このまま進化したら、人間の仕事にどんな影響がもたらされるのでしょうか。AI研究者でグラフィッククリエイターの森川幸人さんに、ChatGPTやミッドジャーニー(Midjourney)などに代表される生成系AIのクオリティーがどこまで人間に近づいたのか、そして現在の生成系AIが抱える課題について、語ってもらいました。
森川幸人さんのこれまでのAI関連の記事はこちら:
初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(前編)
初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(後編)
森川幸人さんのこれまでのAI関連の記事はこちら:
初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(前編)
初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(後編)
AIは「人間越え」したのか?
暗号科学とコンピュータ科学の父と呼ばれるアラン・チューリングは、「人間の判定者が、機械と通常の言語での会話を行い、機械と人間との区別が3割以上できなかった場合、この機械はテストに合格したことになる」と言いました。いわゆる「チューリングテスト」というものです。チューリングの言う「機械」は現代の「AI」と置き換えてもいいかと思います。
まず、画像生成AIであるText to Image AI(以下、t2i)について、チューリングテストを考えてみます。
というか、考えるまでもなく「はい、合格です。ほぼ満点です」というくらいの見事さであります。昨年にはSNSでも相当数のt2iがつくった画像がアップされていましたので、ご納得いただけるかと思います。
もちろん、人間が創ったモノか、AIが創ったモノか100%見分けがつかないというわけではありませんが、チューリングの言う「機械と人間との区別が3割以上できない」という基準は余裕で超えている気がします。
少し前までなら、t2i、特にステーブル・ディフュージョン(以下、SD:Stable Diffusion)が描く絵については、人の指の形や本数などを見ればAIが描いた絵であると見破れたものですが(指の本数が5本ではなかったり、関節の向きが不自然であったり、爪が指の腹に付いていたり)、今ではかなり改善されてきています。
要は学習データが少なかったり、データのタグ付けが雑だっただけという話で、こうした不備は、多くの場合は追加学習で改善されます。つまり、どんどん人間の描く絵と区別がつかなくなるということです。
次に、キーワードやテーマを与えてやるとそれを使った文章をつくったり、逆に長い文章を要約できたり、気の利いた対話ができたりする、いわゆるテキスト生成AI(以下、TGA:Text Generative AI)のチューリングテストにについて考えてみましょう。
本稿を執筆した時点(2023年初旬)なら、ChatGPTに自分の経歴を聞いてみれば、よほどの有名人でない限り、簡単にウソと見破れます。
しかし、多くの場合は、人間より正しい答えを返してくれたり、無難な内容を言ったりして、人間かTGAかの判別は難しいものとなってきています。ですから、全体として見れば「ChatGPT、チューリングテスト合格!」と言っても差し支えないのではないかと思います。
TGAも追加の学習や、ルールベースによる補強などによって、ますます進化していくでしょうから、どんどん人が書くものと区別が付かなくなるはずです。
そして明らかにでたらめな文章であることが分かることより、文章があまりにももっともらしいがゆえに、正しいのか間違っているのか容易に判断がつかないような間違いの方が、うんとやっかいです。
このような場合、結局、自分でネット検索して調べたり、場合によっては一次情報までさかのぼって判断しないといけません。もっとも、これはTGAだから起こる問題ではなく、人間の発言でもよくある話です。ネット上の情報を適当に採取して編集し直して語るだけの人がたくさんいます。「XX評論家、XX研究家」なんて肩書きが付くと、ますます真偽が分からなくなる。そうした人の発言の真偽をよく確かめずすぐさま反応して痛い目に遭った人も少なくないでしょう。AIがそうした人のレベルに達したということだと思います。
まず、画像生成AIであるText to Image AI(以下、t2i)について、チューリングテストを考えてみます。
というか、考えるまでもなく「はい、合格です。ほぼ満点です」というくらいの見事さであります。昨年にはSNSでも相当数のt2iがつくった画像がアップされていましたので、ご納得いただけるかと思います。
もちろん、人間が創ったモノか、AIが創ったモノか100%見分けがつかないというわけではありませんが、チューリングの言う「機械と人間との区別が3割以上できない」という基準は余裕で超えている気がします。
少し前までなら、t2i、特にステーブル・ディフュージョン(以下、SD:Stable Diffusion)が描く絵については、人の指の形や本数などを見ればAIが描いた絵であると見破れたものですが(指の本数が5本ではなかったり、関節の向きが不自然であったり、爪が指の腹に付いていたり)、今ではかなり改善されてきています。
要は学習データが少なかったり、データのタグ付けが雑だっただけという話で、こうした不備は、多くの場合は追加学習で改善されます。つまり、どんどん人間の描く絵と区別がつかなくなるということです。
次に、キーワードやテーマを与えてやるとそれを使った文章をつくったり、逆に長い文章を要約できたり、気の利いた対話ができたりする、いわゆるテキスト生成AI(以下、TGA:Text Generative AI)のチューリングテストにについて考えてみましょう。
本稿を執筆した時点(2023年初旬)なら、ChatGPTに自分の経歴を聞いてみれば、よほどの有名人でない限り、簡単にウソと見破れます。
しかし、多くの場合は、人間より正しい答えを返してくれたり、無難な内容を言ったりして、人間かTGAかの判別は難しいものとなってきています。ですから、全体として見れば「ChatGPT、チューリングテスト合格!」と言っても差し支えないのではないかと思います。
TGAも追加の学習や、ルールベースによる補強などによって、ますます進化していくでしょうから、どんどん人が書くものと区別が付かなくなるはずです。
そして明らかにでたらめな文章であることが分かることより、文章があまりにももっともらしいがゆえに、正しいのか間違っているのか容易に判断がつかないような間違いの方が、うんとやっかいです。
このような場合、結局、自分でネット検索して調べたり、場合によっては一次情報までさかのぼって判断しないといけません。もっとも、これはTGAだから起こる問題ではなく、人間の発言でもよくある話です。ネット上の情報を適当に採取して編集し直して語るだけの人がたくさんいます。「XX評論家、XX研究家」なんて肩書きが付くと、ますます真偽が分からなくなる。そうした人の発言の真偽をよく確かめずすぐさま反応して痛い目に遭った人も少なくないでしょう。AIがそうした人のレベルに達したということだと思います。
無限生産
ある時期、SDによって生成された絵の投稿で自分のSNSが埋まったことがあります。
絵にしても文章にしても生成系AI(以下、GAI:Ganerative AI、編集部注:GAIとは、テキストを生成するChatGPTやイラストを生成するミッドジャーニーのようなAIのこと)は無限に生産します。
1つの絵や文章をつくるのが異常に速い×疲れを知らない×「失敗作かも」といった恥や不安も感じない×そもそも内面の欲求から発生しているわけじゃないから制作を自ら辞める理由もない = 無限生産となるわけです。
言うまでもなく、どの要素も人間には到底無理な話です。
「下手な鉄砲も数打ちゃ当たる」ということわざがあります。つまり、心血を注いで1つの作品を生み出すことと、無限に生成された作品のなかから気の利いた作品を選ぶという手法は、ひょっとすると等価になる可能性があります。今までは「数打ちゃ当たる」の「数」が不足していたために、後者の方が不利だっただけなのかもしれません。いずれにせよ、クリエイティブの世界でGAIと付き合うのであれば、後者の方式となります。
ゲーム業界では既にコンセプトアートにt2iを利用するゲーム会社が存在します。関係者にAIにコンセプトアートを描かせる利点を尋ねたところ、「何枚でも描いてくれる。ダメ出ししても文句を言わない。仕事が早いところが利点」だと言っていました。「絵のクオリティーじゃないんかい」と突っ込みたいところですが、確かに人間のアーティストには言いにくい要件ばかりですね。
実際に、小説や絵の公募案件で、AIが大量に投稿してくるという問題が既に発生しています。ほとんどの公募の募集要項には、「人間でないとダメ」とか「応募は、1人何点」という制限要項がありません。今後は、これらの点が改められることでしょう。
ただし、応募点数はともかく人間がつくったモノの定義は、かなり難儀しそうです。
絵の生成の場合、デジタルペイントの延長線にAIの生成があると考えると、Photoshopの画像加工とAIの生成との境界線は、とても曖昧です。文章の生成にしても、AIのアシストをどこまで許すか、たとえば「名称の自動生成まではOK」とか「プロットづくりにAIを使ってもOK」など、境界線作りは相当苦戦しそうです。「人かAIかは問わないが、お一人様1点でお願いします」あたりが落としどころでしょうか。
このようにGAIが大量の絵や文章を生み出し、それがそこそこのクオリティーとなった現在、クリエイターの定義もおのずと変わっていく気がします。
絵が描ける人とはどんな人でしょうか。凡人が思いもよらない光景を見つけ、あるいは思い付き、それを表現するために画材を器用に扱える技術を持った人でしょうか。今まではそうだったかもしれませんが、ひょっとするとこれからは、気の利いたコンセプトやテーマを見つけ、絵のテイストを決め、それらを言葉で指示して、AIに大量に生成させた絵から「良い絵」を選ぶ審美眼を持つ、美的センスと言葉のセンスを兼ね備えた人が「絵を描ける人」という定義になるかもしれません。
現時点では、人間がt2iに描かせたい絵をイメージしながら、「呪文」などと呼ばれるプロンプトを書くことになります。実際に試したことがある人なら分かると思いますが、実際には気の利いたプロンプトを書くのはそう簡単ではありません。意図するような絵を描かせたり、SNSなどに公開されているレベルの絵を描かせるのはとても難しいです。
プロンプトの内容を相当工夫しないと、t2iは思い通りの絵を描いてくれません。行き当たりばったりでいろんな表現のプロンプトを与えても、一向にゴールに近付かないのが現実です。ただし、ネット上にはお手本となるプロンプトも多く公開されていますので、それを「写経」して加工することで、そこそこいい絵を生成させることが可能です。
となると「だったらプロンプト自体をAIに学習させればいいじゃん」という発想へ自然と行き着きます。ネット上でイケてるプロンプトを収集して、AIに「コツ」を学習させる。また、適当につくったプロンプトから生成される絵に対して評価を与えることで、その評価を元にAIが学習していく。そうした手続きでAIが気の利いたプロンプトを生成することができるようになるでしょう。ここで、t2iとTGAが合流することになります。
生成された絵の評価も、初期の段階では人間の手が必要でしょうが、将来的にはAIに人がどのような絵を評価するかの「クセ」を学習させられれば、評価自体もAIが受け持つことができるようになるかもしれません。
余談ですが、テキストから画像を生成する「text to image AI」の他に「image to text AI」もあります。そして「image to image AI」も「text to text AI」もあります。今後は「text to image to text to text to image to ……」みたいなAIもできるかもしれません(何に使うかさっぱり分かりませんが)。
究極的には、人間のアーティストがやるべきことや持つべきスキルなり才能は、「どういう絵が欲しいか、どの絵を良いと思うか」という想像力だけということになるかもしれません。
人間のアーティストの仕事は、t2iに描かせたい絵のネタと、大量に生産された絵の選択をするだけ。選択までの前処理は、AIがやってくれるかもしれません。
「良い絵を生む」には、絵を描く技術より、テーマを見つけるセンス、絵を選別できるセンスが重要となりますが、よく考えてみたら、芸術っていつの時代もそれが一番大切なスキルであった気もします。
現時点で言えば、GAIが生み出す作品がトップクリエイターによる作品を超えることはないと願い半分で予測していますが、「悪の大魔王が持つ魔法の剣のデザインをしてよ」と言われたら、すぐさまネットを検索していろいろな魔法の剣の絵を集めて、それを組み合わせてそれなりにデザインする程度の気構えのアーティストは、ネット検索から制作までのスピード、物量、そして厳しい締め切り、度重なるリテイクにくじけないメンタル、いずれの面においてもGAIに負けることになるでしょう。
絵にしても文章にしても生成系AI(以下、GAI:Ganerative AI、編集部注:GAIとは、テキストを生成するChatGPTやイラストを生成するミッドジャーニーのようなAIのこと)は無限に生産します。
1つの絵や文章をつくるのが異常に速い×疲れを知らない×「失敗作かも」といった恥や不安も感じない×そもそも内面の欲求から発生しているわけじゃないから制作を自ら辞める理由もない = 無限生産となるわけです。
言うまでもなく、どの要素も人間には到底無理な話です。
「下手な鉄砲も数打ちゃ当たる」ということわざがあります。つまり、心血を注いで1つの作品を生み出すことと、無限に生成された作品のなかから気の利いた作品を選ぶという手法は、ひょっとすると等価になる可能性があります。今までは「数打ちゃ当たる」の「数」が不足していたために、後者の方が不利だっただけなのかもしれません。いずれにせよ、クリエイティブの世界でGAIと付き合うのであれば、後者の方式となります。
ゲーム業界では既にコンセプトアートにt2iを利用するゲーム会社が存在します。関係者にAIにコンセプトアートを描かせる利点を尋ねたところ、「何枚でも描いてくれる。ダメ出ししても文句を言わない。仕事が早いところが利点」だと言っていました。「絵のクオリティーじゃないんかい」と突っ込みたいところですが、確かに人間のアーティストには言いにくい要件ばかりですね。
実際に、小説や絵の公募案件で、AIが大量に投稿してくるという問題が既に発生しています。ほとんどの公募の募集要項には、「人間でないとダメ」とか「応募は、1人何点」という制限要項がありません。今後は、これらの点が改められることでしょう。
ただし、応募点数はともかく人間がつくったモノの定義は、かなり難儀しそうです。
絵の生成の場合、デジタルペイントの延長線にAIの生成があると考えると、Photoshopの画像加工とAIの生成との境界線は、とても曖昧です。文章の生成にしても、AIのアシストをどこまで許すか、たとえば「名称の自動生成まではOK」とか「プロットづくりにAIを使ってもOK」など、境界線作りは相当苦戦しそうです。「人かAIかは問わないが、お一人様1点でお願いします」あたりが落としどころでしょうか。
このようにGAIが大量の絵や文章を生み出し、それがそこそこのクオリティーとなった現在、クリエイターの定義もおのずと変わっていく気がします。
絵が描ける人とはどんな人でしょうか。凡人が思いもよらない光景を見つけ、あるいは思い付き、それを表現するために画材を器用に扱える技術を持った人でしょうか。今まではそうだったかもしれませんが、ひょっとするとこれからは、気の利いたコンセプトやテーマを見つけ、絵のテイストを決め、それらを言葉で指示して、AIに大量に生成させた絵から「良い絵」を選ぶ審美眼を持つ、美的センスと言葉のセンスを兼ね備えた人が「絵を描ける人」という定義になるかもしれません。
現時点では、人間がt2iに描かせたい絵をイメージしながら、「呪文」などと呼ばれるプロンプトを書くことになります。実際に試したことがある人なら分かると思いますが、実際には気の利いたプロンプトを書くのはそう簡単ではありません。意図するような絵を描かせたり、SNSなどに公開されているレベルの絵を描かせるのはとても難しいです。
プロンプトの内容を相当工夫しないと、t2iは思い通りの絵を描いてくれません。行き当たりばったりでいろんな表現のプロンプトを与えても、一向にゴールに近付かないのが現実です。ただし、ネット上にはお手本となるプロンプトも多く公開されていますので、それを「写経」して加工することで、そこそこいい絵を生成させることが可能です。
となると「だったらプロンプト自体をAIに学習させればいいじゃん」という発想へ自然と行き着きます。ネット上でイケてるプロンプトを収集して、AIに「コツ」を学習させる。また、適当につくったプロンプトから生成される絵に対して評価を与えることで、その評価を元にAIが学習していく。そうした手続きでAIが気の利いたプロンプトを生成することができるようになるでしょう。ここで、t2iとTGAが合流することになります。
生成された絵の評価も、初期の段階では人間の手が必要でしょうが、将来的にはAIに人がどのような絵を評価するかの「クセ」を学習させられれば、評価自体もAIが受け持つことができるようになるかもしれません。
余談ですが、テキストから画像を生成する「text to image AI」の他に「image to text AI」もあります。そして「image to image AI」も「text to text AI」もあります。今後は「text to image to text to text to image to ……」みたいなAIもできるかもしれません(何に使うかさっぱり分かりませんが)。
究極的には、人間のアーティストがやるべきことや持つべきスキルなり才能は、「どういう絵が欲しいか、どの絵を良いと思うか」という想像力だけということになるかもしれません。
人間のアーティストの仕事は、t2iに描かせたい絵のネタと、大量に生産された絵の選択をするだけ。選択までの前処理は、AIがやってくれるかもしれません。
「良い絵を生む」には、絵を描く技術より、テーマを見つけるセンス、絵を選別できるセンスが重要となりますが、よく考えてみたら、芸術っていつの時代もそれが一番大切なスキルであった気もします。
現時点で言えば、GAIが生み出す作品がトップクリエイターによる作品を超えることはないと願い半分で予測していますが、「悪の大魔王が持つ魔法の剣のデザインをしてよ」と言われたら、すぐさまネットを検索していろいろな魔法の剣の絵を集めて、それを組み合わせてそれなりにデザインする程度の気構えのアーティストは、ネット検索から制作までのスピード、物量、そして厳しい締め切り、度重なるリテイクにくじけないメンタル、いずれの面においてもGAIに負けることになるでしょう。
森川 幸人
ゲームAI設計者、グラフィック・クリエイター、モリカトロン株式会社代表取締役、筑波大学非常勤講師
ゲームAIの研究開発、CG制作、ゲームソフト、アプリ開発を行う。ゲーム「がんばれ森川君2号」「ジャンピング・フラッシュ」「アストロノーカ」「くまうた」「ねこがきた」などを開発。ゲームAIに関する論文「ゲームとAは相性がよいのか?」(2017年・人工知能学会)などを執筆。X:@morikawa1go