初心者でも分かる生成系AI入門:ChatGPTが開いた「AIブーム3.5」の扉(前編)

森川 幸人

AISpecialクリエイターテクノロジー
ChatGPTやミッドジャーニー(Mid Journey、以下MJ)といった文章や絵を生成する「生成系AI」に関するニュースや噂が毎日飛び交っています。すごいことは分かるけれど、じゃあどういう仕組みのものなのでしょう? 人工知能を取り入れたPlayStationのゲームソフト『がんばれ森川君2号』や『アストロノーカ』の作者で、AI入門書の名著『マッチ箱の脳(AI)―使える人工知能のお話』の著者としても知られるグラフィッククリエイターの森川幸人さんに、AIの長い歴史を踏まえつつ生成系AIについて、前後編に分けてゆるく教えてもらいました。前編は、生成系AIの仕組みにまつわる“超簡単な”お話です。

AIブーム3.5

この記事を頼まれたのは2022年秋ごろで、ちょうどMJやステーブル・ディフュージョン(Stable Diffusion)などのテキスト(プロンプト)を与えるとそれに応じた絵を生成してくれるText to Image AIが話題になっていた時期でした。ですのでその話でも書いてお茶を濁そうかと考えていたのですが、2022年の末に、例のChatGPTがリリースされ、テキスト生成AI(TGA)の方も「すげー」ということになって、ここ最近は、絵を描くAIと文章を書くAI、総称して生成系AI(以下、GAI:Ganerative AI)が話題です。

生成系AIと近いAIで、汎用性人工生命もたまにGAI(General AI)と呼ぶことがありますので、ややこしい限りです。ちなみに、最近では汎用性人工生命はAGI(Artificial General Inteligence)と呼ばれることが一般的ですが、GAIとAGIも、ややこしさの点では五十歩百歩の感はあります。

1980年代の第2次AIブームよりAIに関わっている身としては、ここ最近のAIの進化スピード感には仰天するばかりで、関連論文を全く読み切れておらず、正直、最新の状況にもついていけていない自覚があります。

現在は、第3次AIブームと言われていますが、現在は、その中で生まれた小爆発期で「AIブーム3.5」と言ってもよいかもしれません。

Text to Image AI、GPT-x(編集部注:GPT-xとはOpenAIが開発した言語AIのこと。GPT-xを基にしたチャットボットがChatGPT)、ChatGPTなどの詳細は、すでにインターネット上にたくさんの良質な情報が存在していますので、詳しい情報や正確な情報はそちらにお任せするとして、ここでは初心者でも分かるざっくりした説明、かつ、あまり仕事に役に立ちそうにない情報を中心に書かせてもらおうかと思っております。

というわけで、最初にText to Image AI、テキスト生成AIといった生成系AIの簡単な説明をして、そのあと、それらがもたらす未来の可能性と問題点について、長年AIに関わってきた立場から思いつくまま記します。

画像生成AI:「Text to Image AI」の超基本的な仕組み

いまさらText to Image AI(以後、t2i)の説明ってのもなんだか周回遅れな感じもしますが、t2iとはその名の通り、テキスト(プロンプト)を与えるとそれに応じた絵を生成してくれるAIで、最近ではミッドジャーニー(以下、MJ)とステーブル・ディフュージョン(以下、SD)が有名です。それ以前にもChatGPTを開発したOpen AIからはDALL-E 2、GoogleはImagen、ほかにもNVIDIAはGauGANを発表しています。

MDやSDは新人ですが、使い勝手の良いUIと、基本無料の太っ腹なサービス、そして出来上がってくる絵のクオリティが素晴らしいということで一気にトップになりました。

t2iが登場する以前にも、絵の生成に長けたAIが存在しました。その代表格がGANファミリーです(編集部注:GANとは「敵対的生成ネットワーク」と呼ばれるAIのこと)。ファミリーと書かざるを得ないくらいたくさんのバリエーション(アルゴリズム)が考案されています。

GANがどうやって絵を生成するかを説明するのは結構大変なので、ここでは割愛させてもらいます。GANについてもネット上にたくさんの有用情報がありますので、詳しいことを知りたい方はそちらを参照してください。それこそ、新しいbingで検索すると、すごく“タイパ”が良いです。

超簡単にGANを説明すると、見本となる絵を与えて、それにそっくりな絵を描けるように学習していくというアルゴリズムです。見本の絵の「特徴」を学習します。特徴とは、例えば「シマウマとは白い馬に黒い縦シマがある」といったことです。単に形をまねるだけでなく特徴を学習するので、シマウマだけでなく、シマウマ化した象、シマウマ化した花瓶、シマウマ化したリンゴなどを描くことができます。

こうした特徴を抽出する能力に長けたGANファミリーの1つに、CyclickGANがあります。

シマウマの絵を学習する際に、シマウマの絵に「シマウマ」という言葉(タグと呼びます)を付けて学習させると、シマウマの特徴の学習と同時に、「シマウマ」という名称も紐付けることができます。こうすると「シマウマ」というテキストを与えてやるだけでシマウマの絵を描くことができるようになるのです。

これがt2iの基本的な仕組みです。

……と、超簡単に書いていますが、実際には、テキストの解釈でCLIPと呼ばれる自然言語処理AIが絡むなど、かなり複雑な仕組みでして、ガチで学びたい方はそれなりの覚悟と数学的知識が必要であることはお伝えしておかねばなりません。
11 件

森川 幸人

ゲームAI設計者、グラフィック・クリエイター、モリカトロン株式会社代表取締役、筑波大学非常勤講師
ゲームAIの研究開発、CG制作、ゲームソフト、アプリ開発を行う。ゲーム「がんばれ森川君2号」「ジャンピング・フラッシュ」「アストロノーカ」「くまうた」「ねこがきた」などを開発。ゲームAIに関する論文「ゲームとAは相性がよいのか?」(2017年・人工知能学会)などを執筆。X:@morikawa1go

ranking

  • 1
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 2
    サムネイル

    どの位まで聞こえるの?徹底性能比較!100円ショップの「防犯ブザー」&「ホイッスル」4選

  • 3
    サムネイル

    逸品発見!100均電子レンジ調理器6選。焼き魚にだし巻き卵、マカロニまで!

  • 4
    サムネイル

    新しいiPhone 16シリーズは何が変わった?Pixel 9シリーズとどちらを買うべき?

  • 5
    サムネイル

    お風呂タイムが充実!100円ショップで買える防滴 Bluetooth スピーカー3種を比べてみた

  • 1
    サムネイル

    新しいiPhone 16シリーズは何が変わった?Pixel 9シリーズとどちらを買うべき?

  • 2
    サムネイル

    秋の夜長に!2024年、一気見したくなるNetflix映像作品7選

  • 3
    サムネイル

    ダイソー・セリア・キャンドゥ 100円ショップのパソコン周りクリーナーおすすめ6種を試してみた

  • 4
    サムネイル

    どの位まで聞こえるの?徹底性能比較!100円ショップの「防犯ブザー」&「ホイッスル」4選

  • 5
    サムネイル

    大ベストセラーで人生をデザインしなおそう! ──独立系書店店主が選ぶ「幸せな自分時間を取り戻す」ための4冊

  • 1
    サムネイル

    秋の夜長に!2024年、一気見したくなるNetflix映像作品7選

  • 2
    サムネイル

    リアル育成ゲーム!「クワガタ・カブトムシのブリーディング」は驚くほど面白い

  • 3
    サムネイル

    新しいiPhone 16シリーズは何が変わった?Pixel 9シリーズとどちらを買うべき?

  • 4
    サムネイル

    どの位まで聞こえるの?徹底性能比較!100円ショップの「防犯ブザー」&「ホイッスル」4選

  • 5
    サムネイル

    大ベストセラーで人生をデザインしなおそう! ──独立系書店店主が選ぶ「幸せな自分時間を取り戻す」ための4冊

internet for you.