アジア人以外の生成モデル「BRW」
──他の人種・民族も学習させたいという話が出ましたが、Kaiさんが作成したアジア人以外の美しい女性を生成するモデル「Beautiful Realistic Women(BRW)」について教えてください。
BRWで生成したイギリス人女性の画像
アフリカ系女性の画像
インド系女性の画像
BRWは10ほどの人種・民族の美しい女性について学習させたモデルです。ただ、なぜかBRAで生成できるようなアジア系の女性が、BRWではうまく生成できなくなってしまいました。
アジア人を学習データに混ぜた状態でモデルを作っていたんですが、その状態でBRAのようなアジア人の美しい女性をうまく生成できないんです。それで、BRWではアジア人を素材から除いて、アジア人以外の10ほどの人種・民族の美しい女性について学習しています。アジア人を生成したい場合はBRA、アジア人以外ではBRWと使い分けてもらえるとありがたいです。
アジア人を学習データに混ぜた状態でモデルを作っていたんですが、その状態でBRAのようなアジア人の美しい女性をうまく生成できないんです。それで、BRWではアジア人を素材から除いて、アジア人以外の10ほどの人種・民族の美しい女性について学習しています。アジア人を生成したい場合はBRA、アジア人以外ではBRWと使い分けてもらえるとありがたいです。
意外なBRA活用方法は偶然の産物
──私がBRAをよく使う理由の1つに「絵を写真に変換する能力が他のモデルと比べてずば抜けて高い」ということがあります。
この画像は「OpenJourney」というモデルで出力したオークをBRAで実写風に変換したものです。実は他のフォト系モデルでは、image2imageを用いて実写風にするにはプロンプト強度を0.7以上と高い値にしなければなりません。すると元の絵の特徴がかなり消えてしまいます。それに対してBRAでは0.5程度の低い値で実写風にすることができます。そのおかげでBRAでは「イラストの特徴を残したまま実写風に変換」することが他モデルに比べて圧倒的にやりやすいです。この例では0.48のプロンプト強度で行っています。
BRAが画像を実写風に変換する能力が高いことは知ってはいましたが、それを狙って作成してはいたわけではありません。BRAはあくまで美しいアジア人女性を出力するためのモデルで、素材もアジア人の美しい女性のみです。過学習(※)によって引き起こされているのかもしれませんね。
※過学習:学習の回数を増やしすぎたりすることで、学習させた素材の再現度は高くなるが素材とは異なる種類のものを作りづらくなる現象。ここではアジア人女性の写真ばかりを学習したことで、イラストよりも写真が生成される傾向になったため、イラストが実写に変換されやすくなっているのではないかということ
──『画像生成AIで思い通りの画像を作る!「BRAV5」を使いこなすプロンプトのコツ』にも書いたのですが、BRAはおじさんもかっこよく作れるんですよね。
BRAが画像を実写風に変換する能力が高いことは知ってはいましたが、それを狙って作成してはいたわけではありません。BRAはあくまで美しいアジア人女性を出力するためのモデルで、素材もアジア人の美しい女性のみです。過学習(※)によって引き起こされているのかもしれませんね。
※過学習:学習の回数を増やしすぎたりすることで、学習させた素材の再現度は高くなるが素材とは異なる種類のものを作りづらくなる現象。ここではアジア人女性の写真ばかりを学習したことで、イラストよりも写真が生成される傾向になったため、イラストが実写に変換されやすくなっているのではないかということ
──『画像生成AIで思い通りの画像を作る!「BRAV5」を使いこなすプロンプトのコツ』にも書いたのですが、BRAはおじさんもかっこよく作れるんですよね。
はい。おじさんもかっこよく作れますね。ただしネガティブプロンプトを工夫しないといけないですが。ただ、学習させているのは美しいアジア人の女性だけなんですよね。
──ご自身のプロフィール画像もBRAで作成されているんですよね。
──ご自身のプロフィール画像もBRAで作成されているんですよね。
はい、そうです。私はこういう小さいかわいいものも大好きで、学習もさせたいんですが、皆さん、リアリスティックな人間のほうを求めているので。
服のスタイルや質感などより複雑なコンセプトも実現したい
──5月にV5、7月にV6、10月にV7と、BRAはバージョンアップのペースが非常に速いですね。
以前は他のことをあまりしていなかったのもあって更新ペースが速かったのですが、最近は他のプロジェクトにも参加しているので様子が違ってきています。それでも、頑張って更新は早くしようと思っています。
──ベータ版もかなり頻繁にリリースされていますが、ベータ版と正式リリースは具体的にどういうところが違うのでしょうか。
バージョンをリリースするときはテストをしています。設定したプロンプトにちゃんと反応するかどうか。生成が安定しているかどうか。それでベータ版を作っていき、自分の目で見て生成結果が一番安定して美しいものを正式版としてリリースしています。
──素材が増えているということですが、今後はどういう方向へバージョンアップしていくことを考えていますか。
もっと複雑なコンセプトも実現できるように考えています。ファッションの実現度合いを高めたりとか。特に服のスタイルや質感をより再現できるような方向へ学習をさせる。よりエステティック(美的)にしたいと考えています。
──BRAのベースとなっているStable Diffusionに、より高画質なSDXLという新しいバージョンがリリースされました。BRAはSDXLより前のSD1.5がベースですが、SDXLについて対応の予定はあるのでしょうか。
SDXLのテストはかなりやっています。ただその出力が、まだあまり私が好きなものではないんです。実際学習させてみたんですが、結果があまりよくない。しばらくはSDXL版BRAを出すのは遠慮しようと思っています。
──BRAはしばらくSD1.5ベースのモデルで進めるということでしょうか。
そうですね。現在は確保できる時間も少なくなっているので、SDXLよりもSD1.5ベースで進めます。SD1.5ベースでも美しい生成ができている(※)ので。
※最新のBRAV8もSD1.5ベース
──8月に来日されていたそうですが、日本はどうでしたか。
観光したり、日本のユーザーと勉強会をしたりしていました。日本は素晴らしいところです。ビザの問題が解決すれば、日本で生活もしてみたいです。
──日本をほめてくださってありがとうございます。Kaiさんから見た日本のよいところはどんなところですか。
日本の伝統と文化が面白いです。アーティストに対するリスペクトがあるのもよいです。ファッションも素晴らしいし、女性も美しいです。
──ありがとうございます。最後にメッセージがあればどうぞ。
現在、企業向けのモデルも作成しています。他の企業の案件もやっていきたいので、興味のある企業があれば、ぜひお声がけください。
*****
次回は、Stable Diffusionでポーズを指定できる「ControlNet」の使い方をご紹介したいと思います。
以前は他のことをあまりしていなかったのもあって更新ペースが速かったのですが、最近は他のプロジェクトにも参加しているので様子が違ってきています。それでも、頑張って更新は早くしようと思っています。
──ベータ版もかなり頻繁にリリースされていますが、ベータ版と正式リリースは具体的にどういうところが違うのでしょうか。
バージョンをリリースするときはテストをしています。設定したプロンプトにちゃんと反応するかどうか。生成が安定しているかどうか。それでベータ版を作っていき、自分の目で見て生成結果が一番安定して美しいものを正式版としてリリースしています。
──素材が増えているということですが、今後はどういう方向へバージョンアップしていくことを考えていますか。
もっと複雑なコンセプトも実現できるように考えています。ファッションの実現度合いを高めたりとか。特に服のスタイルや質感をより再現できるような方向へ学習をさせる。よりエステティック(美的)にしたいと考えています。
──BRAのベースとなっているStable Diffusionに、より高画質なSDXLという新しいバージョンがリリースされました。BRAはSDXLより前のSD1.5がベースですが、SDXLについて対応の予定はあるのでしょうか。
SDXLのテストはかなりやっています。ただその出力が、まだあまり私が好きなものではないんです。実際学習させてみたんですが、結果があまりよくない。しばらくはSDXL版BRAを出すのは遠慮しようと思っています。
──BRAはしばらくSD1.5ベースのモデルで進めるということでしょうか。
そうですね。現在は確保できる時間も少なくなっているので、SDXLよりもSD1.5ベースで進めます。SD1.5ベースでも美しい生成ができている(※)ので。
※最新のBRAV8もSD1.5ベース
──8月に来日されていたそうですが、日本はどうでしたか。
観光したり、日本のユーザーと勉強会をしたりしていました。日本は素晴らしいところです。ビザの問題が解決すれば、日本で生活もしてみたいです。
──日本をほめてくださってありがとうございます。Kaiさんから見た日本のよいところはどんなところですか。
日本の伝統と文化が面白いです。アーティストに対するリスペクトがあるのもよいです。ファッションも素晴らしいし、女性も美しいです。
──ありがとうございます。最後にメッセージがあればどうぞ。
現在、企業向けのモデルも作成しています。他の企業の案件もやっていきたいので、興味のある企業があれば、ぜひお声がけください。
*****
次回は、Stable Diffusionでポーズを指定できる「ControlNet」の使い方をご紹介したいと思います。
小泉 勝志郎
株式会社テセラクト 代表取締役社長
シニアプログラミングネットワーク代表
震災復興活動の中で海藻・アカモクをモチーフにつくったキャラクター「渚の妖精ぎばさちゃん」を運営。Appleの開発者カンファレンスに「81歳のアプリ開発者」として招待された若宮正子さんへの教育をきっかけに、高齢者向けのプログラミング教育にも力を入れ、現在はコミュニティ「シニアプログラミングネットワーク」を運営する。2023年3月「第1回AIアートグランプリ」において「渚の妖精ぎばさちゃん」をテーマにした漫画で準グランプリを受賞するなど、生成AIにも造詣が深い。