毎週のように何かニュースが出てくる日々
AIの開発は、本当に激しい世界です。毎週のように新しい何かニュースが出てきて、追いかけているだけで1週間が終わってしまいそうな勢いです。この記事を書いているのは2023年末。記事が公開されるころには、また何か新しいプロダクトや機能が出て、世間をにぎわせていることでしょう。
個人的な所感では、2023年の前半はOpenAIが世間をにぎわせ、年末にかけてはGoogleが新しいAIモデル「Gemini」で盛り返してきた、といった感じがしています。
個人的な所感では、2023年の前半はOpenAIが世間をにぎわせ、年末にかけてはGoogleが新しいAIモデル「Gemini」で盛り返してきた、といった感じがしています。
Google AI StudioのGemini Pro Vision
本稿では2023年のAIの大きな潮流から、2024年に何が起きるかを考えてみます。
開発者を苦しめるAI進歩のスピード感
僕自身は開発者で、新しい機能やサービスを追いかけ続ける宿命についてはある種、諦めのようなものがありますが、それでもAI技術に関連した恐ろしいほどの開発スピード感には本当にヤバいと感じています。というのも、
・新しい機能が出てくるたびに使ってみて検証をしている
・関連する機能が更新されると差分でプログラムが動かなくなる
からです。
新しい機能はとても面白くて興味をそそられるものが多く、何かと触って検証しなければなりません。そのためには、新機能をキャッチアップするための時間・コストが必要です。
また機能が追加されると、古い機能が廃止されたり、更新すると動かなくなるプログラムが出てきたりします。「常にプログラムを最新にしておきたい!!」という気持ちと相反するように、動かなくなる可能性も出てくるため、更新時にも検証が必要になって、コストに直結するというわけです。
・新しい機能が出てくるたびに使ってみて検証をしている
・関連する機能が更新されると差分でプログラムが動かなくなる
からです。
新しい機能はとても面白くて興味をそそられるものが多く、何かと触って検証しなければなりません。そのためには、新機能をキャッチアップするための時間・コストが必要です。
また機能が追加されると、古い機能が廃止されたり、更新すると動かなくなるプログラムが出てきたりします。「常にプログラムを最新にしておきたい!!」という気持ちと相反するように、動かなくなる可能性も出てくるため、更新時にも検証が必要になって、コストに直結するというわけです。
OpenAI GPT-4に描いてもらった「多くのAIの機能やサービスリリースで苦しんでいる開発者」のイラスト
それでもAIに関するサービス・技術・機能を追いかけ続けるのは、開発者にとっては必要なこと。ですから、よくいわれるような「AIによって開発が便利になる」というよりも、「AIによって開発が便利になって忙しくなる」と感じている開発者は多いはずです。
この流れは2024年も変わらないでしょう。
この流れは2024年も変わらないでしょう。
画像生成とビッグ2 LLM ~ OpenAI・Google
昨今は生成AIや大規模言語モデル(LLM)が脚光を浴びやすく注目されていますが、自動運転、ECサイトでの商品のレコメンデーション、株価の予測など、実はAIの種類は多岐に渡ります。
ここでは2023年の振り返りとして、画像生成の可能性を飛躍的に上げた「Stable Diffusion」について最初に取り上げます。また、2大LLMの開発企業であるOpenAIとGoogleについても、2023年の動向を振り返ってみます。
ここでは2023年の振り返りとして、画像生成の可能性を飛躍的に上げた「Stable Diffusion」について最初に取り上げます。また、2大LLMの開発企業であるOpenAIとGoogleについても、2023年の動向を振り返ってみます。
画像生成「Stable Diffusion」
最近ではSNSにアップされる画像だけでなく、CMでさえも画像生成AIを利用している場合もあります。伊藤園が生成AIで作成したCMモデルを起用した例や、商品ボトルのパッケージやCM自体を自動生成したコカ・コーラの事例は話題になりました。
筆者も画像生成AIにはとてもお世話になりました。例えば、以下のアイコンはあるSlack Botアプリ用に使ったアイコンで、AIで自動生成したものです。
筆者も画像生成AIにはとてもお世話になりました。例えば、以下のアイコンはあるSlack Botアプリ用に使ったアイコンで、AIで自動生成したものです。
生成AIで作成したアイコン
以前はクリエイターにアイコンの依頼をしていたのが、画像生成によって素材・アイコンなどを一括で大量生成して、その中から選んで利用するといったことが可能になりました。「これによってクリエイターの職がなくなるのでは?」という懸念も頻繁に出てくるものの、僕はより専門職の価値が高くなると考えています。
盲目的にAIを信じて利用し、何か問題があったとき「AIが作ったせいです」といえることは、まずないでしょう。そこで、生成されたコンテンツをそのまま信じて使うのではなく、専門家によってキュレーションされ、選ばれて手直しされたものに価値が出てくるわけです。
盲目的にAIを信じて利用し、何か問題があったとき「AIが作ったせいです」といえることは、まずないでしょう。そこで、生成されたコンテンツをそのまま信じて使うのではなく、専門家によってキュレーションされ、選ばれて手直しされたものに価値が出てくるわけです。
Stable Diffusion、AnimatedDiffで生成した人物動画
画像生成では静止画だけではなく、動画・3Dモデルのように「より動かせるもの」も生成できるようになりました。
2024年もクオリティの高い画像・動画を自動生成する流れは、もはや止まることはありません。ただし、コンテンツ・画像の自動生成においては、フェイク動画のようなリスクや著作権への配慮がより求められるでしょう。
2024年もクオリティの高い画像・動画を自動生成する流れは、もはや止まることはありません。ただし、コンテンツ・画像の自動生成においては、フェイク動画のようなリスクや著作権への配慮がより求められるでしょう。
OpenAI「ChatGPT」とMicrosoftの動向
2015年に設立されたOpenAIは、この数年で大きく飛躍しました。特に2023年3月に公開されたAIモデル・GPT-4は、まるで普通の人と自然と話しているような感覚になるほどで、非常にインパクトがありました。
TVのニュースで当たり前のようにOpenAIのAIチャットサービス「ChatGPT」が紹介され、OpenAI CEOのサム・アルトマン氏が来日して岸田総理と面会するなど、一種の社会現象のようにもなっています。
TVのニュースで当たり前のようにOpenAIのAIチャットサービス「ChatGPT」が紹介され、OpenAI CEOのサム・アルトマン氏が来日して岸田総理と面会するなど、一種の社会現象のようにもなっています。
ChatGPTのトップページ
GPT-4が公開されてからOpenAIがリリースした主要な機能は、以下の通りです。
・3月23日:ChatGPTのAIプラグイン機能
・5月12日:ウェブブラウジング機能
・5月24日:iOS アプリリリース
・7月6日:Code Interpreter機能のリリース
・9月25日:GPT-4V(マルチモーダル(※後述)対応)
・11月6日:GPTs機能の展開
いま振り返ってみても、頻繁に機能リリースが行われています。
同時にこの間、MicrosoftはOpenAIとの協業により、Word、PowerPointなどでのドキュメント・資料やソースコードの作成を支援してくれるMicrosoft Copilot関連製品をリリース・拡充してきました。
まさに研究畑で理論と実証実験のOpenAIと、商業的で販路と大量のサーバーリソースを持つMicrosoftが、両輪で回って走り抜けた2023年といえるでしょう。
・3月23日:ChatGPTのAIプラグイン機能
・5月12日:ウェブブラウジング機能
・5月24日:iOS アプリリリース
・7月6日:Code Interpreter機能のリリース
・9月25日:GPT-4V(マルチモーダル(※後述)対応)
・11月6日:GPTs機能の展開
いま振り返ってみても、頻繁に機能リリースが行われています。
同時にこの間、MicrosoftはOpenAIとの協業により、Word、PowerPointなどでのドキュメント・資料やソースコードの作成を支援してくれるMicrosoft Copilot関連製品をリリース・拡充してきました。
まさに研究畑で理論と実証実験のOpenAIと、商業的で販路と大量のサーバーリソースを持つMicrosoftが、両輪で回って走り抜けた2023年といえるでしょう。
最新データと連携する「ウェブブラウジング機能」「プラグイン機能」
食べログのプラグインを利用してカレー屋さんを検索
AIはほとんどの場合、過去のデータを利用して学習を行います。その学習結果を使って予測を行うのです。
OpenAIは早々にプラグイン機能を提供して、外部のサービスをプラグインとしてChatGPTに組み込める機能を提供しました。これによってChatGPTはチャットのみの機能から、最新データで外部サービスと連携するという方向性を獲得。2023年末の現在、提供されているプラグインストアでは1100個以上ものプラグインが提供されています。
ChatGPTの学習モデル自体は、過去のインターネット上のデータを学習に使用しています。加えて、最新の情報をインターネット上から検索して利用するウェブブラウジング機能やプラグイン機能で、最新の情報や外部機能と連携することで、学習モデルだけでは補完できない最新データとの連携もできるようになりました。
OpenAIは早々にプラグイン機能を提供して、外部のサービスをプラグインとしてChatGPTに組み込める機能を提供しました。これによってChatGPTはチャットのみの機能から、最新データで外部サービスと連携するという方向性を獲得。2023年末の現在、提供されているプラグインストアでは1100個以上ものプラグインが提供されています。
ChatGPTの学習モデル自体は、過去のインターネット上のデータを学習に使用しています。加えて、最新の情報をインターネット上から検索して利用するウェブブラウジング機能やプラグイン機能で、最新の情報や外部機能と連携することで、学習モデルだけでは補完できない最新データとの連携もできるようになりました。
プログラミング不要のアプリ開発「GPTs」
GPTs Builderのトップページ。インボイス特定は、筆者が作ったインボイスを特定するアプリ
ChatGPTをオリジナルのチャットボットとしてカスタマイズできる「GPTs」は、プログラム・コーディングをすることなくボットアプリを作れる機能として話題を集めました。
GMOインターネットグループのサービスである教えて AIでも、GPTs機能に早々に対応して、多くのアプリが投稿されています。ChatGPTがプログラマーでなくてもアプリを作れる機能まで備えたことは、「AIによって誰でもクリエイティブになれる」ことを実証しているようにさえ感じます。
GMOインターネットグループのサービスである教えて AIでも、GPTs機能に早々に対応して、多くのアプリが投稿されています。ChatGPTがプログラマーでなくてもアプリを作れる機能まで備えたことは、「AIによって誰でもクリエイティブになれる」ことを実証しているようにさえ感じます。
GMOインターネットグループ 新里祐教
GMOインターネットグループ特命担当プログラマ、デベロッパーエキスパート
先端技術から個人制作・OSS・技術誌での執筆など広く行う。 2019-2020年「IPA 未踏ターゲット ゲート式量子コンピュータ向けソフトウェア開発」、2022年「第25回文化庁メディア芸術祭 エンターテイメント部門 審査委員会推薦作品」、ほかイベントやハッカソンでの受賞など、制作した作品の展示をMaker Faireなどで行っている。