2024年ChatGPTとGoogle Bardはどうなる？生成AIの最新動向

2024.2.2

Google「Bard」と新AIモデル「Gemini」

GoogleはLLMで利用されるTransferモデルを2017年に提唱し、Bertなどの言語モデルを提供してきました。ただし、ChatGPTのようなウェブサービスとして「Bard」を提供し始めたのは、2023年4月のことです。

少し昔を振り返るとGoogleは、Google Home（現在はGoogle Nest miniに名称変更）という対話型スマート・スピーカーを2016年から販売してきました。同様の対話型のスピーカーはAmazon Echo、LINE Crovaなど、各社からも発売されました。

写真右：Clova、真ん中：Google Home、左：Echo

人と対話を行うAIの提供者としては先行していた各社は、OpenAIの後塵（こうじん）を拝することになりました。その理由の1つには、LLMを搭載したサービスが、人と変わらない品質で対話できる点が挙げられるでしょう。

Bardが公開されてからリリースした主要な機能は、以下の通りです。

・4月10日：Bard公開
・5月23日：画像のマルチモーダル（※後述）化
・12月7日：高性能AI「Gemini」発表
・12月18日：Workspace（メール、Google Drive）を対象に検索・対話可能に

Googleには、もともとコードをブラウザで記述して実行できるGoogle Colab、GmailやGoogle Driveといったツールが充実していて、既存のツールと容易に連携することができるというメリットがあります。

また年末に発表した高性能AIモデル「Gemini」はChatGPT-4を越える性能になっています。Geminiを開発したチーム・Deep Mindは囲碁でトッププロを破ったことでも知られています。

Geminiは性能によって3種類提供されています。Googleは今後、高性能版「Ultra」、通常版「Pro」、スマートフォンなどのエッジデバイス用「Nano」を、それぞれの特性に合わせて活かしてくると考えられます。

マルチモーダルAI

テキストを使った対話だけではなく、画像・音声・動画など、多くの種類のデータと組み合わせて利用できるサービスを「マルチモーダルAI」と呼びます。例えば下の画像のように、ユーザーから与えられた画像の中から情報を推測して、ユーザーに提示することができます。

ラーメンの画像をアップして店名まで当てることができる

画像の例では、ラーメンの画像をアップして「これはどこのラーメン？」と聞くと、筆者がよく行く桜台駅前店のラーメン二郎を見事に当ててGoogle Mapで提示してくれました。ラーメンの画像だけではなく、画像に含まれるテキスト（お店の案内が書いてあるテキストが含まれている）も判別して、情報を推測していると考えられます。

Bardの強力な拡張機能

個人的にはBardと、LLMを実際にAPI経由で実行するプラットフォーム・Vertex AI（Google AI Studio）の環境は、非常に便利だと感じています。というのも、既存の機能と連携が容易だから。Google Workspace（Google Drive、Gmail）との連携、Google Map、Youtubeといった普段よく見るサイトとの連携がすでにされています。

現在のところ、Googlie Workspace、フライト、ホテル、Map、Youtubeと連携可

Bardではテキストや話し言葉で「メールから最新のAmazonで購入した商品を10件教えて」といった具合に、簡単にメールのリストを作ることができます。

筆者は健康診断の内容をデジタル・PDF化し、Google Drive上にまとめて置いてあります。試しにその内容をBardにチェックさせてみたところ、健康診断でドクターに言われたのと同じことを指摘してきました。ドクターに聞きにくいことを質問したり、いつでも確認したりできるドクターとして、未来のひとつのかたちを感じました。

AIに2024年の予測をさせてみる

将来の出来事は過去から現在、未来へと線形につながっているので、過去のデータを学習したLLMに将来がどうなるのかを聞いてみるのは一理あります。ChatGPT4、Bardのそれぞれに、未来予測を聞いてみました。

問：「2024年に生成AI・LLM関係に起きる新しい機能・サービスなどのビックインパクトを予想してトップ5を箇条書きで完結に説明してください。」

ChatGPT4の回答

Bardの回答

ChatGPT4、Bardともにふわっとした答えを出してきましたね。ざっくりまとめると、「より高性能になって、実用的なツールとして、創造性が増してくる」といった感じです。昨年の時点で、これほど生成AI・LLMがトレンドになると予想した人は少なかったはずです。私自身も全く予想すらしていませんでした。

AIはこれから汎用人工知能（AGI）のようなものに向かっていくと考えられます。ただ、それにはまだまだ1年では短いと感じます。2024年は現状のLLMがさらに高性能になって、人との協創によって面白いものが出てくる1年になることを期待しています。

45 件

GMOインターネットグループ　新里祐教

GMOインターネットグループ特命担当プログラマ、デベロッパーエキスパート
先端技術から個人制作・OSS・技術誌での執筆など広く行う。 2019-2020年「IPA 未踏ターゲットゲート式量子コンピュータ向けソフトウェア開発」、2022年「第25回文化庁メディア芸術祭エンターテイメント部門審査委員会推薦作品」、ほかイベントやハッカソンでの受賞など、制作した作品の展示をMaker Faireなどで行っている。