Google「Bard」と新AIモデル「Gemini」
GoogleはLLMで利用されるTransferモデルを2017年に提唱し、Bertなどの言語モデルを提供してきました。ただし、ChatGPTのようなウェブサービスとして「Bard」を提供し始めたのは、2023年4月のことです。
少し昔を振り返るとGoogleは、Google Home(現在はGoogle Nest miniに名称変更)という対話型スマート・スピーカーを2016年から販売してきました。同様の対話型のスピーカーはAmazon Echo、LINE Crovaなど、各社からも発売されました。
少し昔を振り返るとGoogleは、Google Home(現在はGoogle Nest miniに名称変更)という対話型スマート・スピーカーを2016年から販売してきました。同様の対話型のスピーカーはAmazon Echo、LINE Crovaなど、各社からも発売されました。
写真右:Clova、真ん中:Google Home、左:Echo
人と対話を行うAIの提供者としては先行していた各社は、OpenAIの後塵(こうじん)を拝することになりました。その理由の1つには、LLMを搭載したサービスが、人と変わらない品質で対話できる点が挙げられるでしょう。
Bardが公開されてからリリースした主要な機能は、以下の通りです。
・4月10日:Bard公開
・5月23日:画像のマルチモーダル(※後述)化
・12月7日:高性能AI「Gemini」発表
・12月18日:Workspace(メール、Google Drive)を対象に検索・対話可能に
Googleには、もともとコードをブラウザで記述して実行できるGoogle Colab、GmailやGoogle Driveといったツールが充実していて、既存のツールと容易に連携することができるというメリットがあります。
また年末に発表した高性能AIモデル「Gemini」はChatGPT-4を越える性能になっています。Geminiを開発したチーム・Deep Mindは囲碁でトッププロを破ったことでも知られています。
Geminiは性能によって3種類提供されています。Googleは今後、高性能版「Ultra」、通常版「Pro」、スマートフォンなどのエッジデバイス用「Nano」を、それぞれの特性に合わせて活かしてくると考えられます。
Bardが公開されてからリリースした主要な機能は、以下の通りです。
・4月10日:Bard公開
・5月23日:画像のマルチモーダル(※後述)化
・12月7日:高性能AI「Gemini」発表
・12月18日:Workspace(メール、Google Drive)を対象に検索・対話可能に
Googleには、もともとコードをブラウザで記述して実行できるGoogle Colab、GmailやGoogle Driveといったツールが充実していて、既存のツールと容易に連携することができるというメリットがあります。
また年末に発表した高性能AIモデル「Gemini」はChatGPT-4を越える性能になっています。Geminiを開発したチーム・Deep Mindは囲碁でトッププロを破ったことでも知られています。
Geminiは性能によって3種類提供されています。Googleは今後、高性能版「Ultra」、通常版「Pro」、スマートフォンなどのエッジデバイス用「Nano」を、それぞれの特性に合わせて活かしてくると考えられます。
マルチモーダルAI
テキストを使った対話だけではなく、画像・音声・動画など、多くの種類のデータと組み合わせて利用できるサービスを「マルチモーダルAI」と呼びます。例えば下の画像のように、ユーザーから与えられた画像の中から情報を推測して、ユーザーに提示することができます。
ラーメンの画像をアップして店名まで当てることができる
画像の例では、ラーメンの画像をアップして「これはどこのラーメン?」と聞くと、筆者がよく行く桜台駅前店のラーメン二郎を見事に当ててGoogle Mapで提示してくれました。ラーメンの画像だけではなく、画像に含まれるテキスト(お店の案内が書いてあるテキストが含まれている)も判別して、情報を推測していると考えられます。
Bardの強力な拡張機能
個人的にはBardと、LLMを実際にAPI経由で実行するプラットフォーム・Vertex AI(Google AI Studio)の環境は、非常に便利だと感じています。というのも、既存の機能と連携が容易だから。Google Workspace(Google Drive、Gmail)との連携、Google Map、Youtubeといった普段よく見るサイトとの連携がすでにされています。
現在のところ、Googlie Workspace、フライト、ホテル、Map、Youtubeと連携可
Bardではテキストや話し言葉で「メールから最新のAmazonで購入した商品を10件教えて」といった具合に、簡単にメールのリストを作ることができます。
筆者は健康診断の内容をデジタル・PDF化し、Google Drive上にまとめて置いてあります。試しにその内容をBardにチェックさせてみたところ、健康診断でドクターに言われたのと同じことを指摘してきました。ドクターに聞きにくいことを質問したり、いつでも確認したりできるドクターとして、未来のひとつのかたちを感じました。
筆者は健康診断の内容をデジタル・PDF化し、Google Drive上にまとめて置いてあります。試しにその内容をBardにチェックさせてみたところ、健康診断でドクターに言われたのと同じことを指摘してきました。ドクターに聞きにくいことを質問したり、いつでも確認したりできるドクターとして、未来のひとつのかたちを感じました。
AIに2024年の予測をさせてみる
将来の出来事は過去から現在、未来へと線形につながっているので、過去のデータを学習したLLMに将来がどうなるのかを聞いてみるのは一理あります。ChatGPT4、Bardのそれぞれに、未来予測を聞いてみました。
問:「2024年に生成AI・LLM関係に起きる新しい機能・サービスなどのビックインパクトを予想してトップ5を箇条書きで完結に説明してください。」
問:「2024年に生成AI・LLM関係に起きる新しい機能・サービスなどのビックインパクトを予想してトップ5を箇条書きで完結に説明してください。」
ChatGPT4の回答
Bardの回答
ChatGPT4、Bardともにふわっとした答えを出してきましたね。ざっくりまとめると、「より高性能になって、実用的なツールとして、創造性が増してくる」といった感じです。昨年の時点で、これほど生成AI・LLMがトレンドになると予想した人は少なかったはずです。私自身も全く予想すらしていませんでした。
AIはこれから汎用人工知能(AGI)のようなものに向かっていくと考えられます。ただ、それにはまだまだ1年では短いと感じます。2024年は現状のLLMがさらに高性能になって、人との協創によって面白いものが出てくる1年になることを期待しています。
AIはこれから汎用人工知能(AGI)のようなものに向かっていくと考えられます。ただ、それにはまだまだ1年では短いと感じます。2024年は現状のLLMがさらに高性能になって、人との協創によって面白いものが出てくる1年になることを期待しています。
GMOインターネットグループ 新里祐教
GMOインターネットグループ特命担当プログラマ、デベロッパーエキスパート
先端技術から個人制作・OSS・技術誌での執筆など広く行う。 2019-2020年「IPA 未踏ターゲット ゲート式量子コンピュータ向けソフトウェア開発」、2022年「第25回文化庁メディア芸術祭 エンターテイメント部門 審査委員会推薦作品」、ほかイベントやハッカソンでの受賞など、制作した作品の展示をMaker Faireなどで行っている。