こんにちは。チャエンです。
今回は、最近さまざまなAIチャットサービスに導入されるようになったにもかかわらず、意外と知られていない「マルチモーダル」、特に画像解析技術を使うプロンプトエンジニアリングのコツについて説明します。
文章ベースのプロンプトでは、「深津式プロンプト」「ゴールシークプロンプト」「Few-shotプロンプティング」「Chain-of-Thought(CoT)プロンプティング」など、より効果的に生成AIから回答を引き出す、さまざまな手法が公開されています。しかしマルチモーダル(画像解析)のプロンプトエンジニアリングの手法は、まだそれほど多くは公開されていません。
そこで、そんな謎のベールに包まれたマルチモーダルのプロンプトエンジニアリングについて深掘りしていきます。プロンプトの実例も紹介するので、ぜひ最後までご覧ください。
今回は、最近さまざまなAIチャットサービスに導入されるようになったにもかかわらず、意外と知られていない「マルチモーダル」、特に画像解析技術を使うプロンプトエンジニアリングのコツについて説明します。
文章ベースのプロンプトでは、「深津式プロンプト」「ゴールシークプロンプト」「Few-shotプロンプティング」「Chain-of-Thought(CoT)プロンプティング」など、より効果的に生成AIから回答を引き出す、さまざまな手法が公開されています。しかしマルチモーダル(画像解析)のプロンプトエンジニアリングの手法は、まだそれほど多くは公開されていません。
そこで、そんな謎のベールに包まれたマルチモーダルのプロンプトエンジニアリングについて深掘りしていきます。プロンプトの実例も紹介するので、ぜひ最後までご覧ください。
マルチモーダルとは?
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/175/large/880ee673-b53c-49ea-941c-45a3277f4554.png?1707895025)
マルチモーダルモデルは、複数の異なる種類や形式のデータ(テキスト、画像、音声など)の情報源の関連性や文脈を理解し、複合的なタスクを実行することができるモデルです。
マルチモーダルモデルの利点は、テキスト・画像・音声など1種類の入力に特化している単一(シングル)モダリティのモデルよりも、豊かな情報処理が可能になることです。
例えば、自分で撮った料理の写真を元に、その料理に関する文章を作成することができます。画像の視覚的情報(色、形、構成)とテキスト情報(食材、調理法、味の記述)を統合させることで、より具体的で魅力的な内容のコンテンツが完成します。
既に、ChatGPTやGoogleのGemini(旧Bard)ではこのマルチモーダル機能が使えるので、それぞれの機能や特徴を見ていきましょう。
マルチモーダルモデルの利点は、テキスト・画像・音声など1種類の入力に特化している単一(シングル)モダリティのモデルよりも、豊かな情報処理が可能になることです。
例えば、自分で撮った料理の写真を元に、その料理に関する文章を作成することができます。画像の視覚的情報(色、形、構成)とテキスト情報(食材、調理法、味の記述)を統合させることで、より具体的で魅力的な内容のコンテンツが完成します。
既に、ChatGPTやGoogleのGemini(旧Bard)ではこのマルチモーダル機能が使えるので、それぞれの機能や特徴を見ていきましょう。
マルチモーダル機能が使える主要チャットボット
ChatGPT
ChatGPTのマルチモーダル機能活用事例を2つ紹介します。
1. 画像に関する質問への応答
ユーザーがアップロードした画像に関して質問をすると、ChatGPTはその画像を分析し、関連するテキスト情報に基づいて回答することができます。
例えば、ユーザーが風景画をアップロードし、「この絵はどの時代のものですか?」と質問すると、ChatGPTは画像のスタイルや特徴を分析し、推定される時代や背景情報について回答できます。
1. 画像に関する質問への応答
ユーザーがアップロードした画像に関して質問をすると、ChatGPTはその画像を分析し、関連するテキスト情報に基づいて回答することができます。
例えば、ユーザーが風景画をアップロードし、「この絵はどの時代のものですか?」と質問すると、ChatGPTは画像のスタイルや特徴を分析し、推定される時代や背景情報について回答できます。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/176/large/756c3851-6f31-47d9-a8b0-b390a31ef79c.png?1707895048)
ゴッホの「星月夜」をアップロードして質問してみた例
2. テキストからの画像生成
ユーザーが特定のテーマやキーワードに基づいて画像のアイデアを要求すると、ChatGPTはテキストの指示を解釈し、それに合わせた画像を生成することができます。
例えば「平和な森の風景」というリクエストをすれば、ChatGPTはその描写に適した静かで穏やかな森の画像を生成することが可能です。
ユーザーが特定のテーマやキーワードに基づいて画像のアイデアを要求すると、ChatGPTはテキストの指示を解釈し、それに合わせた画像を生成することができます。
例えば「平和な森の風景」というリクエストをすれば、ChatGPTはその描写に適した静かで穏やかな森の画像を生成することが可能です。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/177/large/f03502b3-b090-4432-bcc9-9255db106b1b.png?1707895072)
ChatGPTに「平和な森の風景」をテキストで指示して描かせた結果
Gemini(旧Bard)
Geminiのマルチモーダル機能でできる事例も2つ紹介します。
1. 画像をもとに物語を考える
Geminiを使えば、既にある画像から物語を生成できます。
例えば、犬の画像をGeminiにアップロードすると、以下のようなストーリーを生成します。
「ある日、海岸で犬と猫が遊んでいました。犬はボールを追いかけて走り回り、猫は砂浜で穴を掘っていました。
犬はボールを投げて、猫に追いかけさせました。猫はボールを追いかけて、犬の足元に持ってきました。犬はボールをまた投げ、猫はまた追いかけました。
二人は、ボールを投げ合ったり、砂浜で追いかけっこしたりして、とても楽しそうに遊んでいました……」
この例では、Geminiは画像から描かれているものを特定し、それらのオブジェクトがどのような動きをしているのかを推測して説明しています。
1. 画像をもとに物語を考える
Geminiを使えば、既にある画像から物語を生成できます。
例えば、犬の画像をGeminiにアップロードすると、以下のようなストーリーを生成します。
「ある日、海岸で犬と猫が遊んでいました。犬はボールを追いかけて走り回り、猫は砂浜で穴を掘っていました。
犬はボールを投げて、猫に追いかけさせました。猫はボールを追いかけて、犬の足元に持ってきました。犬はボールをまた投げ、猫はまた追いかけました。
二人は、ボールを投げ合ったり、砂浜で追いかけっこしたりして、とても楽しそうに遊んでいました……」
この例では、Geminiは画像から描かれているものを特定し、それらのオブジェクトがどのような動きをしているのかを推測して説明しています。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/178/large/fff3249d-d6eb-4e9b-b1ce-d0a539dc2f84.png?1707895099)
Geminiに画像から物語を生成させたところ
2. 画像から商品の情報を取得
Geminiは、アップロードした画像をもとに、商品の情報を取得することができます。
例えば、テレビの画像をGeminiに提示すると、「テレビの型番は、LG OLED65C1PJAです。サイズは65インチです。価格は184,800円です。」とGoogle 検索の「画像で検索」に相当する情報を取得することができます。
Geminiは、アップロードした画像をもとに、商品の情報を取得することができます。
例えば、テレビの画像をGeminiに提示すると、「テレビの型番は、LG OLED65C1PJAです。サイズは65インチです。価格は184,800円です。」とGoogle 検索の「画像で検索」に相当する情報を取得することができます。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/179/large/6838efe6-71f3-4c20-8e3b-ce687cbede43.png?1707895127)
GeminiとChatGPTの画像解析の違いは?
ChatGPTとGeminiに同じ画像をアップロードし、どのような出力の違いが起こるかを確認してみました。
1. 文字起こし(OCR)
ChatGPTに作成してもらった以下の文章をキャプチャーし、画像から文字を起こしてもらいます。
1. 文字起こし(OCR)
ChatGPTに作成してもらった以下の文章をキャプチャーし、画像から文字を起こしてもらいます。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/180/large/3c2cd2eb-4757-49c7-8282-c2d0a3c51dcd.png?1707895159)
ChatGPT
以下のようにしっかりと出力することができました。
以下のようにしっかりと出力することができました。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/181/large/09e83b14-e591-4abd-be11-39f602091675.png?1707895186)
Gemini
Geminiでも同じ画像と同じプロンプトで試してみたところ、文章の文字起こしだけでなく、プラスアルファの知識まで教えてくれました。
Geminiでも同じ画像と同じプロンプトで試してみたところ、文章の文字起こしだけでなく、プラスアルファの知識まで教えてくれました。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/182/large/fa282b98-59a5-4fc0-8f39-95f66dec4044.png?1707895222)
2. 表の文字起こし
次はExcelで作成した以下の表を画像化して、文字に起こしてもらいます。
次はExcelで作成した以下の表を画像化して、文字に起こしてもらいます。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/183/large/3643fbce-1002-45c1-894d-934a07f814a4.png?1707895274)
ChatGPT
以下のようにしっかりと出力することができました。
以下のようにしっかりと出力することができました。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/184/large/fefcaca4-1b27-441f-b190-04c25be0a010.png?1707895339)
Gemini
Geminiでも同じ画像と同じプロンプトで試してみました。表をまるまる文字起こしするのではなく、カテゴリー別で出力されました。
Geminiでも同じ画像と同じプロンプトで試してみました。表をまるまる文字起こしするのではなく、カテゴリー別で出力されました。
![](https://cdn.clipkit.co/tenants/943/item_images/images/000/017/185/large/95665a13-d667-4676-93b7-0f9e51d00c46.png?1707895365)
簡単な文字起こしや表データの解析などは、どちらも簡単にできる印象です。各所で発表されているベンチマークのテストを見ても、双方に大きな差はないようです。
![](https://cdn.clipkit.co/tenants/943/users/images/000/000/065/avater_lg/c4cbc590-c1d7-4f92-bfdd-5c484a72a5bf.jpg?1691379532)
チャエン
株式会社デジライズ 代表取締役、GMO AI & Web3株式会社 顧問
AIシステム開発・販売を行う株式会社デジライズをはじめ、他数社の代表取締役。GMO AI & Web3株式会社など他数社の顧問も兼任。Twitterはフォロワー8.6万人。日本初AIツール検索サイト「AI Database」やAIニュースレターも運営。ABEMAやTBSテレビなどメディア出演も多数。
X: @masahirochaen