秘伝のプロンプト5選
こうしたマルチモーダル機能を十分に活用するには、プロンプトを工夫することが重要です。
ここではGoogleがマルチモーダルプロンプトを使う際に勧めている5つの方法を紹介します。意識的に以下の5つの方法をプロンプトに織り交ぜることで、求めている結果を引き出しやすくなります。
ここではGoogleがマルチモーダルプロンプトを使う際に勧めている5つの方法を紹介します。意識的に以下の5つの方法をプロンプトに織り交ぜることで、求めている結果を引き出しやすくなります。
1. 指示を具体的にする
プロンプトは、具体的で詳細な指示を含むほど効果的です。特定の出力が必要な場合は、その要求をプロンプトに明記しましょう。ユーザーには明確に思えるプロンプトでも、モデルには十分明確でない場合があります。誤解を防ぐために、指示は具体的かつ明確にすることが重要です。
具体例
空港の案内掲示板の画像から書かれている内容を説明させる場合。「この画像について説明する」というボンヤリしたリクエストではなく、「時刻を入れる」「都市名を入れる」など、必要な情報を明示的にリクエストに加えるとよいでしょう。
具体例
空港の案内掲示板の画像から書かれている内容を説明させる場合。「この画像について説明する」というボンヤリしたリクエストではなく、「時刻を入れる」「都市名を入れる」など、必要な情報を明示的にリクエストに加えるとよいでしょう。
2. プロンプトに出力例を少し追加する
「このように出力してほしい」という例をいくつかプロンプトに追加することで、AIモデルに対して明確な方向性を示し、望む結果をより効率的に得ることができます。これは特にデータが限られている状況や、モデルが新しいタスクに迅速に適応する必要がある場合に役立つアプローチです。具体的な記述のスタイルを示すことで、モデルにどのように画像を解釈し、説明すべきかの指針を与えます。
具体例
最初の出力では、文章形式で国名(ブラジルなど)が含まれています。本当は「異なる形式・スタイルで出力を行いたい」「国ではなく都市の情報のみが必要」といったニーズがある場合は、プロンプトにいくつかの出力の“正解例”を追加することで、AIモデルがこちらの意図通りに応答するよう指示できます。
具体例
最初の出力では、文章形式で国名(ブラジルなど)が含まれています。本当は「異なる形式・スタイルで出力を行いたい」「国ではなく都市の情報のみが必要」といったニーズがある場合は、プロンプトにいくつかの出力の“正解例”を追加することで、AIモデルがこちらの意図通りに応答するよう指示できます。
3. タスクをステップバイステップに分解する
大きなタスクを小さなステップに分けることで、AIモデルがプロセス全体を把握しやすくしています。全体のプロセスを段階的に理解し、順序よく解釈を進めることができます。
具体例
トイレットペーパーがどれくらいのスピードでなくなるかを答えさせる前に、一般的な使用量を推測させることで、より正確な判断が返ってきます。
具体例
トイレットペーパーがどれくらいのスピードでなくなるかを答えさせる前に、一般的な使用量を推測させることで、より正確な判断が返ってきます。
4. 出力するデータの形式を指定する
出力形式(マークダウン、JSON、HTML など)をプロンプトで明示することで、情報を整理し、後続の処理を容易にします。また、特定のフォーマットに従うことで、データの一貫性と可読性を向上させます。
具体例
表の画像をマークダウン形式で出力した例と、料理の写真から情報をJSON形式で出力した例です。
具体例
表の画像をマークダウン形式で出力した例と、料理の写真から情報をJSON形式で出力した例です。
5. 1つの画像だけを指定するとき
GoogleのGeminiは、画像とテキストの入力を任意の順序で処理できます。ただし、画像を1つだけ含むプロンプトでは、画像を最初に提示し、その後に関連するテキストの指示を加えた方が、AIモデルが画像の内容をより効果的に理解し、適切なテキスト応答を生成することができるそうです。
気軽に使ってマルチモーダル機能に慣れてみよう
今回はマルチモーダルの、特に画像解析技術を使ったプロンプトエンジニアリングについて解説しました。まだ、この機能を活用していない方にも、今回の記事が参考になれば幸いです。
ちなみに、ChatGPTでは月額20ドルを課金しなければマルチモーダル機能が活用できませんが、Geminiなら無料で利用できます(2024年2月10日現在)。
まずは、プライベートで「料理の写真を撮って、カロリー計算をする」などの使い方から始めてみて、慣れていくのがマルチモーダル機能を使いこなす第一歩になるかと思います。
ちなみに、ChatGPTでは月額20ドルを課金しなければマルチモーダル機能が活用できませんが、Geminiなら無料で利用できます(2024年2月10日現在)。
まずは、プライベートで「料理の写真を撮って、カロリー計算をする」などの使い方から始めてみて、慣れていくのがマルチモーダル機能を使いこなす第一歩になるかと思います。
チャエン
株式会社デジライズ 代表取締役、GMO AI & Web3株式会社 顧問
AIシステム開発・販売を行う株式会社デジライズをはじめ、他数社の代表取締役。GMO AI & Web3株式会社など他数社の顧問も兼任。Twitterはフォロワー8.6万人。日本初AIツール検索サイト「AI Database」やAIニュースレターも運営。ABEMAやTBSテレビなどメディア出演も多数。
X: @masahirochaen