画像を解析して回答する「マルチモーダル処理」
Grokは画像解析とテキスト処理を組み合わせた、マルチモーダル機能も提供しています。
画像をアップロードし、それに関する質問を入力すると、Grokが画像を解析して回答してくれます。
今回は手のひらの写真をアップして、手相を見てくれるようにお願いしてみました。
画像をアップロードし、それに関する質問を入力すると、Grokが画像を解析して回答してくれます。
今回は手のひらの写真をアップして、手相を見てくれるようにお願いしてみました。

手のひらの画像から手相を聞いてみたところ
全く期待していませんでしたが、思ったよりもずっと詳細な答えが返ってきました。
以前、占い師に手相を見てもらったことがありますが、それとほぼ同じ指摘をうけ、また過去の出来事などもある程度言い当ててくるうえ、性格上の指摘も「当たっている……」と思わせられる点が多かったです。
Grok占い師に「集中力がない」という指摘を受けたので、今度は続けて「集中力を高める方法」も質問してみました。
まずは一般的な「集中力を高める方法」を答えてくれたうえで、手相占いの結果を踏まえたメソッドも書き加えてくれます。
以前、占い師に手相を見てもらったことがありますが、それとほぼ同じ指摘をうけ、また過去の出来事などもある程度言い当ててくるうえ、性格上の指摘も「当たっている……」と思わせられる点が多かったです。
Grok占い師に「集中力がない」という指摘を受けたので、今度は続けて「集中力を高める方法」も質問してみました。
まずは一般的な「集中力を高める方法」を答えてくれたうえで、手相占いの結果を踏まえたメソッドも書き加えてくれます。

“手相占い”の結果も踏まえた回答が返ってきた
マルチモーダル処理が可能な他の生成AIでも同じことを試しましたが、手相の話題に続けて同一チャットで「集中力を高める方法」を質問すると、全く別の話題として仕切り直してくるものもありました。その点、何も言わずともGrokは前後のやり取りの流れを自然にくんだ応答をしてくれる点が魅力的に感じます。
コード生成とデバッグ
Grokはコード生成やデバッグの効率化に役立つAIツールでもあります。
Python、JavaScript、Javaなど多様なプログラミング言語でコードを自動生成できます。
「Pythonで〇〇をするコードを生成して」などの指示に応じて、要件に合ったコードを出力します。生成されるコードは、そのまま実行できる短いスニペットから、複雑な要件に対応した長いプログラムまで幅広いもの。他のAIよりも生成速度が早いのも特徴です。
また、既存のコードをGrokに入力し、「エラーを特定して」「改善点を教えて」などと指示することで、エラー箇所の特定や改善案の提案も可能です。
注意してほしいのは、他の生成AIにも言えることですが、生成されたコードや修正案は完璧とは限らないということ。自身での動作確認やセキュリティチェックが推奨されます。ただGrokの場合、「Thinkモード」との併用でより正確なコード生成も期待できます。
Python、JavaScript、Javaなど多様なプログラミング言語でコードを自動生成できます。
「Pythonで〇〇をするコードを生成して」などの指示に応じて、要件に合ったコードを出力します。生成されるコードは、そのまま実行できる短いスニペットから、複雑な要件に対応した長いプログラムまで幅広いもの。他のAIよりも生成速度が早いのも特徴です。
また、既存のコードをGrokに入力し、「エラーを特定して」「改善点を教えて」などと指示することで、エラー箇所の特定や改善案の提案も可能です。
注意してほしいのは、他の生成AIにも言えることですが、生成されたコードや修正案は完璧とは限らないということ。自身での動作確認やセキュリティチェックが推奨されます。ただGrokの場合、「Thinkモード」との併用でより正確なコード生成も期待できます。
コンテンツ要約
GrokはXと連携し、リアルタイムでトレンドやニュース、投稿内容を要約してくれます。また「Stories on X」などで、ユーザーごとにパーソナライズされたトレンド要約を提供する機能もあります。
「今日のXトレンドを要約して」「このニュース記事を3行でまとめて」などの指示で、最新情報や大量の文章を短く整理できます。
「今日のXトレンドを要約して」「このニュース記事を3行でまとめて」などの指示で、最新情報や大量の文章を短く整理できます。

偏りなく感想がまとまっていた
最大128kトークン(日本語なら約10万文字)の長文も一括処理できるため、研究論文などの長大な文書の要約にも強みがあります。契約書の要点抽出、SNS投稿の要約など、プライベートのみならず、ビジネスでも幅広い場面で効率化に役立ちます。
テキストだけでなく、画像や音声も含めたマルチモーダルな要約も可能なので、「PDFファイルを読み込ませて要約させる」といった使い方も。
テキストだけでなく、画像や音声も含めたマルチモーダルな要約も可能なので、「PDFファイルを読み込ませて要約させる」といった使い方も。
現在は限定の機能だけど……「Voice Mode」
現在はiOSアプリ限定の機能ですが、「Voice Mode」を使えばGrokとの音声による対話が可能です(Androidにも近日対応予定)。
口頭で「今日の天気を教えて」と質問して答えてもらうなど、自然な対話によるディスカッションをGrokと行うことができます。
*******
X発のイメージが強いGrokですが、テキスト生成やリアルタイム検索、画像やコードの生成など、思った以上に幅広い機能を提供しています。特にDeepSearch、Thinkモードは生成AIの中でも特徴的。検索などはXのデータに依存するため、誤情報やバイアスのリスクはあるものの、DeepSearchでソース確認ができるのがメリットです。
筆者もGrokのことをXのオマケ機能のように思っていましたが、こんなにいろいろなことができるなら、ファクトチェックだけではもったいない! ビジネスのみならず、創造活動、情報収集など幅広い場面で活用できるのではないかと思います。
口頭で「今日の天気を教えて」と質問して答えてもらうなど、自然な対話によるディスカッションをGrokと行うことができます。
*******
X発のイメージが強いGrokですが、テキスト生成やリアルタイム検索、画像やコードの生成など、思った以上に幅広い機能を提供しています。特にDeepSearch、Thinkモードは生成AIの中でも特徴的。検索などはXのデータに依存するため、誤情報やバイアスのリスクはあるものの、DeepSearchでソース確認ができるのがメリットです。
筆者もGrokのことをXのオマケ機能のように思っていましたが、こんなにいろいろなことができるなら、ファクトチェックだけではもったいない! ビジネスのみならず、創造活動、情報収集など幅広い場面で活用できるのではないかと思います。

中野 亜希
ライター・コラムニスト
大学卒業後、ブログをきっかけにライターに。会社員として勤務する傍らブックレビューや美容コラム、各種ガジェットに関する記事執筆は2000本以上。趣味は読書、料理、美容、写真撮影など。
X:@752019