AIはまだ「空気を読めない」、——人との社会的な関わりが苦手なワケとは

2025.7.8

#AI
#Special

近年急速に進歩してきた人工知能（AI）は、チェスや囲碁といったゲームで人間のプレイヤーを上回る実力を発揮し、基本的なプログラムコードの作成など、一部の分野では既に人間をしのぐ能力を備えつつあります。

しかし、強化学習の過程で、大手AI企業が数十億ドル規模の資金を投じ、膨大な計算能力と電力を消費しているにもかかわらず、現在のAIはまだ、現実の世界で人びとがどのように考え、関わり合っているかを本質的には理解できていないようです。

最近発表されたジョンズ・ホプキンス大学の研究報告では、現在のAIが抱える重大な欠点として、ダイナミックに変化する実世界の状況の中で、社会的な関わり方を正しく解釈して対応するのが難しい点が指摘されました。

わかりやすく言えば、AIはまだ、目の前にいる人たちが自然にこなしている「空気を読む」能力に欠けているというのです。

自動運転AIと人間の「運転」はここまで違う

例えば自動運転車に搭載されたAIは、LiDAR（ライダー、発射したレーザー光が反射して戻るまでの時間から対象物までの距離を算出する機器を用いて広範囲をスキャンし、その結果を組み合わせて周囲環境を3Dデータ化する技術）やレーダーといったセンシング機器からのデータに加えて、カメラ映像を解析するコンピューターイメージングも駆使し、それぞれの瞬間のデータから状況を分析し、運転操作を行います。

一方、人間のドライバーは、特に意識はしていなくても、目視やミラーで得られる前後左右の視界、周囲の音などから、その場の状況だけでなく少し先の展開までを予測しながら、周囲の車や歩行者、自転車などに気を配って自動車を運転しています。

例えば自動運転車が交通量の多い交差点に差しかかったとします。歩行者が横断歩道を渡り始めたものの、数歩ほど進んだところで立ち止まり、その場で誰かに手を振っています。

このとき、歩行者はなぜ、そして誰に向かって手を振っているのでしょうか。人間のドライバーであれば、歩行者の表情や身振りから、それが単なる挨拶なのか、誰かとの会話に夢中なのか、あるいは路上に陥没などの異常を発見して、車に危険を知らせているのかといった状況を、素早く察知できます。

しかし、現在の自動運転AIは、おそらく「路上に人が立っている」という認識しかできません。このような状況で何が起こっているのかを理解し、次に取るべき行動を判断するのは難しいはずです。

このように、歩行者が横断歩道を渡り始めたという単純なシチュエーションひとつをとっても、現実世界ではさまざまな展開が起こり得ます。そうした社会的な相互作用を正確に読み取り、適切に対応するという点で、AIの能力はまだまだ不足していると考えられます。

AIは、3秒の映像で「この人たちは何をしているのか」がわからない

米ジョンズ・ホプキンス大学の研究チームは、現実世界で人と関わるAIにとって、社会的な関わり合いをうまく処理できないことが大きな課題であると捉えました。また将来のAIには、人間の意図を読み取り、動きを解釈し、次に起こる行動を予測する能力が求められると考えました。

そして研究チームは、現在のAIの能力をより詳しく知るために、3秒間のビデオクリップを使った実験を行い、人間とAIの社会的な関わり方の違いを調査しました。

チームが用意したビデオクリップには、おしゃべりをしている人びとや、道路を並んで歩く様子、ただその場に立っているだけの場面など、日常のさまざまなシーンが映し出されていました。

実験では、これらのビデオクリップを、ボランティアとして参加した人たちと、大規模言語モデル（LLM）、動画生成モデル、画像生成モデルなど、350種類以上のAIモデルに見せました。

ボランティアには、映像の中の人びとが互いに関わっているのか、それとも単独で行動しているのか、その行動に社会的・社交的な関連性があるのかかなど、どのように感じたかを評価してもらいました。一方、AIモデルには、「その映像を見た人」がどのように解釈し、どのように反応するかを想定して答えるよう指示しました。

その結果、ボランティアの人びとは、各映像に対して、ほぼ同一の解釈を示しました。しかしAIモデルは、映像に映る人びとが何を話しているのか、動こうとしているのか、誰かと関わっているのかを、まったく判断できないという結果になったとのことです。

AIの種類ごとに見ると、まず動画生成モデルは、3秒間の映像の中で人びとが何をしているのかを説明できませんでした。また、映像から1コマずつ切り出して与えられた画像生成モデルも、やはり人びとの行動を正しく解釈できませんでした。言語生成モデルには、研究者が映像内容を記述した文章を読み込ませて分析するよう指示しましたが、やはりしてボランティアの人たちほど共通した解釈を示すには至りませんでした。

「顔認識」と「空気を読む」の違いは？