フィジカルAI——デジタル知能が「身体」を持つ時

小林 啓倫

AISpecial
ChatGPTの登場以降、AI(人工知能)は私たちの働き方や暮らしを急速に変え始めた。文章を書き、画像を生成し、コードを生み出す。だが、これらはすべてデジタル空間の中で完結する「頭脳」としてのAIだ。

では、そのAIが「身体」を持ち、現実世界で動き始めたらどうなるか。工場で部品を運び、病院で手術を支援し、災害現場で人命救助に関わる。そんな未来が、いよいよ現実のものとなりつつある。

本稿で取り上げる「フィジカルAI」とは、こうした変化を象徴するキーワードだ。2025年、半導体大手NVIDIAのジェンスン・ファンCEOは「ロボティクスにおけるChatGPTの時代が到来した」と語り、世界経済フォーラムもこの技術を産業変革の中心に据えた。本記事では、フィジカルAIとは何か、どのような歴史を経て今に至り、社会でどのように実装されつつあるのかを整理し、2026年に予想されるトレンドを見ていく。

フィジカルAIとは何か

定義と基本概念

フィジカルAI(Physical AI)とは、AIをロボットや車両、ドローンなどの物理的な実体に統合し、現実世界を自律的に知覚・理解・判断し、行動できるようにする技術体系を指す。コンサルティング大手のDeloitteやクラウドサービスのAWSは、これを単なる事前プログラムによる自動化ではなく、環境からの入力をリアルタイムで処理し、適応的に意思決定を行う「身体化された知能(Embodied Intelligence)」と呼んでいる。

フィジカルAIを搭載したロボットは、次のような仕組みで機能する。

まずカメラやセンサーで周囲の状況を「認識(Perception)」し、何が起きているかを把握する。次に、その情報に基づいて目的を達成する手順を「判断(Planning)」し、危険や制約を考慮しながら最適な動きを決める。最後に、決めた動きをモーターやアームで制御して「行動(Action)」に移し、実際に移動したり物をつかんだりする。この循環を高速に繰り返して現実世界で働く。

フィジカルAIを搭載したロボットの動き(筆者がGeminiで生成)

従来のAIが主にデジタル空間でのデータ処理やコンテンツ生成に特化していたのに対し、フィジカルAIは「ビット(デジタル情報)」と「アトム(物理的実体)」を融合させる点に特徴がある。その結果、家庭や病院、災害現場といった、人や物の動きが一定でない環境でも、機械が自律的に動けるようになる。

「フィジカルAI」という概念が確立するまでには、いくつかの重要な議論が積み重ねられてきた。中でも学術的な転換点とされるのが、2021年にマックス・プランク研究所のメティン・シッティらが提唱した「フィジカル・インテリジェンス(Physical Intelligence、物理的知能)」である。シッティらは、計算的な知能(いわば「脳」)と物理的な知能(いわば「身体」)を区別し、エージェントの身体そのものが知能のあり方に深く関わると論じた。

また現在、Citi Researchなどの市場分析機関も、産業市場における変曲点を捉えるためにフィジカルAIを定義し、その市場規模や影響力を予測するようになっている。

フィジカルAIを支える3つのAIモデル

フィジカルAIを実現するうえで、特に注目されているのがVLAモデル(Vision-Language-Action Models)、世界モデル、リキッドニューラルネットワークの3つだ。

VLAモデルとは、視覚、言語、行動を統合的に処理するAIモデルを指す。カメラで捉えた映像(Vision)と自然言語による指示(Language)を理解し、それを具体的なロボットの動作(Action)に変換するのが特徴だ。例えば「赤いリンゴを取って」という指示に対し、カメラ画像と組み合わせてロボットアームの動きを生成できる。GoogleのRT-2(Robotics Transformer 2)やスタンフォード大学発のOpenVLAがその代表例だ。

GoogleのRT-2を使用したロボットのデモンストレーション
世界モデル(World Models)は、物理世界の法則や因果関係をシミュレーションするAIを指す。人間が経験から「こうすればこうなる」と予測を立てるように、過去のデータから世界の仕組みを学習し、行動の結果を事前にシミュレートできる点が特徴だ。

例えば自動運転車が「この速度で曲がれば安全に走行できる」と判断したり、倉庫ロボットが「この経路なら障害物を避けられる」と予測したりすることを、世界モデルによって実現できる。ビジネス面でも、需要予測や在庫最適化、リスク管理といった意思決定の自動化への応用が期待されている。従来のAIが過去のパターンをなぞるのに対し、世界モデルを持つAIは、状況を理解した上で推論できる点が大きく異なる。

リキッドニューラルネットワーク(Liquid Neural Network)は、状況に応じて内部構造をを流動的に変化させるAI技術だ。従来のAIは一度学習すると構造が固定されるのに対し、入力データに応じてリアルタイムにふるまいを調整できる点が特徴とされる。

もう1つの特徴は高い効率性にある。少ないパラメータで動作するため、スマートフォンやドローン、IoTデバイスなど、計算能力が限られた機器でも処理が可能になる。製造現場の異常検知や自律走行車の制御、金融市場のリアルタイム分析などへの応用が期待されており、クラウドに依存せず現場で判断できる点も強みだ。
45 件

小林 啓倫

経営コンサルタント
1973年東京都生まれ、獨協大学外国語学部卒、筑波大学大学院修士課程修了。システムエンジニアとしてキャリアを積んだ後、米バブソン大学にてMBAを取得。その後外資系コンサルティングファーム、国内ベンチャー企業などで活動。著書に『FinTechが変える!金融×テクノロジーが生み出す新たなビジネス』(朝日新聞出版)、『IoTビジネスモデル革命』(朝日新聞出版)、訳書に『ソーシャル物理学』(アレックス・ペントランド著、草思社)、『シンギュラリティ大学が教える 飛躍する方法』(サリム・イスマイル著、日経BP)など多数。

ranking

  • 1
    サムネイル

    小学生がどハマりする生成AIキャラクター「イタリアンブレインロット」の中毒性と拡散力

  • 2
    サムネイル

    これさえあれば安心!?花粉対策に向く空気清浄機、家電エバンジェリスト直伝の選び方とおすすめ5モデル

  • 3
    サムネイル

    お台場発着に決定!日本でも“豪華客船体験”ができる?「ディズニークルーズライン」の価格・アトラクション最新情報

  • 4
    サムネイル

    お年玉とポケカで、キャッシュレス時代のマネー教育始めました:鵜の目「鷹木」の目

  • 5
    サムネイル

    Geminiに写真を見せて「おしゃれな部屋づくり」をアシストしてもらった

  • 1
    サムネイル

    小学生がどハマりする生成AIキャラクター「イタリアンブレインロット」の中毒性と拡散力

  • 2
    サムネイル

    GMOインターネットグループ陸上部が前橋市立山王小学校で陸上教室を実施

  • 3
    サムネイル

    お台場発着に決定!日本でも“豪華客船体験”ができる?「ディズニークルーズライン」の価格・アトラクション最新情報

  • 4
    サムネイル

    年末は「サブスク大掃除」を!インドネシア人にNetflixを乗っ取られたタカキの提案:鵜の目「鷹木」の目

  • 5
    サムネイル

    これさえあれば安心!?花粉対策に向く空気清浄機、家電エバンジェリスト直伝の選び方とおすすめ5モデル

  • 1
    サムネイル

    小学生がどハマりする生成AIキャラクター「イタリアンブレインロット」の中毒性と拡散力

  • 2
    サムネイル

    お台場発着に決定!日本でも“豪華客船体験”ができる?「ディズニークルーズライン」の価格・アトラクション最新情報

  • 3
    サムネイル

    Google Pixel 9aを選ぶと後悔するの?スペック数値だけでは分からない実力を実機でチェックした

  • 4
    サムネイル

    一番美味しくおもちを食べられるのはどれだ?100均電子レンジ調理器4種を試してみた

  • 5
    サムネイル

    NHK大河『豊臣兄弟!』秀長の選択──足軽と下克上

internet for you.