Metaの世界モデルAI『V-JEPA 2』が導く次のステージ:未知の空間でも迷わないロボットへ

 - innovaTopia - (イノベトピア)

Metaは2025年6月11日(現地時間、日本時間6月12日)、AIによる物理世界の理解と予測を可能にする新たなモデル『V-JEPA 2』を発表した。

このモデルは、ビデオ映像と物理的インタラクションから「ワールドモデル」を学習し、従来のAIが不得意としていた未知環境下での計画と行動を実現する。

『V-JEPA 2』は、ビデオから抽出された特徴量を数値的に要約するエンコーダーと、その要約を基にシーンの次の状態を予測するプレディクターで構成されており、高次の構造とダイナミクスに着目することで、ピクセル単位の予測よりも効率的かつ堅牢である。これは、同社が画像向けに開発した『I-JEPA』のアーキテクチャを映像に拡張したものである。

このモデルは、特定環境での訓練なしに未知の空間に対応するゼロショット学習能力を持ち、実際のロボティクス実験では、空間内の物体を認識し、目標に沿って行動を計画・実行する能力を示した。

Metaは今後、V-JEPAのアーキテクチャを発展させつつ、ロボット、自律エージェント、拡張現実(AR)などへの展開を視野に入れている。

from:
Meta’s new world model lets robots manipulate objects in environments they’ve never encountered before | VentureBeat

【編集部解説】

Metaの『V-JEPA 2』は、これまでバーチャル環境や言語中心であったAIモデルの枠組みを、物理的世界に大きく広げる技術です。特に、生成系AIとは異なり、ビデオ映像から高次の概念や力学的関係を抽出し、未来の状態を予測する「ワールドモデル」として設計されている点が大きな特徴です。

従来のロボティクスでは、プログラミングやセンサーに基づく明示的な制御が必要とされてきました。しかし、『V-JEPA 2』は自己教師あり学習を通じて、物理的な常識や因果関係をビデオから独自に学習することで、未知の環境においても人間のような適応的行動が可能になります。

このようなゼロショット学習能力は、倉庫や建設現場、家庭など、複雑かつ変化に富んだ現場でのロボット導入を現実的にする重要な鍵です。Meta自身も、研究段階から産業応用へとスケールさせることを視野に、FAIRチームによる開発と並行して、学術・産業界との連携を深めています。

一方で、これほど柔軟なAIが社会に浸透することで、倫理・安全面での課題も再浮上しています。予測や計画を行うAIが、誤った前提や偏ったデータに基づいて判断を下すリスク、説明性や検証可能性の確保といった、ガバナンス面での制度設計も早急に進める必要があります。

長期的には、V-JEPA 2のような世界モデルは、単なるロボット制御を超え、人間と共に行動し、共同作業する「共存型AIエージェント」実現への土台となる可能性を秘めています

【用語解説】

V-JEPA 2(Video Joint Embedding Predictive Architecture 2)
Metaが開発したビデオベースのAIモデル。映像を数値的に要約し、その変化を予測することで、未知環境における行動計画を可能にする。

ワールドモデル(World Model)
AIが物理世界の因果関係を内在化し、仮想的に未来をシミュレーションする内部構造。ロボティクスや自律制御で重視される。

自己教師あり学習(Self-Supervised Learning)
データ自身の構造を利用して学習を進めるAIの学習手法。外部ラベルを必要とせず、柔軟な一般化能力が特徴。

ゼロショット学習(Zero-Shot Learning)
未学習の状況やタスクに対しても、事前学習で獲得した知識を応用して正しく対応する能力。

【参考リンク】

Meta AI(外部)
MetaのAI研究部門の公式サイト。V-JEPA 2を含む最先端技術の発表、論文、開発ツールが掲載されている。

V-JEPA 2 GitHubリポジトリ(外部)
V-JEPA 2の公式実装コード。研究者や開発者向けにソースコード、学習スクリプトなどが公開されている。

【参考動画】

【参考記事】

Meta’s new AI helps robots learn real-world logic from raw video | Interesting Engineering
Metaが発表したV-JEPA 2の概要と、ロボティクスへの応用可能性について解説している。

Meta publishes V-Jepa 2 – an AI world model | Heise Online
V-JEPA 2の技術的特徴と、MetaのAI戦略における位置づけを紹介している。

Meta V-JEPA 2 world model uses raw video to train robots | The Robot Report
V-JEPA 2がロボットの物理的理解を向上させる方法と、その実験結果について報告している。

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning | arXiv
V-JEPA 2の技術的詳細と、自己教師あり学習による物理世界の理解について記述された論文。

【編集部後記】

Metaの『V-JEPA 2』は、AIが「現実世界を理解し行動する」フェーズに入りつつあることを示す重要なマイルストーンです。映像から因果関係を学び、未知の環境でもロボットが自律的に判断・行動できるという点は、まさにSFで描かれてきたAI像の現実化に他なりません。一方で、技術の進化は必ずしも社会や制度の整備と並行して進むわけではありません。安全性や責任の所在、倫理的配慮も含めた成熟が求められます。

ロボティクスニュースをinnovaTopiaでもっと読む

投稿者アバター
乗杉 海
新しいものが大好きなゲーマー系ライターです!

読み込み中…
読み込み中…
advertisements
読み込み中…