ニュース
NVIDIA、フィジカルAIのための世界モデル「Cosmos 3」 エッジ用など3種類
2026年6月1日 18:26
NVIDIAは1日、ビジョン リーズニング、ワールド生成、アクション予測を単一のシステムに統合した、フィジカルAI用のオープンな世界基盤モデル「NVIDIA Cosmos 3」を発表した。
Cosmos 3は完全にオープンなオムニモデルとなり、テキスト、画像、動画、環境音、アクションをネイティブに理解して生成できる。これにより、従来は数カ月かかっていたフィジカルAIのトレーニングと評価サイクルにかかる時間を数日に短縮できるという。
また、NVIDIAは、Agile Robots、Black Forest Labs、Dyna Robotics、Generalist、LTX、Runway、Skild AIなどのモデルビルダーとAI開発者とのエコシステム構想として「Cosmos Coalition」を立ち上げ。協力して次世代の世界モデルの発展に取り組むとしている。
Cosmos 3は、mixture-of-transformers アーキテクチャを基盤に構築されたフィジカルAI基盤モデル。ロボット、自動運転車(AV)、ビジョン エージェントに対し、限られた学習データと断片化されたシミュレーション スタックを用いて現実世界での汎化を目指す。
用途にあわせたモデルを提供し、「Cosmos 3 Super」は、最高レベルの物理精度と生成品質が求められるロボティクスや自動運転向けモデルのポストトレーニング向けに適している。
「Cosmos 3 Nano」は、数分の1秒で高品質な動画生成とアクションリーズニングを実現し、「Cosmos 3 Edge」は、エッジにおけるリアルタイム推論に適しており、近日公開予定としている。
開発者にとっての Cosmos 3の用途は以下の通り。
- さまざまなモダリティを理解し、リーズニングする視覚言語モデル
- 物理環境をシミュレートし、学習と評価のために未来の世界状態を予測する世界基盤モデルまたは動画基盤モデル
- ロボットが特定のタスクの実行を学習するのに役立つ世界行動モデルのバックボーン

