ニュース

操作可能で一貫性を保つ世界をリアタイ生成する「Genie 3」 Google DeepMind

Google DeepMindは、リアルタイムでインタラクティブな仮想世界を自動生成できる汎用ワールドモデル「Genie 3」を発表した。テキストプロンプトから720pの解像度で世界を生成し、数分間一貫性を保つことが可能。物理法則やオブジェクトの相互作用なども反映されるインタラクティブな空間をリアルタイム生成可能で、ユーザーやAIエージェントが世界シミュレーターとして利用できる。

物理的特性を学習しており、水や照明などの自然現象や、複雑な環境の相互作用を再現可能。動物の行動や、複雑な植物の植生など、さまざまな生態系も生成できる。フィクションの世界観のモデリングも可能。

リアルタイム生成によるインタラクションと、長期にわたる環境の一貫性を実現。AIが生成した世界で長期にわたって物理的な一貫性を維持するのは課題がある。環境を自己回帰的に生成する場合、時間とともに不正確さが蓄積することから、従来は一貫性のある映像を作り出すことは難しかった。

Genie 3では、ワールドメモリ(世界記憶)によって、数分間ほぼ一貫性を保つことに成功。ユーザーが過去に見たり操作したオブジェクトや環境状態を約1分前まで保持することができる。こうした映像は世界記憶とユーザーの操作に基づいてフレーム毎に生成されるため、動的で豊かな表現力を備えているという。

プロンプトによってさまざまな世界を表現可能。気象条件の変更や、新しいオブジェクトの追加、キャラクターの導入などを簡単に行なえる。これにより、AIエージェントが予期しない状況に対処するための訓練も可能。

Google DeepMindが開発した汎用AIエージェント「SIMAエージェント」と組み合わせ、Genie 3が生成した世界でSIMAエージェントにタスクを与えることもできる。たとえば、生成した世界の中のオブジェクトに近づく指示などを与え、実行させられる。

同社は、より長い時間、映像の一貫性を維持できることで、より長いアクションシーケンスが実行可能になり、複雑な目標も達成することが可能になるとしている。また、本技術は、将来のAGI(汎用人工知能)実現に向け、重要な役割を果たすことが期待されるという。

Genie 3は限定的な研究プレビューとして発表し、一部の研究者とクリエイターに限定し、早期アクセスを提供する。