ニュース

Google DeepMindが"視て覚える" ロボット用AIモデル ローカルで高速動作

Google DeepMindは、VLA(視覚言語アクション)モデル「Gemini Robotics」を、ロボットのローカルで実行できる「Gemini Robotics On-Device」を発表した。ネットワークを使うことなく、VLAでのロボット制御を可能にする。

二腕ロボット向けのロボティクス基盤モデルで、最小限の計算リソースで動作するよう設計されたもの。ベースとなるGemini Roboticsのタスク汎用化機能と器用さを元に、巧緻な作業を迅速に行なえるよう設計。ファインチューニングによって新しいタスクを覚えさせることができ、ネットワーク不要でローカル動作することから、低遅延で作業を実行できる

ファインチューニングによる新タスクの教育は、50回~100回のデモンストレーションを行なうことで適応が可能。

公開されたデモでは、自然言語での指示によって、バッグのジッパーを開けたり、衣服を畳んだり、特定のフルーツを選んでカゴに入れるなどの作業をこなす様子を確認できる。同社によると、ローカルで動作しながらも一般的なクラウド型のモデルに匹敵するパフォーマンスを実現しているという。

双腕ロボットだけでなく、ドイツのロボットアーム「Franka FR3」や、Apptronikのヒューマノイド「Apollo」など異なるプラットフォームでも動作を確認。特にFranka FR3では、未学習の物体やシーンにも対応。服を畳む、ベルト組立などの精密作業も可能にした。Apolloにおいても、自然言語によって未知の物体の取り扱いなど汎用的な対応を可能にしている。