ニュース
Gemini 2.5 ProがWebブラウザを操作「Computer Use model」
2025年10月8日 11:38
Googleは7日(米国時間)、Gemini APIを通じてコンピューターを操作できる「Gemini 2.5 Computer Use model」を開発者向けに提供開始した。Gemini 2.5 Proのビジュアル理解・推論能力を基盤とし、コンピューターのユーザーインターフェース(UI)との対話が可能なエージェントを実現する。パブリックプレビューとして、Google AI Studioと、Vertex AIのGemini API経由で提供される。
コンピューターの操作には、フォームの入力や送信など、多くのタスクでGUI(グラフィカルユーザーインターフェース)との対話が必要となる。通常のAIモデルは、こうした処理を苦手とするが、AIエージェントとして動作させるには、人間と同様に、クリックや入力、スクロールによるウェブページやアプリケーション操作、ドロップダウンやフィルターなどのインタラクティブ機能の操作、ログイン作業などの対応が求められる。
こうしたGUI操作能力が、汎用性の高いエージェント構築に必要となることから「Gemini 2.5 Computer Use model」を開発し、提供開始する。
主要な機能は、Gemini APIの新たな「computer_use」ツールを通じて提供され、ユーザーリクエストや操作環境のスクリーンショット、最近の操作履歴を活用。モデルがこれらの入力を分析し、クリックや入力などのUIアクションを行なう。購入などのアクションが必要な場合は「確認」のリクエストも含まれる。
アクション実行後、GUIの新たなスクリーンショットと現在のURLが送信され、処理は、タスク完了、エラー発生、安全応答やユーザーの決定によるインタラクション終了まで反復的に継続する。
現状、主にウェブブラウザ向けに最適化されているが、モバイルのUI制御タスクにも対応可能。デスクトップOSの制御は最適化されていない。
同様のComputer Useモデルは、OpenAIやAnthropicも提供しているが、Gemini 2.5 Computer Use modelはベンチマークにおいてそれらより高い性能を示しているという。
またシステムの完全性を損なう行動や、セキュリティ侵害、CAPTCHA回避などはできないようトレーニングされており、安全性にも配慮している。


