ニュース

グーグル、Geminiに画像認識「Agentic Vision」 “根拠ある回答”を可能に

Googleは27日、Gemini 3 Flashの新機能「Agentic Vision」を発表した。視覚的推論とコード実行を組み合わせたエージェント型の画像認識機能で、画像を一度だけ認識して回答する従来型とは異なり、画像を加工・分析しながら視覚的根拠に基づく回答を導く点を特徴とする。

同機能は、Google AI StudioとVertex AIのGemini APIで提供開始し、Geminiアプリでも「Thinking」モデルを選択することで順次利用可能となる。開発者はGoogle AI Studioのデモのほか、AI Studio Playgroundで「ツール」の「コード実行」を有効にすることで利用できる。

Agentic Visionは、画像認識の過程で、思考・行動・観察のループを実行する。ユーザーの指示と画像をもとに複数ステップの計画を立て、Pythonコードを生成・実行して画像の切り抜きや回転などの加工、計算を含む分析を行なう。

その後、変換した画像を再検証したうえで最終回答を生成する。同機能を利用したベンチマークでは、Gemini 3 Flashの画像認識の精度が5~10%向上したという。

活用事例として、AIを活用した建築図面の検証サービス「PlanCheckSolver.com」では、処理精度が5%向上した。Geminiアプリの例では、画像内の指の本数を数える際に各指へ枠やラベルを描画し、ピクセル単位での理解に基づいた回答を行なうことで、数え間違いを抑えた。

PlanCheckSolver.comでのデモ
Geminiアプリでのデモ

また、情報量の多い表データの処理では、Pythonで集計や計算を実行し、結果をグラフ化することで、見た目からの推測ではなく検証可能な実行結果に基づく処理を可能にした。

Agentic Visionでは今後、画像回転や視覚的計算といった操作を明示的な指示なしで実行できるようにするほか、Web検索や画像検索との連携、Gemini 3 Flash以外のモデルへの展開も予定している。