ニュース

グーグル、推論性能を選べる高コスパAIモデル「Gemini 2.5 Flash」

臼田勤哉

2025年4月18日 13:22

Googleは17日、コストパフォーマンスに優れた推論対応のAIモデル「Gemini 2.5 Flash」のプレビュー版を提供開始した。API経由で「Google AI Studio」と「Vertex AI」で利用できるほか、GeminiのWebやアプリのドロップダウンメニューからも選択可能。

Gemini 2.5 Flashでは、即座に出力を生成する代わりに、推論による「思考」プロセスを実行し、プロンプトをより理解して、タスクを分解、応答を計画する。コストパフォーマンスに優れるだけでなく、Google初の完全ハイブリッド推論モデルとなっており、開発者は、推論のオン/オフを切り替できるほか、“推論予算”(thinking budgets)を設定し、どれくらい推論を行なうかの配分も可能となる。

ベンチマークによるGemini 2.5 Flashの性能

コストと遅延を最小限に抑えたい場合、Google AI Studioなどで推論予算を0に設定。多くの推論が必要な場合は、推論予算を増やす。予算は0から24,576トークンまで設定できる。

Google AI Studioで推論予算(thinking budgets)を設定

例えば、「ありがとうをスペイン語で」、「カナダには何つの州がありますか?」といったシンプルな質問で最適な答えを得るためには、推論予算はほぼ必要ないが、「2つのサイコロを振ったとき、合計が7になる確率は?」といった質問は推論能力が必要とされる。

さらに、「長さL=3mのカンチレバービームは、長方形断面（幅b=0.1m、高さh=0.2m）で鋼製（弾性率E=200 GPa）です。ビーム全体に均一に分布した荷重w=5 kN/mが作用し、自由端に点荷重P=10 kNが作用しています。最大曲げ応力（σ_max）を計算してください。」といった複雑な質問には推論予算を多く割り当てる必要がある。このように、用途に応じて推論予算を設定できるのが、2.5 Flashの特徴となる。

また、推論をオフにしても、2.0 Flash相当の速度を維持しつつ、パフォーマンスを向上できるという。Geminiアプリでは、ドキュメントやコードの生成結果を確認しながら作業できる「Canvas」などの機能も利用可能。2.5 Flashはプレビュー版として公開しながら、近日中に機能追加して一般公開する。