ニュース
グーグル、推論性能を選べる高コスパAIモデル「Gemini 2.5 Flash」
2025年4月18日 13:22
Googleは17日、コストパフォーマンスに優れた推論対応のAIモデル「Gemini 2.5 Flash」のプレビュー版を提供開始した。API経由で「Google AI Studio」と「Vertex AI」で利用できるほか、GeminiのWebやアプリのドロップダウンメニューからも選択可能。
Gemini 2.5 Flashでは、即座に出力を生成する代わりに、推論による「思考」プロセスを実行し、プロンプトをより理解して、タスクを分解、応答を計画する。コストパフォーマンスに優れるだけでなく、Google初の完全ハイブリッド推論モデルとなっており、開発者は、推論のオン/オフを切り替できるほか、“推論予算”(thinking budgets)を設定し、どれくらい推論を行なうかの配分も可能となる。
コストと遅延を最小限に抑えたい場合、Google AI Studioなどで推論予算を0に設定。多くの推論が必要な場合は、推論予算を増やす。予算は0から24,576トークンまで設定できる。
例えば、「ありがとうをスペイン語で」、「カナダには何つの州がありますか?」といったシンプルな質問で最適な答えを得るためには、推論予算はほぼ必要ないが、「2つのサイコロを振ったとき、合計が7になる確率は?」といった質問は推論能力が必要とされる。
さらに、「長さL=3mのカンチレバービームは、長方形断面(幅b=0.1m、高さh=0.2m)で鋼製(弾性率E=200 GPa)です。ビーム全体に均一に分布した荷重w=5 kN/mが作用し、自由端に点荷重P=10 kNが作用しています。最大曲げ応力(σ_max)を計算してください。」といった複雑な質問には推論予算を多く割り当てる必要がある。このように、用途に応じて推論予算を設定できるのが、2.5 Flashの特徴となる。
また、推論をオフにしても、2.0 Flash相当の速度を維持しつつ、パフォーマンスを向上できるという。Geminiアプリでは、ドキュメントやコードの生成結果を確認しながら作業できる「Canvas」などの機能も利用可能。2.5 Flashはプレビュー版として公開しながら、近日中に機能追加して一般公開する。