ニュース

グーグル、最速・低コストな新AIモデル「Gemini 3.1 Flash-Lite」

臼田勤哉

2026年3月4日 10:17

Googleは3日(米国時間)、高速かつ低コストなGemini 3シリーズの最新AIモデル「Gemini 3.1 Flash-Lite」を発表した。大規模な開発者ワークロード向けに設計され、Google AI Studio内のGemini APIとVertex AI経由でプレビュー提供が開始された。

Gemini 3シリーズ最速で、最もコスト効率に優れたモデルとしており、入力トークン100万件あたり0.25ドル、出力トークン100万件あたり1.50ドルという低価格と高速な動作が特徴。大型モデルの数分の1のコストで、ベンチマークでは2.5 Flashを上回りながら、最初の回答トークンまでの時間が2.5倍高速化。出力速度も45%向上し、同等以上の品質を維持できているという。

こうした低遅延性は高頻度ワークフローに不可欠としており、Googleでは特に応答性の高いリアルタイム体験を構築するために適したモデルとしている。

Gemini 3.1 Flash-Lite delivers better performance at a fraction of the cost of larger models.

It outperforms 2.5 Flash with 2.5x faster (Time to First Answer Token) response times and a 45% increase in output speed.

Priced at just $0.25/1M input and $1.50/1M output tokens, it…pic.twitter.com/wc75wyOQre
— Google (@Google)March 3, 2026

3.1 Flash-LiteはArena.aiリーダーボードで1,432というEloスコアを達成し、推論およびマルチモーダル理解ベンチマークにおいて同クラスの他モデルを超えている。PQA Diamondで86.9%、MMMU Proで76.8%となり、2.5 Flashを含む前世代の大型Geminiモデルを上回る。

また、AI StudioとVertex AIでは「思考レベル」に対応し、開発者はタスクごとにモデルの思考量を調整できる。3.1 Flash-Liteは特にコスト優先の大規模タスクとして、高ボリューム翻訳、コンテンツモデレーションなどに対応できるほか、ユーザーインターフェースやダッシュボードの生成、シミュレーションの作成、指示の追従など、より深い推論が必要な複雑なワークロードにも対応可能としている。