ニュース

Gemini 2.5 Proに新思考モード「Deep Think」ネイティブ音声出力も

臼田勤哉

2025年5月21日 09:08

Goolgeは20日、「Gemini 2.5 Pro」の最新機能を発表した。2.5 Flashをアップデートにより進化したほか、Gemini 2.5 Pro向けの実験的な強化推論モード「Deep Think」なども追加する。

3月に発表したGemini 2.5 Proは5月上旬に新たなI/O editionを公開。さらに、今回アップデートを行なっている。2.5 Proは、アカデミックベンチマークで高いパフォーマンスを発揮しているほか、WebDev ArenaとLMArenaの両リーダーボードで世界トップのモデルとなった。

また、2.5 Proと2.5 Flashに、会話体験を自然で豊かなものにするネイティブ音声出力や高度なセキュリティ対策、Project Marinerのコンピューター利用などの新機能を追加。さらに2.5 Proは、実験的な強化推論モード「Deep Think」を追加する。

Deep Thinkは、複雑な数学やコーディングに対応できるよう設計。特に開発者体験の向上に力を入れ、Gemini APIとVertex AIのための「思考サマリー」を導入し、2.5 Proには制御性を高める思考バジェットを拡張している。思考バジェットは、モデルが応答する前に思考に使用するトークン数を調整(考えるレベルを指定)できるほか、思考自体をオフにもできる。

これらにより、現在最も難しい数学のベンチマークの1つとされる「2025 USAMO」で優れたスコアを獲得。また、競技レベルのコーディングのベンチマーク「LiveCodeBench」でもトップで、マルチモーダル推論をテストする「MMMU」で84.0%のスコアを記録している。

また、Gemini APIとSDKにModel Context Protocol(MCP)のサポートを追加し、より多くのオープンソースツールを利用可能とした。

主力モデルの2.5 Flashは、推論、マルチモーダル、コード、長文コンテキストに関する主要なベンチマーク全体で改善。効率化も進み、同社の評価ではトークン使用量が20〜30%削減されている。

2.5 FlashはGeminiアプリを通じて誰でも利用可能で、6月上旬には、開発者向けにGoogle AI Studio、企業向けにはVertex AIで、アップデート版の一般提供を開始する。その後、2.5 Proも一般提供を開始する。

ネイティブ音声出力やコンピュータ利用、MCP対応など

Gemini 2.5では、新たにネイティブ音声出力に対応し、Live APIを改善する。

Live APIはネイティブ音声出力による対話機能のプレビュー版を導入し、開発者は、自然で表現力豊かなGeminiとの会話体験を構築できるようになる。ユーザーは話し方、アクセント、スタイルの指示が可能となり、例えば、物語を語る際にドラマチックな声にするようにモデルに指示できる。

Native Audio Outputs

実験的機能として以下の機能も提供する。

Affective Dialogue(感情認識対話): モデルがユーザーの声に含まれる感情を検知し、適切に応答
Proactive Audio(プロアクティブ音声): モデルがバックグラウンドの雑音を無視し、視覚的なイベントにそれぞれ応答することで、よりスムーズな会話を実現
Thinking in the Live API(ライブ API での思考)：モデルがGeminiの思考能力を活用し、より複雑なタスクをサポート

また、2.5 Proと2.5 Flashのテキスト読み上げ(TTS)の新しいプレビュー版も公開。これらは、複数の話者に初めて対応し、ネイティブ音声出力により2つの声によるテキスト読み上げが可能となる。24以上の言語に対応し、言語はシームレスに切り替えできる。

Geminiが、PCの操作を代行するProject Marinerのコンピューター利用(Computer Use)機能も、Gemini APIやVertex AIを通じて提供する。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company、Cartwheelなどが検証に参加しており、今夏企業がその可能性を検証しており、この夏から開発者がテストできるようになる予定。また、間接プロンプトインジェクションのようなセキュリティ脅威に対する保護もGemini 2.5では強化した。