ニュース
Gemini 2.5、ユーザーの声のトーンも汲み取る音声対話機能
2025年6月4日 13:21
Googleは、Gemini 2.5 Flashのプレビュー機能として、リアルタイムでAIと音声会話が可能なネイティブオーディオダイアログ機能を提供する。Google AI Studioで試用が可能。
Gemini 2.5はマルチモーダルとして音声もネイティブに生成でき、ユーザーと自然に対話することが可能。音声会話機能は、適切な表現やリズム、短い遅延で流暢な会話を実現する。特定のアクセントを採用したりささやき声にしたりできるなど、表現スタイルの調整が可能。
対話の中でツールや関数の呼び出が可能で、Google検索などの情報源からリアルタイムに情報を取り込める。バックグラウンドの音声や周囲の会話などを識別、話すべきでないタイミングを理解して、適切なタイミングで応答する。オーディオとビデオの理解が可能で、画面共有で見ているものについて対話できる。
ユーザーの声のトーンに反応可能。また、同じ言葉でも、話し方が異なると“違う会話になること”を認識できる。24以上の言語がサポートされ、同じフレーズの中で言語を混ぜることも可能。
テキストを元にした音声読み上げ機能(TTS、text to speech)についても、Gemini 2.5ではこれまでにない制御が可能になる。Gemini 2.5 Pro PreviewとGemini 2.5 Flash Previewのどちらでも提供される。
ニュースの読み上げ、詩、物語まで、さまざまなテキストを表現力豊かに読み上げられるとする。自然言語のプロンプト(指示)で、特定の感情を込めた表現や、要求に応じたアクセントの追加、速度の制御、特定単語の発音精度を向上させるといったことが可能。話者を二人に分けることもできる。24以上の言語をサポートする。
いずれのオーディオ出力にもAIで生成されたことを識別できるようにする透かし技術「SynthID」が埋め込まれる。
