ニュース

グーグル、読み上げモデル「Gemini 3.1 Flash TTS」 抑揚調整できる音声タグ

Googleは15日(米国時間)、テキスト読み上げモデル「Gemini 3.1 Flash TTS」を提供開始した。開発者向けにGemini APIとGoogle AI Studioでプレビュー提供するほか、企業向けにVertex AI、Workspaceユーザー向けにGoogle Vidsでも順次展開する。

より自然で表現力のある音声生成に対応し、音声の話し方やテンポ、抑揚を細かく調整できる「音声タグ」を導入した。テキスト入力内に自然言語で指示を埋め込むことで、話者のトーンやアクセント、話速などを細かく指定できる。

開発者向け機能としては、シーン設定や会話の背景指示を行なう「Scene direction」、話者ごとに音声プロファイルを設定する機能、調整したパラメータをGemini APIコードとして書き出すエクスポート機能を用意する。複数プロジェクトや異なるプラットフォーム間でも同一の音声表現を維持しやすくした。

対応言語は70以上。主要市場向けにスタイル、話速、アクセントの制御精度を高め、グローバル展開するサービスでの利用を想定する。企業向けではVertex AI上で音声タグを利用でき、音声応答や対話アプリケーションへの活用を見込む。

生成されるすべての音声には、不可視の透かし技術「SynthID」を埋め込む。AI生成コンテンツの検出を可能にし、誤情報対策や信頼性向上に活用する。