ニュース

グーグル、読み上げモデル「Gemini 3.1 Flash TTS」　抑揚調整できる音声タグ

佐々木翼

2026年4月16日 12:04

Googleは15日(米国時間)、テキスト読み上げモデル「Gemini 3.1 Flash TTS」を提供開始した。開発者向けにGemini APIとGoogle AI Studioでプレビュー提供するほか、企業向けにVertex AI、Workspaceユーザー向けにGoogle Vidsでも順次展開する。

より自然で表現力のある音声生成に対応し、音声の話し方やテンポ、抑揚を細かく調整できる「音声タグ」を導入した。テキスト入力内に自然言語で指示を埋め込むことで、話者のトーンやアクセント、話速などを細かく指定できる。

開発者向け機能としては、シーン設定や会話の背景指示を行なう「Scene direction」、話者ごとに音声プロファイルを設定する機能、調整したパラメータをGemini APIコードとして書き出すエクスポート機能を用意する。複数プロジェクトや異なるプラットフォーム間でも同一の音声表現を維持しやすくした。