ニュース

”ほぼ同時”翻訳を実現 グーグル新音声モデル「Gemini 3.5 Live Translate」

Googleは9日(米国時間)、ほぼリアルタイムの音声対音声翻訳に対応する音声モデル「Gemini 3.5 Live Translate」を発表した。70以上の言語を自動検出し、話者のイントネーション、ペース、ピッチを保った翻訳音声を生成する。

一般向けにはAndroidおよびiOS版のGoogle 翻訳アプリで利用できるほか、開発者向けにはGemini Live APIとGoogle AI Studioでパブリックプレビューとして提供し、法人向けには今月からGoogle Meetでプライベートプレビューを開始するなど、同社の製品全体で順次展開される。

Gemini 3.5 Live Translateは、話している最中の音声を別言語の音声へ翻訳する音声モデル。話者が話し終えるのを待つターンバイターン方式のシステムとは異なり、音声を継続的に生成する。翻訳品質のために文脈を待つことと、話者に同期するために即時翻訳することのバランスを取り、セッション中は話者から数秒遅れで追従することで、不自然な間を抑えた音声を出力する。

多言語入力にも対応し、手動で設定せずに利用できる。ノイズ耐性も備え、騒がしい環境や予測しづらい環境でも利用可能で、多言語通話、会議、レッスン、放送などのライブ通訳用途に適しているとする。

AndroidおよびiOS版のGoogle 翻訳アプリでは、ライブ翻訳機能で同モデルを展開する。Android版では、受話口から翻訳音声を聞ける「listening mode(リスニングモード)」も追加する。

Google Meetの音声翻訳機能にも同モデルを導入。対応言語は従来の5言語から70言語以上に拡大し、英語との翻訳に限らず、1つの会議内で2,000以上の言語組み合わせに対応する。対象は一部の法人向けGoogle Workspaceユーザーで、年内にはより広い展開を予定する。

Android版Google 翻訳アプリではリスニングモードが追加

このほか、Agora、Fishjam、LiveKit、Pipecat、Vision Agentsなどの開発者プラットフォームでは、Gemini Live APIを活用した音声翻訳アプリの構築と展開に対応する。

なお、同モデルが生成する音声には、SynthIDによるウォーターマークが付与される。ウォーターマークは音声出力に組み込まれ、AI生成コンテンツの検出に使われる。