ニュース

Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成

Meta AIは16日、音声用ジェネレーティブAIモデル「Voicebox」を発表した。音声やテキストを入力して、音声合成やオーディオクリップの作成、ノイズ除去、コンテンツ編集、スタイル変換(Style Transfer)、多様な音声でのサンプル生成などに対応する。

Voiceboxでは、トレーニングデータを使わずに、収録した音声と補足する書き起こしから学習するアプローチを採用。Flow Matchingと呼ばれる手法により、音声合成において、最新の英語モデルVALL-Eを、明瞭度と音声類似度の両方で上回るほか、20倍高速化しているという。

音声とテキストの入力に対し、自然に聞こえる音声合成を行なう。Text to Speech(音声読み上げ)においては、入力された2秒の音声サンプルを使って、そのサンプルの声に非常によく似た音声読み上げを行なえる。この技術は、話すことができない人の音声としての活用のほか、バーチャルアシスタントが使用する音声をカスタマイズするといった応用を想定する。

また、言語横断のスタイル変換に対応。英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の音声や文章を別の言語で同じ声で読み上げできるようにする。

音声のノイズ除去・編集にも対応。入力した音声に対して、例えば犬の鳴き声が入っていた場合、背景の犬の鳴き声だけを消せるほか、入力した音声をテキスト認識し、テキスト部を編集して読み上げ音声を変更できる。例えば、「Hi guys! Thank you for tuning in」という文章のguys!をeveryone!に置き換えて「Hi everyone! Thank you for tuning in」という音声にすぐに変更できる。音声編集においては、Voiceboxの文脈内学習が使われる。

また、1つの文章を様々な声で読み上げる「Diverse speech sampling」に対応。6言語での読み上げに対応する。

Metaでは、Voiceboxとともに論文等も公開しているが、「この技術が、誤用や意図しない害をもたらす可能性があることを認識している」とし、現時点ではVoiceboxのモデルやコードの一般公開は行なわないとしている。