ニュース

OpenAI、本人そっくりの音声で話す「Voice Engine」 一般公開には課題も

OpenAIは29日(米国時間)、人の声を模した自然な音声を生成できるAIモデル「Voice Engine」による成果を発表した。15秒のサンプルを使って、元の話し手に近い音声で、感情や用途にあわせたリアルな音声を作成できる。

OpenAIでは2022年後半にVoice Engineを開発し、音声合成APIで利用可能なプリセット音声や、ChatGPT Voice、Read Aloudに搭載している。ただし、合成音声の悪用の可能性もあるため、広範なリリースには慎重な姿勢をみせており、小規模なテストで検証を進めながら、社会的受容についても検討していく。

新たな研究成果として、教育テクノロジー企業のAge of Learningでは、事前に準備した音声からVoice EngineとGPT-4を使ってパーソナライズされた応答を作成。また、生物学や科学、数学、物理学など異なるジャンルの多くのコンテンツを作成している。

HeyGenでは、コンテンツの翻訳に対応。話者の声を多言語展開するためにVoice Engineを活用し、英語からスペイン語、中国語(北京語)、ドイツ語、フランス語、日本語などに翻訳する。

また、発話が不自由な人向けにロボット的ではない音声が選べるようになるほか、発声障害になってしまった人が、以前に話していた声を活用して、病気になる前の声に戻すといった取り組みも行なっている。これらの音声のサンプルはOpenAIの発表リリースから確認できる

Voice Engineのテストに参加するパートナーは、他の個人や組織へのなりすましの禁止で合意しており、元の話者からの明示的な同意を持たない利用は認めない。OpenAIでは、Voice Engineによって生成した音声を確認するために電子透かしを付与するほか、合成音声の展開拡大には、元の話し手の意思の確認と、有名人の声を模した作成を防止するリストが伴うべきとし、「現時点では広く公開することはない」としている。

今後の社会での活用に向けては、銀行口座や機密情報へのアクセスへのセキュリティ対策として音声ベースの認証を廃止することや、個人の声の使用を保護する政策の検討、一般市民の理解、出所の確認技術などの準備が必要とする。