ニュース

メタの音声AIは1100以上の言語に対応 Whisper対抗

太田亮三

2023年5月23日 18:20

Meta(メタ)は、新たに提供するMMS(Massively Multilingual Speech、大規模多言語音声)モデルにより、1,100種類以上の言語をサポートできる仕組みを公開した。

Metaが開発したMMSモデルでは、1,107言語について音声合成とテキスト合成をサポートする。また4,000言語以上の言語識別にも対応する。言語数の増加に対して高い精度を維持するのも特徴。OpenAIのWhisperと比較して、単語エラー率が半分で、11倍の数の言語をサポートすると説明している。一方、MMSモデルも完璧ではなく誤訳や不正確な表現になる可能性はあるとし、今後の開発でもコミュニティ全体の協力が欠かせないとしている。

紫の三角が音声合成とテキスト合成をサポートする言語、緑の丸が識別に対応する言語

世界にある多数の言語のうち、話者の少ない言語や継承が難しくなっている言語は消滅の危機にあるとされている。メタは、音声認識や音声生成技術にまつわる現在の技術的な限界が、主要な言語に利用が集中する傾向を強め、マイナーな言語の消滅の危機を加速させると予測する。

メタの構想は、自分の好きな言語で情報にアクセスでき技術を利用できる世界をつくることで、自分の言語を維持するよう促すというもの。今回の多言語音声プロジェクトの成果は大きな一歩とし、今後も多くの言語をカバーする計画。さらに既存の技術ではむずかしい方言の扱いにも取り組むとしている。

このほか、好きな言語でVR/AR技術を使う、すべての人の声を理解できるメッセージングサービスなどを具体的なユースケースとして挙げている。また将来的には音声認識、音声合成、言語識別の各モデルは1つに統合され、総合的なパフォーマンスが向上するという考えも明らかにしている。