ニュース

OpenAI、新音声モデル「GPT-Realtime-2」 即時翻訳や低遅延文字起こしも

OpenAIは7日(米国時間)、リアルタイム音声エージェント向け「Realtime API」において、新たな音声モデルを発表した。音声対話向け「GPT-Realtime-2」、リアルタイム翻訳向け「GPT-Realtime-Translate」、ストリーミング音声認識向け「GPT-Realtime-Whisper」の3種で、開発者がより自然な音声アプリを構築できるようにする。

GPT-Realtime-2は、GPT-5クラスの推論能力を備えたリアルタイム音声対話向けモデル。会話を進めながら要求を推論し、ツール呼び出しや修正、割り込みに対応する。推論レベルはminimal、low、medium、high、xhighから選択でき、用途に応じて応答速度と推論精度のバランスを調整できる。

同モデルでは、メインの応答前に「確認します」や「少々お待ちください」といった短い発話を挟む機能や、複数ツールの並列呼び出しにも対応する。コンテキストウィンドウは従来の32Kから128Kへ拡大し、長時間の対話や複雑なタスクフローに対応しやすくした。専門用語や固有名詞、医療用語などの保持能力も向上している。

GPT-Realtime-Translateは、70以上の入力言語から13の出力言語への翻訳に対応するリアルタイム翻訳向けモデル。話者のペースに合わせて音声の翻訳と文字起こしができ、カスタマーサポートや越境販売、教育、イベント、メディア、クリエイター向けプラットフォームなどでの利用を想定する。

GPT-Realtime-Whisperは、発話と同時に文字起こしを行なう低遅延のストリーミング音声認識モデル。リアルタイムで字幕表示を行ない、会議や授業、音声エージェント、顧客対応、医療、営業、採用などの音声でのやり取りが多いワークフローに活用できる。

GPT-Realtime-2の推論能力はGPT-Realtime-1.5より向上しており、音声入力に対応した言語モデルの推論能力を評価する「Big Bench Audio」では、GPT-Realtime-2(high)がGPT-Realtime-1.5を15.2%上回った。音声対話システムにおける複数ターンの会話能力を評価する「Audio MultiChallenge」でも、GPT-Realtime-2(xhigh)がGPT-Realtime-1.5を13.8%上回っている。

新モデルはRealtime APIで利用できる。GPT-Realtime-2の価格は、音声入力100万トークンあたり32ドル(キャッシュ済み入力は0.4ドル)、音声出力100万トークンあたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドル。新モデルはPlaygroundでも試用できる。