ニュース

OpenAI、新音声対話モデル「gpt-realtime」 電話番号も正確に認識

OpenAIは、リアルタイム音声エージェント向けの「Realtime API」を正式リリースした。音声対話モデル「gpt-realtime」、外部ツール連携を簡単にする「MCPサーバー」のサポート、画像を音声会話に組み込む「画像入力」、電話網との直接接続が可能な「SIP通話機能」などが追加されている。

gpt-realtimeは、カスタマーサポートやパーソナルアシスタンス、教育などの分野で優れた性能を発揮するようトレーニングされている音声対話モデル。音声の理解、指示への追従性、関数呼び出しにおいて優れた性能を発揮する。

より自然な発話を目指し、「速く、プロフェッショナルに話してください」「フランス語のアクセントで共感的に話してください」などといった、細かい指示にも従うことができるようトレーニングされた。新しい音声APIとして「Marin」と「Cedar」も公開されている。

ネイティブ言語をより正確に理解可能。笑い声などの非言語的なものも認識し、文の途中で言語を切り替え、口調を適用させることができる。OpenAIの社内評価では、スペイン語、中国語、日本語、フランス語を含む他の言語において、電話番号や車のナンバープレートなど英数字の検出においてより正確なパフォーマンスを示したという。

推論能力を測定するBig Bench Audioの評価において、gpt-realtimeは82.8%の精度を記録し、2024年12月に発表した以前のモデルの65.6%を上回った。

開発者が設定した細かなルールや話し方などの指示に正確に従う能力も大きく向上し、複数のターンに渡る複雑な会話において一貫した応答が可能。指示追従精度を測定するMultiChallenge音声ベンチマークでは、30.5%というスコアを獲得。前モデルのスコア20.6%から大幅に向上した。

ユーザーの発言に応じて適切な外部ツールや関数を正しいタイミング・引数で呼び出す精度が飛躍的に向上。時間のかかる処理(DB検索など)が内部で進行中でも、会話が途切れず自然な対話が継続できる。

MCPサーバーをサポートし、外部ツール連携が容易になった。これにより決済・CRMなどさまざまな外部システムとの統合が容易になる。コードを大幅に省略でき、本番環境への展開スピードも向上する。

画像入力に対応したことで、「画像に何が写っているのか」「スクリーンショットのテキストを読んで欲しい」など、視覚情報に基づいた対話が可能になる。

また、APIがSIP(Session Initiation Protocol)を直接サポートすることで、PBXや一般電話網、IP電話システムと連携可能になった。AI音声エージェントが電話を受けたり、発信したりすることが可能で、顧客対応や予約対応などの自動化が可能になる。

価格は、100万オーディオ入力トークンあたり32ドル、100万オーディオ出力トークンあたり64ドル。