ニュース

ChatGPT、見る・聞く・話すに対応 写真の内容を認識して対話

OpenAIは25日(米国時間)、チャットAI「ChatGPT」の新たな音声・画像認識機能を発表した。音声で会話したり、画像を見せることで対話ができる新たなインターフェイスを導入し、今後2週間程度で有料会員のPlusとEnterprise向けに提供開始する。

画像認識では、例えば、旅行中にランドマークの写真を撮影してChatGPTに送り、「何が面白いか」についてライブ会話をする。家の中で、冷蔵庫やパントリーの写真を撮影し、夕食の献立を考えてもらいながら、ステップ・バイ・ステップのレシピのために追加の質問をしていくといった使い方を可能とする。そのほか、ChatGPTに画像を送り、グリルが動かない原因を探る、グラフを分析して仕事関連のデータを探すといったことも可能。

画像の特定の部分を調べたい場合は、モバイルアプリの描画ツールで当該箇所を指定する。

例えば自転車の写真を取って、「これはレバーですか?」と尋ねると、「これはボルトです。緩めるにはレンチが必要です」と回答され、必要なレンチなどについてChatGPTに聞けるほか、マニュアルの当該ページを送りながら、自転車の修理について学べるという。

画像認識は、マルチモーダル対応のGPT-3.5とGPT-4によって実現。写真・スクリーンショット・テキストと画像の両方を含む文書など、幅広い画像に利用できる。

また、ChatGPTとの音声による「会話」に対応。外出先で話しかけたり、就寝前の話をリクエストするなどの使い方が可能。音声会話は、モバイルアプリの[Settings]→[New Features]で音声会話を選択する。

声は5種類から選択可能で、音声は、新たなtext-to-speechモデルにより実現。また、同社の音声認識システムのWhisperにより、会話は文字起こしされる。

ChatGPTの音声と画像は、今後2週間かけてChatGPT Plus(20ドル/月)とEnterpriseユーザーに展開。音声はiOSとAndroidアプリで対応し、画像はすべてのプラットフォームで利用可能になる。

なお、このモデルは英語のテキスト記述には強みがあるが、他の言語、特にローマ字以外の文字ではパフォーマンスが低いという。