ニュース

「GPT-4o」発表 人のように音声・画像・テキストで高速応答

OpenAIは13日(米国時間)、最新のAIモデル「GPT-4o」を発表した。テキスト・音声・画像をシームレスに扱え、かつ高速な応答が特徴となり、今後数週間で全てのChatGPTユーザーに提供開始する。まずは有料のChatGPT PlusとTeamユーザーに提供開始し、その後エンタープライスへ拡げていく。

GTP-4oを発表するミラ・ムラティCTO

テキスト・音声・ビジョン対応のGTP-4o

GPT-4oは、GPT-4レベルのインテリジェンスを持ちながら、より高速で、テキスト・音声(Voice)・視覚(Vision)のそれぞれの機能を向上させた最新のフラッグシップモデルとなる。

ユーザーが共有する画像を理解し、会話・議論できる。例えば、異なる言語で書かれたメニューの写真を撮影し、GPT-4oに話しかけて翻訳できるほか、料理の歴史や意義について学ぶ、おすすめの料理を教えてもらうといったことが可能。

Say hello to GPT-4o

将来的には、自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるといった使い方にも対応予定。例えば、ChatGPTにスポーツの試合中継を見せて、ルールを説明してもらう、といったことを可能にする。こうした新機能を備えた新しい音声モードを、今後数週間でα版としてリリースする。

Realtime Translation with GPT-4o

GPT-4oの[o]はomniの略。自然な人間とコンピュータのインタラクションへの一歩で、テキスト・音声・画像の組み合わせを入力でき、同様にテキスト・音声・画像での出力に対応。音声入力に対しては最短232ミリ秒、平均320ミリ秒で応答可能で、従来のGPT-4より大幅に高速化。「会話における人間の応答時間」とほぼ等しいという。

GPT-4oは、英語とコードのテキストでGPT-4 Turboの性能に匹敵し、非英語言語のテキストも大幅に改善。APIもはるかに高速で50%安価で、既存のモデルとの比較では、特に視覚と音声の理解において優れ、様々なベンチマークで競合となるモデルを上回っているとする。

音声モードでは、トーン、複数の話者、背景のノイズなどを理解する点が、既存のモデルとの大きな違い。GPT-4o発表のデモでは、話者の特徴を把握できるほか、創作した昔話について、「もっとドラマチックに」「年寄り風に」といったトーンの指示にも対応し、人間のような感情表現や振る舞いを見せていた。

無料版のChatGPT Freeは利用制限があるが、有料のPlus(20ドル)ユーザーは無料ユーザーの5倍のメッセージを利用可能。TeamとEnterpriseユーザーはさらに多く利用できる。

GTP-4oでは、回答をモデルとWebから取得可能で、データの分析やグラフの作成にも対応。撮影した写真についてチャットできるほか、ファイルをアップロードして、要約、執筆、分析などが行なえる。ファイルはPDFやCSV、Wordなどに対応する。GPTで作成したアプリの「GPTs」やGPT Storeも利用できる。

Introducing GPT-4o

ChatGPTのデスクトップアプリも登場(Mac)

また、新たなChatGPTデスクトップアプリもmacOS用に提供開始する。キーボードショートカット(Option + Space)で、即座にChatGPTに質問できるほか、アプリ内で直接スクリーンショットを撮り、議論できる。

13日の発表では、スクリーンシェアしたコードのレビューのほか、気温の推移のグラフ(画像)について、最も温度が高い月を聞くと音声で応答。また、グラフの趣旨やY軸の意味などについても音声で回答した。

コードのレビュー
スクリーンシェアしたグラフの意味を音声で回答

GPT-4oの新しい音声とビデオ機能は、今後利用可能になる。まずPlusユーザー向けにmacOSアプリを提供開始し、Windows版は2024年後半となる。

ChatGPTも、新デザインのルック&フィールを導入。新しいホーム画面やメッセージのレイアウトとし、より会話しやすく親しみやすいデザインを目指したという。