ニュース

「GPT-4」発表 専門領域では人間レベル。画像入力にも対応

OpenAIは14日(米国時間)、最新の大規模言語モデルとなる「GPT-4」を発表した。GPT-4はテキストだけでなく画像の入力を受け付け、テキスト出力を行なうマルチモーダルモデルとなり、「実世界のシナリオでは人間より能力が劣るが、専門的・学術的ベンチマークでは人間レベルのパフォーマンス」とする。

例えば、司法試験の模擬試験では、ChatGPTが採用するGPT-3.5では受験者の下位10%程度のスコアだが、GPT-4は受験者の上位10%程度のスコアで合格できるという。

OpenAIでは、GPT-4を安全かつ整合性のあるものにするために、6カ月をかけた。GPT-3.5との比較では、不許可コンテンツのリクエストに応える可能性が82%低く、事実に基づいた回答の可能性が40%高くなった。安全性においても50人以上の専門家と協力し、フォードバックを行なった。安全性については、今後ユーザーに使ってもらいながら定期的にアップデートしていく。

カジュアルな会話については、ChatGPTなどで採用していた「GPT-3.5」とGPT-4の違いは大きくないが、GPT-4のほうが、信頼性が高く、創造的でより細かな指示を扱えるという。また英語以外の言語についても、26言語中24言語において、GPT-4はGPT-3.5やChinchilla、PaLMなどのLLM(大規模言語モデル)の英語での性能を上回った。

また、GPT-4は、テキストのほか画像も入力可能となる(現在はプレビュー中のため一般公開はされていない)。テキストと画像の入力に対して、テキスト(自然言語、コードなど)を出力する。

一例として、アナログRGBケーブル風のLightningケーブルという“アイデア商品”の3枚の画像に対して、「この画像の何が面白いの?」と問うと、画像ごとに説明を加えながら、「この画像のユーモアは、時代遅れのVGAコネクタを、小さくて最新のスマートフォン充電ポートに差し込むというバカバカしさ」と説明してくれる。

GPT-4は、ChatGPTの有料版「ChatGPT Plus」(月額20ドル)とAPIで提供開始しており、画像入力機能については、パートナーと連携しながら準備を進める。すでに外国語学習の「Duolingo」や決済の「Stripe」などで、GPT-4が導入されている。

Duolingo Max

なお、OpenAIのGPT-3.5を利用してきたMicrosoftの検索エンジン「Bing」においても、直近5週間はGPT-4の初期バージョンを使っていたことを明らかにしている。