ニュース

OpenAI、新たな推論モデル「o3」と「o4-mini」公開 画像も“考える”

OpenAIは16日(米国時間)、推論モデルの最上位となる「Open AI o3」と「o4-mini」を発表した。いずれも素早く応えるよりも、長く考えて最適な答えを導くようトレーニングした推論モデルで、「これまでで最も賢いモデル」としている。

ChatGPT Plus(月額20ドル)、Pro(200ドル)、Teamユーザーは、16日からo3、o4-mini、o4-mini-highを選択可能となった。EnterpriseとEdu ユーザーは、1週間後から展開し、クエリを送信する前に「推論(Think)」ボタンを選択することで、o4-miniを試せるようになる。

o3、o4-mini、o4-mini-highは、既存のo1、o3-mini、o3-mini-highを置き換える形となる。また、数週間以内にOpenAI o3-proもリリースする計画。

OpenAI o3は、コーディング、数学、科学、視覚認識などの各分野で活用できるOpenAIで最も強力な推論モデル。Codeforces、SWE-bench、MMMUなどのベンチマークで最高水準となっており、多面的な分析が必要で、答えがすぐに出ない複雑なクエリに最適としている。

画像、グラフ、図の分析など、視覚的なタスクにおいても強力なパフォーマンスを発揮。専門家による評価では、o3は現実世界のタスクにおいて、OpenAI o1よりも主要なエラーを20%削減しており、特に、プログラミング、ビジネス/コンサルティング、創造的なアイデア出しなどの分野で優れているという。

OpenAI o4-miniは、高速かつ費用対効果の高い推論のために最適化された、より小型のモデル。特に数学、コーディング、視覚的なタスクで優れているという。AIME 2025では、Pythonインタープリターへのアクセスを与えられた場合、o4-miniは99.5%のスコアを獲得している。非STEM分野やデータサイエンスなどの分野でも、前モデルのo3-miniを上回っており、推論の恩恵を受ける大量で高スループットの質問に対して強力な選択肢となるという。

o3とo4-miniでは、画像を思考の連鎖(Chain of thought)に直接統合できる。単に画像を見るだけでなく、画像とともに考えるため、視覚的推論とテキストによる推論を組み合わせた問題解決が可能になる。

例えば、ホワイトボードの写真や教科書の図、手描きのスケッチなどから、それらを解釈して、考える。画像がぼけていたり、逆さになっている場合は、回転・ズームなどで対応し、判断する。

また、o3とo4-miniでは、Web検索やPython、画像分析、ファイル解釈、画像生成など、ChatGPT内のすべてのツールをエージェント的に使用して組み合わせて利用可能。たとえば、ユーザーが「カリフォルニアの夏のエネルギー消費量は昨年と比べてどうなるか?」と質問すると、モデルは、公共事業データのWebを検索し、予測を作成するためのPythonコードを記述、グラフや画像の生成、予測の背後にある主要な要因の説明など、複数のツール呼び出しを連鎖的に実行する。推論により、モデルは情報に応じて反応し、方針転換も行なう。

o3とo4-miniは、ChatGPT Plus/Team/Proユーザーが利用可能なほか、Chat Completions APIとResponses APIから利用可能となっている。

OpenAI o3 & o4-mini