ニュース

“思考”する画像生成モデル「ChatGPT Images 2.0」 マンガ・写実・日本語

OpenAIは21日(米国時間)、新たな画像生成モデル「ChatGPT Images 2.0」を提供開始した。複雑なビジュアルタスクを処理し、"そのまま使える”ビジュアルを生成できるよう機能向上している。ChatGPTとCodex、APIの全てのユーザーが利用可能。

ChatGPT Images 2.0では、指示(プロンプト)への追従や、オブジェクトの正確な配置と関連付け、高密度なテキストのレンダリングなどが大きく進化。また、指定したアスペクト比に対応した生成が可能となる。構図感覚や美的センスを高めたことで、生成された画像が「AIによるもの」という印象を抑え、自然なものに感じられるようデザインされている。

Macのスクリーンショット風だが、ChatGPT Images 2.0で作成したもの。プロンプトは”a screenshot of chatgpt, in a browser, in macosx. the user types "draw me a dog" chatgpt draws an ascii dog the front window is chatgpt, but the desktop is quite messy with lots of random windows open (e.g. a terminal). they're all in the background”

多言語理解能力も強化したほか、非ラテン文字テキスト、特に日本語、韓国語、中国語、ヒンディー語、ベンガル語の対応力を向上した。また、より少ないプロンプトでより洗練された画像を得られるようにしている。

これにより、ポスターや解説資料から図表やマンガなど、言語自体がデザインの一部となっているものでも、ビジュアルに一貫性のある出力を得られるようになる。

ChatGPT Images 2.0は、同社の画像モデルで初めて「思考(Thinking)」機能を搭載。ChatGPTで「thinking」または「pro」モデルを選択すると、Images 2.0がウェブ上でリアルタイム情報を検索し、1つのプロンプトから複数の異なる画像を生成し、自身の出力結果を再確認する。thinking機能を使うことで、正確性、最新情報、一貫性、視覚的な統一性が重要なシーンで、アイデアから画像生成に至るまでの作業をモデル側に委ねられる。

この機能により、画像生成を「単なるレンダリング」から「戦略的なデザイン」へ、「ツール」から「視覚システム」へと進化させるという。

フォトリアリスティックな画像生成も可能。「曇り空の朝、海岸沿いの路肩に立つ人物を35mmフィルムで撮影した、フォトリアリスティックな旅行スナップショット」といったプロンプトで、あたかも実写のような雰囲気の画像を生成できるほか、「少し生々しい即興的なエネルギー、ナイトライフの雰囲気、2000年代初頭のフラッシュ写真特有のルック」といった細かいスタイルについての指定も可能となる。

全てのChatGPTとCodex、APIから利用可能だが、思考を伴う出力機能は、ChatGPT Plus、Pro、Businessユーザー向けとなる。また、APIのgpt-image-2モデルの価格は画像の品質と解像度によって異なり、2K以上の出力はベータ版となり、一貫性のない結果が生成される場合があるとしている。