ニュース
グーグル、一貫したキャラ表現が可能な画像生成モデル「Gemini 2.5 Flash Image」
2025年8月27日 12:59
Googleは、画像生成・編集モデル「Gemini 2.5 Flash Image」のプレビュー版を公開した。キャラクターやオブジェクトの一貫性を保ちながら、複数画像の融合や自然言語による編集を可能にする。Gemini APIとGoogle AI Studio、Vertex AI for enterpriseで利用可能で、今後数週間以内に安定版が公開される予定。価格は、100万出力トークンあたり30ドルで、1イメージあたり1,290出力トークン(1イメージあたり0.039ドル)。
画像生成において、一貫したキャラクターやオブジェクトの外観を維持した表現が可能。これにより、同じキャラクターを別のシーンに配置したり、製品を別の角度から紹介するなどが可能になる。template app(テンプレートアプリ)から既存のイメージを選択することで、一貫性をもったキャラクター・オブジェクト生成の設定・管理ができる。
画像編集は自然言語で可能。背景をぼやかしたり、Tシャツの汚れを取ったり、写真から特定の人物を削除したり、ポーズを変えたりなど、さまざまな変更をプロンプトで行なえる。
また、既存の画像生成モデルは、美的な画像生成には優れていたが、現実世界の法則を理解する能力には課題があった。Gemini 2.5 Flash Imageでは、現実世界の法則を理解するため、Geminiの世界知識を活用。手書きの図を読み取って理解し、複雑な編集支持もワンステップで実行できる。
複数の画像を融合することも可能。既存の画像に、オブジェクトを追加したり、カラーや壁のテクスチャを変更したりできる。





