ニュース

Meta、テキスト・画像の双方の生成に対応したAIモデル「CM3leon」

Metaは14日(米国時間)、画像からテキストの生成にも対応した新たなAIモデル「CM3leon(カメレオン)」を発表した。

テキストから画像だけでなく、画像からテキストも生成でき、既存のトランスフォーマーベースの手法よりも5倍少ない計算量で学習するにもかかわらず、テキストから画像への生成で最先端の性能を達成する。

CM3leonは、画像生成AIで広く使われる拡散モデルではなく、トランスフォーマーベースのモデルで、画像生成とテキスト生成の両方に大規模なマルチタスク命令チューニングを適用することで、画像キャプション生成や、ビジュアル質問応答、テキストベースの編集、画像生成などのタスクで性能が大幅に向上するという。

画像の学習にはライセンスされた画像とテキストデータのみを含むShutterstockデータセットを使用しているという。今回、技術概要とともにホワイトペーパーは発表したが、技術をいつ公開するか等は言及していない。

Text-to-image。プロンプトは、A small cactus wearing a straw hat and neon sunglasses in the Sahara desertなど
Text-guided image editing
Text tasks。画像の内容を説明「In this image, there is a dog holding a stick in its mouth. There is grass on the surface. In the background of the image, there are trees.」
Object-to-image
Segmentation-to-image
Super-resolution