ニュース

Stable Diffusion 3発表 「画像内でのアルファベット表記」が可能に

プロンプト: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

Stability AIは23日、最新の大規模言語モデル(LLM)「Stable Diffusion 3」の先行プレビューを発表した。複数主題のプロンプトや、画質、スペリング能力などのパフォーマンスを向上した高性能なテキスト画像変換モデルで、従来難しいとされていた「画像内でのアルファベット表記」も可能となっている。

23日からは、先行プレビューのウェイティングリストを開始。一般公開に先立ち、性能と安全性を向上させるための知見を収集するために行なうもので、ユーザーの登録を受け付けている。

Stable Diffusion 3では、800Mから8Bのパラメータを提供し、拡張性と品質に関するさまざまなオプションを用意するという。Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャとフロー・マッチングを組み合わせており、近日中に詳細な技術レポートを発表する予定。今後、性能と安全性の検証と向上を進め、早期の公開を目指す。