ニュース

グーグル、テキスト生成速度を最大4倍にする「DiffusionGemma」

臼田勤哉

2026年6月11日 10:12

Google DeepMindは10日(米国時間)、テキスト生成速度が最大4倍になるオープンソースモデル「DiffusionGemma」を発表した。実験用のオープンモデルとして、Apache 2.0ライセンスの下で公開される。

DiffusionGemmaは、26B(260億)パラメータのMixture of Experts(MoE)モデルで、一般的な大規模言語モデル(LLM)のトークン単位の逐次処理とは大きく異なり、テキストのブロック全体を同時に生成することで、GPU上でのテキスト生成速度を最大4倍高速化できるという。これにより、GPU上で最大4倍の高速な推論を実現し、速度が重要なインタラクティブなローカルワークフローなどで活用できるとする。

Google DeepMindの「Gemma 4」ファミリーの「パラメータあたりの知能」と、Gemini Diffusion研究を基盤とし、生成速度を最大化するように設計。通常のGemma 4モデルは高品質な本番環境向けとして広く活用できる一方で、DiffusionGemmaは、研究者や開発者向けに、インライン編集や高速な反復、ノンリニアなテキスト構造の生成など、速度が重要となるインタラクティブなローカルワークフローが必要な用途のために設計される。

高速な推論が特徴で、デコードのボトルネックを「メモリ帯域幅」から「演算能力」へと移行させることで、GPU上で最大4倍高速なトークン出力を実現する。NVIDIA H100 1枚で毎秒1,000トークン以上、NVIDIA GeForce RTX 5090で毎秒700トークン以上。ハードウェア要件としては、ハイエンドの専用コンシューマーGPUの18GB VRAM制限内で動作するとしている。

また、モデルが自身の出力を反復的に確認し、テキストブロック全体を評価することで、リアルタイムで誤りを修正する自己修正も特徴となっている。

なお、速度と並列レイアウト生成を優先しているため、DiffusionGemmaの全体的な出力品質は標準のGemma 4よりも低くなる。高い品質が求められる用途においては、通常のGemma 4の導入をおすすめするとしている。なお、ファインチューニングを行なうことで、特定タスクにおけるDiffusionGemmaの性能を向上させることが可能という。

数独を通常のGemmaより高速に解決

DiffusionGemmaは、Hugging Faceからダウンロード可能。また、Gemini Enterprise Agent Platform Model GardenやNVIDIA NIMを通じてクラウド上でも実行できる。