ニュース

グーグル、あらゆるコンテンツ作成に対応する新モデル「Gemini Omni」

臼田勤哉

2026年5月20日 07:30

Googleは19日、開発者会議「Google I/O 2026」において、新たなコンテンツ生成モデル「Gemini Omni」を発表した。

Gemini Omniは、Geminiの推論能力と生成能力を融合し、動画などのあらゆる入力からのメディア生成に対応する新たなモデルとなる。画像、音声、動画、テキストを入力として組み合わせ、Geminiの実世界に関する知識から、高品質な動画を生成する。会話を通じて動画を編集するといった利用も可能となる。まずは動画から対応を開始する。

Omniファミリーの最初のモデルとなる「Gemini Omni Flash」を、GeminiアプリとGoogle Flow、YouTube Shortsで提供を開始。将来的には、画像や音声などの出力形式にも対応する予定としている。

Introducing Gemini Omni: Create Anything from Anything

Gemini Omniでは、自然言語だけで、直感的に動画を編集できる。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して維持でき、物理法則も崩れず、シーン全体の流れもしっかりと記憶されるという。

また、編集にも対応。自分で撮影した動画をベースに「そこで何が起きているか」を追加できる。キャラクターの動きを編集したり、新しいキャラクターやオブジェクトを追加するといった作業にも対応する。

Googleの示す例では、プロンプト「人が鏡に触れると、鏡面は液体のように美しく波紋を広げ、その人の腕は光を反射する鏡の素材へと変化していく」と入れると、鏡越しに人が撮影している動画に波紋が広がり、手が鏡面に変わる様子を紹介している。

また、動画の背景を入れ替えたり、(撮影していない)背後の映像に差し替えるといったことも可能。

Gemini Omniは、単にリアルに見えるシーンを作るだけでなく、「次に何が起こるか」を論理的に推論して動画を生成。物理法則に対する直感的な理解と、Geminiが持つ歴史、科学、文化的な背景知識を組み合わせて、「意味のある物語り」が可能になるという。

Gemini Omni doesn't just build scenes that look real, it reasons about what should happen next. It combines an intuitive understanding of physics with Gemini's knowledge of history, science, and cultural context.

Rolling out today starting with video outputs to Google AI Plus,…pic.twitter.com/EkLjv5O0dN
— Sundar Pichai (@sundarpichai)May 19, 2026

さらに、あらゆる入力に対応。画像、テキスト、動画、音声など、どんなフォーマットからでも、1つの動画作品をつくりあげる。スタイル、モーション、エフェクトの指定や、アバターから動画作成するなどの応用も可能。

なお、Gemini Omniで作成されたすべての動画には、電子透かし技術「SynthID」が埋め込まれ、AI生成かどうかを判定できる。判定はGemini アプリ、Gemini in Chrome、Google 検索などで確認できるほか、来歴記録のC2PA対応なども強化していく。

Gemini Omni Flash は、19日からGoogle AI Plus、Pro、Ultraユーザーにおいて、Gemini アプリとGoogle Flowを通じて順次提供を開始。今週からはYouTube ShortsとYouTube Createアプリユーザーに提供開始し、数週間以内には、APIを通じてデベロッパーや企業向けにも展開する。