ニュース

グーグル、早くも次世代AIモデル「Gemini 1.5」　長文理解が進化

臼田勤哉

2024年2月16日 01:04

Googleは15日(米国時間)、次世代のAIモデルとなる「Gemini 1.5」を発表した。同社では'23年12月に最新世代のAIモデル「Gemini」を発表し、中規模版のProを12月に、最上位バージョンのGemini 1.0 Ultraを先週2月7日から提供開始したばかりだが、早くも“次世代”モデルが登場することとなる。

Gemini 1.5のスタンダード版の「1.5 Pro」は、1.0 Ultraに匹敵する品質を、より少ない計算量で実現可能とする。

Gemini 1.5では、ロングコンテキスト(長文)の理解において、大きく進歩。モデルが処理できる情報量を大幅に増やし、最大100万トークンを一貫して実行し、大規模な基盤モデルの中で最長のコンテキストウィンドウを達成したとという。性能向上には、新しいMixture–of-Experts(MoE)アーキテクチャによる Gemini 1.5のトレーニングとサービスの効率化も含まれる。

15日から、試験運用機能の限定プレビューをデベロッパーと企業向けに提供開始。初期テストでは、中規模のマルチモーダルモデルとなる「Gemini 1.5 Pro」を提供開始し、これまでの最大モデル1.0 Ultraと同様のレベルのパフォーマンスを発揮。また、長文の文脈理解に関する試験運用機能も導入している。

Gemini 1.5 Proには128,000トークンのコンテキストウィンドウが標準で付属。一部のデベロッパーと顧客企業は、AI Studioと Vertex AIから限定プレビュー版で最大10万トークンのコンテキストウィンドウを試用できる。

Gemni 1.5は、TransformerとMoE アーキテクチャに関するGoogleの最新の研究を反映。従来のTransformerは1つの大きなニューラルネットワークとして機能するが、MoEモデルはより小さな「エキスパート」ニューラルネットワークに分割される。与えられた入力の種類に応じ、MoEモデルが最も関連性の高いエキスパートパスウェイのみを選択的に有効化することを学習。これによりモデルの効率が大幅に向上するという。

1.5 Proのコンテキストウィンドウの容量は、Gemini 1.0の32,000トークンから大幅に増加。1.5 Proでは、1時間の動画、11時間の音声、3万行以上のコードや7万字以上のコードベースなど、膨大な量の情報を一度に処理できる。

Gemini 1.5 Proでは、特定のプロンプト内の多くのコンテンツをシームレスに分析、分類、要約が可能。例えば、アポロ11号の月面着陸に関する402ページの記録から、文書内にある会話、出来事、画像、詳細について推論が行なえる。

Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo

マルチモーダル対応で、動画など複数の形式のデータにおいて、理解や推論のタスクを実行可能。GoogleのYouTubeでは、44分間のバスター・キートンの無声映画(動画)から、プロットや出来事を正確に分析し、映画内の見逃しがちな詳細についても推論できるとしている。

Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo

パフォーマンスも大幅に向上。テキスト、コード、画像、音声、動画評価の包括的なパネルのテストでは、1.5 Proは大規模言語モデル(LLM)の開発に使用されるベンチマークの87%で1.0 Proを上回り、1.0 Ultraとの比較でほぼ同様のレベルのパフォーマンスを発揮している。

15日から、AI StudioとVertex AIで、一部のデベロッパーと企業に試験運用機能の早期プレビュー版を提供開始。また、モデルの広範なリリースの準備が整い次第、標準で128,000トークンのコンテキストウィンドウを備えた1.5 Proを導入する。モデルの向上に併せて、標準128,000のコンテキストウィンドウから100万トークンまでのスケールアップに対応した価格帯を導入予定。なお、初期テスターは、テスト期間中に100万トークンのコンテキストウィンドウを無料で試せるが、試験運用機能ではレイテンシーが大きくなるとのこと。