西田宗千佳のイマトミライ

第223回

Geminiの衝撃と選べるAIのAWS、オープン論争 生成AIの2023年

「生成AIイヤー」とも言える2023年も、もうすぐ終わろうとしている。そんな中でも、 この2週間ほどで大きな動きがいくつもあった。

11月28日には、Amazonのウェブサービス部門・AWSが「Amazon Q」を発表している。その翌週、12月6日には「オープンなAI開発」を標榜する「AIアライアンス」が誕生、さらに12月7日(日本時間)には、Googleが次世代生成AIモデル「Gemini(ジェミニ)」を発表している。

これらはどういう意味を持つのか? 別々の企業の動きに見えるが、実際にはまとまった流れの中に位置づけられるものであったりもする。

それはどういうことなのか? 今回は少し、そこを整理してみよう。

「Gemini」が起こした深夜の衝撃 だが……

12月7日深夜、Googleが発表した「Gemini」のデモビデオは衝撃を与えた。

画像からその中に含まれるものを認識し、その内容に従って、論理的な答えを返す様がビデオの中で描かれていたからだ。単純にテキスト入力から反応するのではない、画像、音声テキストが混然一体となった「マルチモーダル」な回答により、今までの生成AIとは違う賢さを感じられたからだ。

結果的には、この事はGoogleにとってマイナスの結果を生み出す。ビデオが完全な「ライブ収録」のものではなく、編集されたものであることを指摘されたからだ。

もう少し正確に言えば、ビデオ自体にはもともと「良い部分を抜粋した」という表記があり、動作をそのまま録画したものではないことが示されていた。とはいえ、ビデオを見た人の多くは「音声で出てくる命令だけから賢い反応を返した」と考えてしまったので、ビデオ自体がフェイクと感じられただろう。

Googleは、最初から「イメージ」として強く明記してデモビデオを公開すべきだったのだが、そうしなかったために誤解を生んだのだ。

なぜGoogleがあのようなビデオを公開したのか?

やはり、他社に対する危機感があったからだろう。Googleは1年前、OpenAIの「ChatGPT」に先手を取られて以降、矢継ぎ早にサービスを提供してはいるものの、OpenAI・マイクロソフト陣営に先手を取られっぱなしだ。

Googleとしては、かねてより開発してきた「本命」の生成AIサービスである「Gemini」のお披露目に関して、できる限り、大きなインパクトを与えたいと思ったのだろう。

ビデオで描かれた姿は必ずしも嘘と言うわけではないと筆者は考えている。

Googleの説明を聞く限りにおいて、あのビデオで想定されているような「賢さ」は、2024年に入ってから公開が予定されている「Gemini Ultra」で実現されるものだ。Ultraでもできない部分が多々あるかもしれないが、少なくともマルチモーダルな理解と言う意味合いにおいては、今までの生成AIよりもかなりレベルの高いものを提供してくるはずだ。

現場、Geminiとして提供されるのは、より規模が小さくスピードとバランスに優れた「Gemini Pro」、そしてスマートフォンにオンデバイス搭載を想定した「Gemini Nano」に限られる。

Geminiには3モデルあり、もっとも賢い「Ultra」はまだ公開前

どちらもモデル規模はUltraほど大きくないため、「賢さ」という意味でGeminiの実力を示すには足りない。そのため、ビデオとしてUltraを使った想定のものを公開することで、全体としてのプロモーションのバランスを取りたかったのだろう。

Googleは生成AIの中でマルチモーダル性を強く意識している。これは初期からの傾向であり、OpenAIとの差別化点といっても良い。OpenAIに追い立てられているGoogleとしては、自分たちがずっと研究してきたマルチモーダル性をより早くアピールし、今年のうちにイメージの回復を努めておきたかったのだろう。

まだ発表できないUltraについては、慌てずに来年に回せばよかったのだ。もしくはUltraが完成してからGemini自体を発表すればよかったのかもしれない。

だが、その行為は裏目に出た。

「選べる生成AI」をウリにするAWSの戦略

生成AIを考えるとき、企業のサービスとしては、やはり大手の動きを考えざるを得ない。その中では、圧倒的にOpenAI・マイクロソフト連合の存在感が強く、そこにアドビやGoogleといった企業が追いすがっている、という状況だろう。

しかし、特に企業が生成AIを導入することを考えた場合には、既に学習済みの大手が提供する生成AIモデルを採用すればOK、とはいかない場合もある。大手の生成AIは安心して採用できる一方で、やはり自分たちが持っているデータを使って学習した「特定の用途に向けた生成AI」を求める企業も多くなってくるからだ。

そこに注目したのがAWS(アマゾンウェブサービス)だ。

「(生成AIの)モデルを考える時、顧客にとって重要なのは選択肢があることだ」

AWSのアダム・セリプスキーCEOは、11月28日(アメリカ時間)に開催された基調講演の中でそう語った。

AWSのアダム・セリプスキーCEO
「選べることが重要」と生成AIモデルを複数から選択し導入できることをアピール

AWSはクラウドインフラの事業者である。自分たちで生成AIのモデルも提供しているが、同時に、「独自の生成AIを作りたい」企業に高性能なインフラを提供する……という事業も大きなビジネスに拡大している。

クラウドインフラとしてライバルに当たるGoogleやマイクロソフトは、それぞれ自社で強い生成AIを提供している。そこに対抗し、AWSも「Amazon Q」を提供するのだが、これはまた少しレイヤーの違う話ではある。Amazon Qは、顧客サポートやAWS向けのソフト開発まで、幅広い用途に使えるチャットAI。ChatGPTなどの対抗、とも言える。

AWS向けのチャットAIサービス「Amazon Q」を提供するが、これもAWS全体から見れば一部分だ

だが、クラウドインフラを幅広く提供するAWSにとっては、Amazon Qもまた「1つのサービス」にすぎない。

自社でプロセッサーを作り、さらにNVIDIAとも強く連携するAWSは、 自社の生成AIだけでなく、生成AIを作るためのインフラ提供の面でもアピールを忘れない。

AWSの基調講演にはNVIDIAのジェンスン・ファンCEOも登場、AWSとの深い関係をアピール

たとえばアドビは自社で生成AIを開発しているが、これのインフラにはAWSなど複数のクラウドインフラが使われている。アドビのように生成AI自体でビジネスを目指す企業であったとしても、その下を支えるプラットフォームとしては、AWSなどが活躍しうるわけだ。

また生成AIの「学習」「研究」という面において、OpenAIのGPTシリーズやGoogleのPaLM/Geminiといった生成AIは主流ではない、という点も大きいだろう。

トップ2社の生成AIはその詳細が公開されておらず、他社が研究や学習を進める事は難しい。一方で、オープンモデルの技術ができればそれをベースに開発を始めるところは急激に増える。

2022年夏、Stable Diffusionが画像生成AIを オープンソースと形で発表すると、 画像生成、AI自体が急激に拡散した。 技術開発が進み、 モデルの研究が進み、 生成できる画像のクオリティーも大幅に上がった。

同様に、Metaが生成AI「Llama」シリーズを オープンに公開し始めると、Llamaを ベースに開発された生成AIが急速に増え始める。

また世の中には他にも生成AIはある。

有望なものの1つが、Anthropicの「Cloude」だろう。最新のCloude2.1は、GPT-4が処理可能なトークン数(約32,000)の6倍以上、20万トークンを処理可能であるのが特徴。より長く、込み入ったコンテンツ・データの一括処理に向く。

生成AIについての知見が広がると、単に「最大手の生成AIを使えばいい」という話から、「自社の特質に合わせた生成AIを使いたい」という話が出てくる。

そこでは、大手型の巨大モデルが選ばれる場合もあるだろうが、規模は小さいが学習ソースを絞ったモデルを使う場合もあるだろう。

当然どのクラウドインフラもそういう展開に進むわけだが、AWSは「自らの持つ生成AIの知名度が低い」ということもあり、より基盤構築に向き合ったメッセージを出せる、ということにもなる。

生成AIで進む「オープン」と「クローズ」の戦い

このタイミングで、Metaなど50以上の団体が「AIアライアンス」発足を発表したのも面白い。

生成AIは巨大なプラットフォームであり、 資本集約型の開発が効率的ではある。一方で、 生成AIが生み出す結果や、そのコンテンツに対する責任のあり方などを考えると、中身のオープンさ・取り組みのオープンさといった部分が 重要になってくる。

大手2社に絡むわけではない他の企業としては、開発を加速するためにも、利用状況・開発状況を可視化するためにも。生成AIをオープンなものにした方が良いと考えるのはよくわかる。

特にこの部分についてはMetaのチーフAIサイエンティストであるヤン・ルカン氏の思想が大きく影響している可能性が高い。

ルカン氏はディープラーニング研究の第一人者であり、今の手法を、ヨシュア・ベンジオやジェフリー・ヒントンとともに生み出した人物である。

彼は現在のOpenAIが名前と裏腹に「オープンでない」ことに批判的。それもあって、MetaのLlama 2などはオープンに公開されていたりもする。

OpenAIやGoogleは、「責任が伴うが故にクローズドを選ぶ」としている。それも一理ある。一方で、過去のソフトウエアサイエンスを考えると、クローズモデルは結局、オープンモデルに飲み込まれて変化している。

このような状況を考えると、生成AIの世界も来年に向けて、「巨大で賢さを競う、大手のクローズ型モデル」と「切磋琢磨でバリエーション拡大が進むオープン型モデル」の本格的な競争が進んでいく……と予想できないだろうか。

西田 宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、AERA、週刊東洋経済、週刊現代、GetNavi、モノマガジンなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。 近著に、「生成AIの核心」 (NHK出版新書)、「メタバース×ビジネス革命」( SBクリエイティブ)、「デジタルトランスフォーメーションで何が起きるのか」(講談社)などがある。
 メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Xは@mnishi41