西田宗千佳のイマトミライ

第312回

Windows 11、AIエージェントになる キーボード・マウス・AIとその先の競争

Windows 11にAI強化。対話での操作を広げていく

10月16日、マイクロソフトは、Windows 11のAI強化について発表した。

アップデートは随時行なわれ、マイクロソフトは「すべてのWindows 11搭載PCをAI PCにする」としている。これはWindows 11に対する本格的なテコ入れであるのと同時に、PCでのAI利用についての方向性を示唆するものとも言える。

そして、内容をよく分析すると、それは「個人のアシスタントとしてのAI」の可能性を考える上で、重要な要素にもなってくる。

それはどういうことなのか? 今回はその点を考えていきたい。

Copilot VisionでPCに「3つ目のUI」を

今回の変更はどのようなものなのか?

それを知るには次のビデオを見るのがわかりやすい。

Copilot on Windows 11 | Meet the Computer You Can Talk To

このビデオでは、利用者がCopilotと対話しながらPCを使っている。そして、「タイプ」「クリック」に続くもう1つのUIとして「会話」をアピールしているのもわかる。

上記ビデオより抜粋。Type(キーボード)・Scroll(マウス)の次は「Talking」(会話)とアピール

といっても、音声でPCやスマホを操作する、という話は別に新しいものでもない。そして、「音声でアプリを起動する」程度ではさほど便利にはならない、ということも、みなさんよくお分かりのはずだ。

それでも今回、マイクロソフトが「音声」をキーワードにしたのは、アプリを起動したり、文字を音声で入力したりする程度の使い方ではないから、ではある。

今回のアップデートで軸となるのは「Copilot Vision」というAIエージェントだ。

この技術は簡単に言えば、利用者が見ているPCの画面をAIも一緒に見て、その中になにが映っているのかを理解する。結果として、内容に応じて返答することができる。

ビデオの中では「画面に表示されているマイクがどのメーカーのもので、どこで買えるか」「表示されている風景がどこのもので、どう節約すればいいか」といった質問に答えているし、そのほかにも、「ハイレゾロスレス出力のためにはどこの設定を変えればいいのか」という質問にも、操作すべき場所にマーカーを表示しながら回答している。

ゲームについても、「Gaming Copilot」という機能が搭載される。音声でCopilotに質問すると、プレイ中のゲームの画面を解析し、「次にどこへいくべきか」「アイテムを取るにはどうすべきか」といったヒントを教えてくれる。

16日から発売された「ROG Xbox Ally」でも、英語版のベータではあるが、Geming Copilotが利用できる

これらの機能で重要なのは、アプリやサービスの側には変更が必要ではない、という点だ。

詳しい人間が画面を見て判断するように、Copilotが画面を見て判断する。マイクロソフトが「すべてのWindows 11 PCをAI PCにする」と言っているのは、特別な対応が不要であることに加え、主なAIの処理はクラウドで行なわれていて、PCの側に特別な機能を必要とするわけではない、という特徴があるから……ということになる。

「人間と同じものをAIが見る」意味とはなにか

AIに働いてもらう上で重要なのは、「AIが判断するための材料をどう与えるのか」ということだ。

人間が必要な作業をするには、自分がなにを見ているのかという情報が必要になる。AIに働かせるには、情報を得るという要素もAIに担当させる必要が出てくる。

AIチャットサービスでは文章を使う。声で命令する場合も、結局は音声をテキスト化して渡す。

それでは情報が足りないことは多い。だから、画像や関連ファイルをアップロードして処理してもらうことになる。

特別なことのように思えるが、実際にはそうでもない。Androidで採用されている「かこって検索」や、iPhoneで採用されている「Visual Intelligence」も、検索に必要な情報として画像を提供し、それを解析して答えを出す。

PixelなどのAndroidスマホに搭載されている「かこって検索」
iOSにもスクリーンショットからAIを使う「Visual Intelligence」がある

その先として、作業している内容を「自分と同じように」AIが把握して作業を進める……という考え方があり、Copilot Visionが行なうのはまさにそれだ。

この方法論、PCとは異なるジャンルでも話題になりつつある。

Metaの「Ray-Ban Meta」に代表される、カメラを搭載した「AIグラス」の本質がここにある。自分が見ているものをカメラがAIに伝えてなにかをしてもらう、というのが1つの用途になるからだ。

MetaのAIグラス「Oakley Meta HSTN」。カメラがありAI連携するのが特徴

本当ならば、自分が見ているもの・やっていることの全てをAIが見ていてサポートしてくれる……という姿がある意味で理想である。

だが、見ているものをずっとAIが監視するのはプライバシー上の懸念がある。AIグラスででもCopilot Visionでも、ある種の命令が与えられたら認識する、という形を採っている。

Copilot Visionの場合には「Hey, Copilot」というキーワードがそれに当たる。音声で命令してもいいが、音声以外の場合には「Copilotキー+Cキー」で呼び出す。

スマホでも今後は、Googleが開発している「Project Astra」のような形で、スマホのカメラが捉えた内容・スマホのマイクが捉えた音声でAIが判断し、人間とコラボレーションする機能が広がるだろう。

Googleが研究中である「Project Astra」のデモ

アップルがApple Intelligenceで本来目指しているのも、「オンデバイスAIによってプライバシーを確保しつつ、自分の行動文脈をAIに理解してもらい、Siriからアプリ内の特定機能だけを呼び出して使う」ような世界である。

各社が目指す方向性は似ているものの、それをどう実装し、どう使わせるかはまだかなり異なる。現在はその初期にあり、各社が試行錯誤の元に実装している段階といえる。

その中で「画面を人間と一緒に見る」という機能を広く提供する、というマイクロソフトの選択は大きい。

その背景には、Windows 11を差別化するという要素もあるだろう。Copilot VisionはクラウドベースなのでWindows 10にも実装は可能だろう。だが、その後に必要になる機能強化と製品の差別化を考えると、アップデートも終わったWindows 10を切り捨てるのは自然な判断でもある。

「AIが勝手に働く」機能が必須に 激化する競争

ただ、Copilot Visionは本当に役立つのか、毎日使う機能になるのかどうかはわからない。

わからない機能を探す、設定変更方法を教えてもらうには間違いなく便利だろう。

だが、Copilot Visionはあくまで「一緒に画面を見ながらなにかの指南をする」機能であり、実際に動くのは人間の側だ。

その中でどのようなシナリオで使うと便利なのか、ということが明確になっていく必要がある。なんでもできると言いつつ、どこまでのことができるのか、実際に機能を使った結果が見えてこないと、なんとも判断が難しい部分はある。

Copilot Vision自体は2024年5月に発表されており、機能を少しずつ拡張しつつ、今回一般公開になった。だから、その使い道や可能性も「ようやく検証が始まる段階」と考えるのが正しい。

今後マイクロソフトは、さらにAIとの連携を強化するために「Copilot Actions」を導入する。

これは「CopilotがPCの中で、自分の代わりに作業をやってくれる」もの。多くの人が考える「AIが代わりになにかをしてくれる」というものに近い。

こうしたことは、ウェブ上のAIサービスとして先に広がり始めている。

「Manus」や「Genspark」などでは、クラウド上にAIが動作するPCのインスタンスが用意され、その中でウェブへのアクセスやファイル生成、コードの生成などの処理を行なう。OpenAIの「Operator」も似たところがある。それぞれ得意なことは異なるが、「クラウドの向こうでAIが、自分のためだけの領域で作業をしてくれる」という点では似ている。命令をすれば勝手に作業をしてくれて、人間はその間に別のことをしていられる。

Copilot Actionsは、PC内で利用者のデータを使って自動作業するものだ。例えば大量の画像ファイルを同じルールにそって加工してもらう場合、命令を出せばあとはCopilot Actionsが作業を行なう。以下のデモ動画でも、「人間は他の作業をしていてもいいし、休んでいてもいい」と語っている。

Copilot Actions on Windows

Copilot Actionsでは、PC内にAIのアカウントを作り、さらにAIだけが作業に使う領域を用意する。直接利用者のアカウント内でファイルを扱わないのは、プライバシーとセキュリティの両面で配慮が必要だからだ。利用者が許可を出した時に働く。

Copilot VisionとCopilot Actionsが連携することが、マイクロソフトの目指す「PCの上でのAI」の姿の1つだろう。そうなれば、キーボード・マウスに続く3つ目のUIとして「AI」という柱が生まれることになるだろう。

そのためにはセキュリティを含めた多数のテストが必要だし、便利な使い方のシナリオも必要になるだろう。

そして同時に、クラウドでAIエージェント・サービスを作る企業とも、他のOSを作る企業とも競争を続けることになる。

西田 宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、AERA、週刊東洋経済、週刊現代、GetNavi、モノマガジンなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。 近著に、「生成AIの核心」 (NHK出版新書)、「メタバース×ビジネス革命」( SBクリエイティブ)、「デジタルトランスフォーメーションで何が起きるのか」(講談社)などがある。
 メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Xは@mnishi41