ニュース

AndroidはAIで進化する。「かこって検索」で数式解説

5月14日(米国時間)より、Googleの年次開発者会議「Google I/O 2024」が開幕した。14日に開催された初日基調講演では、Androidにおける生成AI「Gemini」の活用や検索技術についての発表が行なわれた。

発表された機能は英語で動作しているが、日本語での対応時期は不明。ただし、今年後半に英語以外の言語への対応に関して発表を行なう予定だという。

「かこって検索」で数学の問題を解く

1つ目は「かこって検索」の強化。

PixelやGalaxyでは、検索したい部分を指で丸く囲うことでその部分に含まれる情報を検索する「かこって検索」が使えるようになっている。

現在1億台以上の機器で利用可能となっているこの機能について、年末までにはその倍(2億台規模)まで対応機種を増やす計画だ。

さらに今日からは英語で、「数学や物理の問題を解く」機能が提供される。問題を解くために、背後では新しく開発されたAIモデルである「Learn LM」が動いているという。

「かこって検索」で数学や物理の問題を解説してくれるようになる

この機能は「検索が宿題や学習で多く使われている」という状況から生まれたもの。教育的な用途を意識し、単に答えを出すのではなく、回答していく過程を正確な数式表示とともに、ステップ・バイ・ステップで示していく。

Geminiで「画面上の情報」を活用可能に

次の改良はAndroid上で動作する「Gemini」アプリについてのもの。現在のGeminiアプリはAndroid上の色々な場所で利用可能になってきたが、さらに今後、現在利用しているアプリのさらに上に重なる(オーバーレイする)形で動作するようになる。

例えばGeminiで生成した画像を他のアプリの上にドラッグ&ドロップしたり、YouTubeで動画を再生中に「そのビデオについて質問」したりできるようになる。

Geminiで生成した画像をメッセージングアプリにドラッグ&ドロップ
再生中のYouTube動画に関して質問して詳細を確認することも可能に

またGemini Advancedが利用可能な契約をしている場合には、PDFを読みつつ「そのPDFの内容に関して質問」することも可能になる。

表示中のPDFファイルの内容に関して質問し、答えを出すという使い方もできる

こうした機能はGeminiが現在動作しているアプリのコンテクストを理解して動作するために実現できる。

今後Geminiアプリにはさらに改良が加えられ、画面に表示されている内容を理解し、さらに適切な提案をするようになっていく予定だ。

オンデバイスAI「Gemini Nano」が視力のハンディをカバー

Geminiには大規模なモデルから小規模なモデルまで、複数のバリエーションが用意されている。

もっとも規模が小さく、スマホ内で「オンデバイスAI」として動作するのが「Gemini Nano」だ。

Gemini Nanoは現状、テキストを中心とした処理に対応している。しかし2024年後半、画像・音・会話など複数の用途に対応した「マルチモーダル機能」に対応する。現状、マルチモーダル対応Gemini NanoはGoogle Pixelから搭載開始予定となっている。

マルチモーダル対応Gemini Nanoの有効な活用例として期待されるのが「TalkBack」と呼ばれる機能。

これは画像の内容を文章化して伝えるための機能。失明や弱視などで視力にハンディを抱えた人々に向けたものだ。

この機能の弱点は、画像に写っているものがなにかを示す「ラベル」情報がないと、内容を伝えることができないこと。現在は情報不足から、映像はあるのに情報が伝わらないことも多いという。

今年後半には、Gemini Nanoを使って画像の内容を把握し、自動的にTalkBackで使うラベルを生成する。オンデバイスで動作するためラベル生成は素早く、ネットワーク接続がなくても機能するものになる。

Gemini Nanoを使った「TalkBack」機能。リアルタイムに内容を把握して文章化し、利用者に伝える

詐欺電話の内容をリアルタイムで「警告」

最後が「詐欺対策」。

電話を使った詐欺行為は世界中で問題になっているが、現在Googleは、Gemini Nanoを使って「通話中、リアルタイムに詐欺の傾向を検出する」機能をテスト中だという。

例えば通話中に不自然な送金の依頼や、クレジットカードなどの暗証番号やパスワードを要求する通話が行なわれた場合、自動的にアラートを発する。

詐欺電話の警告を通知。相手が銀行員を名乗って送金を促す発言をすると、「銀行は電話で送金を依頼しない」と、詐欺の可能性を警告する

これはすべてGemini NanoのオンデバイスAIで行なわれ、ネットワーク上に情報が送られることはない。通話のプライバシーは保たれる。

現状は開発段階にあるが、将来的に、ユーザーはオプトイン形式でこの機能を利用可能になるという。

どのような形で使えるようになるかは、2024年中にアナウンスする予定だという。

なお、これらGoogleが公式に提供するサービス以外にも、各種デベロッパーがGemini Nanoやクラウド上のGeminiを使ったAIサービスを作ることも可能だ。その開発方法の詳細については、GoogleのAndroid開発者向けブログで随時公開されていく予定だ。