GPT-4o登場と「見て、しゃべれるAI」が変えるもの

小寺信良

2024年5月24日 08:20

米国時間の5月13日、OpenAIは新しいAIモデル「GPT-4o」を発表した。映像と音声を直接処理できることで、これまでのテキストチャット形式の利用から、ボイスチャット形式の利用へと進化する見込みだ。

翌14日には、Googleが同社の開発者会議Google I/Oで、「Gemini 1.5 Pro」を発表、写真、音声、ビデオを処理できるマルチモーダル化をよりいっそう進化させた。

20日にはマイクロソフトが記者会見を開催し、次世代AI PCとなる「Copilot+ PC」を展開していくことを発表した。WindowsにAIアプリを統合し、ハードウェアはクアルコム製のAI処理チップを搭載することになる。

これまで各社が開発しているテキスト型AIは、どれも同じようなものを目指していると思われた。だがここにきて、それぞれが特徴ある方向に別れていくようだ。

最終的にはもう一度同じようなものになるのかもしれないが、現時点ではわかりやすくユーザーメリットを示した方がよいということだろう。今回は特に映像と音声を直接解するようになった「GPT-4o」について、考えてみたい。

テキストから音声への変化。アレクサができなかったこと

ChatGPTはこれまでも、音声で質問を入力することはできた。だがこれは音声を解析してテキスト化し、それをAIに投げていた。返事もテキストで返ってきたものをAIが音声に変換、つまり読み上げていた。これがGPT-4oでは、音声入力を直接処理し、応答も音声で直接返ってくる。執筆時点ではまだこれが実動するものは一般公開されていないが、まもなく提供が開始されるだろう。

GTP-4oは音声エージェント的に使える点が特徴

昨年はChatGPTを始めとした多くのチャット型AIが登場したことで利用が広がり、多くの人がその能力に驚嘆した。また一般企業だけでなく、官公庁でもAIを使った効率化を実践するところが出始めたところである。

だがこれらのほとんどは、テキスト処理である。テキストは記録として残せることから、定型業務に向いており、ゆっくりその正誤も含めて検討できる。AIの初期利用としては、理に適った方法であった。

一方音声チャットは「ライブ」なものだ。入力も出力も空中にどんどん消えていく。自ずと使い方が異なってくる。

音声処理のほうが、より人間の行動に直結する……というより、人間の行動に直結するようなことをAIに尋ねるようになるはずだ。

例えば筆者は趣味で農作物を育てているが、茄子やトマト、スイカの剪定方法は年に1度しかやらないので、忘れてしまう。スマホで検索したいが、そのためには手袋を外して操作しなければならないし、手が濡れているとテキスト入力もうまくできない。結局、畑ではどうにもならず、家に帰って調べてまた明日、ということが多い。

これが音声入力で、しかもかなり複雑なことを調べることができるのであれば、その場で作業が完了できる。今はわからないから後日、となっていたものが、その場で解決するシーンが多くなるだろう。

Say hello to GPT-4o

こうしたことは、本来なら10年前にできているはずだった。iPhoneに音声アシスタント「Siri」がされたのが2011年、Amazonが「Alexa」を搭載した「Echo」を発売したのが2014年である。

だがこれらの音声アシスタントは、私たちの自由かつ複雑な要求には答えられなかった。おりしも2014年ごろから、時代の合い言葉は「IoT」となり、音声アシスタントはIoTインターフェースという立ち位置へと寄せていく事になった。ライトを付けたりロボット掃除機を起動したり適当な音楽をかけたり、は音声でできるようになった。

だがその結果音声アシスタントは、爆上がりした未来への期待値をだだ下がりさせた。ちょっと手を動かせば済むことを、大変なコストをかけて声でやるのは、私たちが本当にやりたかったことではないはずだ。

そもそも私たちが日々の生活の中で知りたいことは、プログラムソースの概要や改良点ではない。「次のバスまで何分か」、「ブルー・オイスターカルトで一番売れたアルバムはどれか」、「肉野菜炒めで肉にまぶすのは小麦粉だったか片栗粉だったか」といった、手が離せない時に他の人にわざわざ聞くには憚られるような情報である。

「くだらない質問」がAIの認知度を上げる

OpenAIはこれまで、無償で利用できる範囲を制限してきた。無償版はちょっと性能が古い、最新版は有料でといった格好だ。だが今年の傾向を見る限り、無償版は機能的に劣るものを提供するのではなく、機能的に同じだが回数や優先順位を制限するといった方向に変化している。機能的に劣ったものを提供するのは、社会にとってメリットがないと判断したようだ。

映像・音声が直接処理できるAIを利用するには、カメラとマイクが付いたデバイス、つまりスマホかPCが必須だ。現在AppleはAIに関してこれといった成果を上げていないが、次期iOSにはGPTかGeminiを統合するのではないかと報じられている。GoogleはGeminiをAndroidに統合していくだろう。

GoogleはGeminiを推進

こうしたプラットフォームに組み込まれたAIを利用するには、一部は無料で、ヘビーユーザーはなんらかの形で利用料を支払うことになるだろう。スマホ上にはすでに課金システムがあるので、サブスクはもちろんのこと、ファミリープランなどが登場するかもしれない。

これは、大きなビジネスになる。くだらない質問でも、いやくだらない質問だからこそ、数が大量に発生すれば、課金ユーザーにならざるを得ないからだ。GPT-4oを基準にすると月額20ドル(約3,200円)ぐらいになるが、くだらない質問を処理するためにこの利用料は見合わないと考える人は多いだろう。これまでの音声アシスタント同様、ちょっと手を動かしてググれば済む話だからだ。

だが筆者は、20ドル払ってもいいと思っている。

それは、家族からのこうした「どうでもいい質問に回答する側」という役割から解放されるなら、である。

ファミリープランで20ドル程度なら全然アリと考えるパパ層は、それなりに多いはずだ。つまりどうでもいいことを自分で調べず人に聞くことで解決してきた人達の数が、AIの利用料を爆増させる原資になり得る。

AIは、それを使いたがる人、適切なプロンプトを考えられる人にしか恩恵がなかった。だがAIへの入力方法が変わるだけで、これまでAIに縁がなかった人達がAIに繋がることになる。

インターネットの普及から25年、スマートフォンの普及から10年だ。「見て、しゃべれるAI」の登場は、それと同じぐらいのインパクトがある社会現象になる可能性がある。

小寺信良

テレビ番組、CM、プロモーションビデオのテクニカルディレクターとして10数年のキャリアを持ち、「難しい話を簡単に、簡単な話を難しく」をモットーに、ビデオ・オーディオとコンテンツのフィールドで幅広く執筆を行なう。メールマガジン「小寺・西田のマンデーランチビュッフェ」( http://yakan-hiko.com/kodera.html )も好評配信中。