トピック
自分専用の秘書になる? 「ChatGPTエージェント」は使えるか Webサイトが変わりそう
2025年8月14日 08:30
2025年7月にChatGPTの新機能「ChatGPT エージェント」が登場しました。AIがユーザーに成り代わってWebブラウジングやオフィス文書の作成などをしてくれるというものです。人が日常的に行なう複雑なUI操作も可能で、まさに自分専用の秘書のようなツールになってくれそうな予感。
そこで、今回は「新幹線予約」と「経費処理」の作業をChatGPT エージェントにお願いしてみて、本当に秘書になりうるツールなのか確かめてみました。
ChatGPT エージェントは2025年8月10日現在、有料プランの「ChatGPT Plus/Team/Pro」で利用でき、1カ月間の使用回数に制限(PlusとTeamは40回、Proは400回)があります。
新幹線の予約をしてもらう
まずは小手調べということで、新幹線の予約をお願いしてみることにしました。人間が作業する場合、たいていは目的地に到着したい時刻に間に合う列車を探し、席を選び、予約するという手順になるかと思います。それほど煩雑な作業ではありませんが、誰かが代わりにやってくれるならそれに越したことはない、というくらいには手間ではあるでしょう。
ChatGPT エージェントを利用するには、チャット入力欄にある「+」ボタンから「エージェント」を選んでプロンプトを入力します。漠然と「○○時に到着する東京から名古屋までの新幹線を予約して」のように指示してもOKですが、詳しく丁寧に指示した方がスムーズに作業してくれます。自分の仕事のしかたや好みを全く知らない新人の秘書に依頼する、といったイメージでいるといいかもしれません。
今回は下記のプロンプトを実行しました。「詳しく丁寧に」という意味では、窓側と通路側のどちらの席にするかなど、好みを追記しておくのもおすすめです。予約サイトを指定しない場合、AIが訪日外国人向けのWebサイトを利用しようとすることがあるので注意しましょう。
新幹線の予約をしてもらうプロンプトの例
8月15日12時までに名古屋に到着できるよう、東京からの新幹線を予約してください。
・予約には「エクスプレス予約」を利用する
・「のぞみ」号を優先する
・指定席券を探し、なければ自由席券を選ぶ
・時間に間に合う列車がないなど、判断に迷う場面ではユーザーの指示を仰ぐ
ChatGPT エージェントは、AIがWebブラウジングするための仮想環境を立ち上げて、その中で作業します。ユーザーのデスクトップ環境を直接操作するわけではないので、エージェントの作業中はチャット画面を離れてユーザーが別の作業をしてもかまいません。複数のチャットでエージェントに異なる指示を与えて並行作業させるのもアリです。
ただし、Webサービスへのログインや決済処理など要所では作業を中断しユーザーの入力や判断を求めます。決済のようなクリティカルな場面でユーザー自身が操作する仕組みになっているのは安心でしょう。ただし、最初にプロンプトで「○○の時には確認を求めない」と指示するか、途中で判断が求められたときに「同じボタン操作は今後は自動で進める」などと指示すれば、内容によってはユーザー操作をスキップできる場合もあります。
チャット画面内には仮想環境上での作業風景がリアルタイムで表示されるようにもなっています。具体的に何をしているのかを観察できますし、現在の作業内容について気付いたことがあればチャットで追加指示を与えることもできます。また、作業内容は全て画面録画されていて過去に巻き戻せるようにもなっています。ユーザーが他の作業をしている間、AIが何をしていたのか後でチェックしたいときに便利です。
しかしながら、エージェントの作業は決して迅速とは言えません。操作の都度、おそらくは画面のスクリーンショットを取得して状態確認し、それを元に操作すべきことを決める、というような仕組みになっていて、画像内容の判断にそれなりの時間がかかっているようです。
また、今回主に使用した「エクスプレス予約」のWebサイトのUIによるものなのか、それともAIの処理精度の問題なのか、クリックする箇所がズレたり、ページ読込に時間がかかっているせいで何度もクリックしたりと、余計な操作がたびたび発生していました。こうしたクリックの座標ズレやタイミングズレは意図しないページへの遷移につながったりもするので、AI自身が軌道修正するためになおさら時間がかかります。
結局、筆者が一度手助けしつつ、指示に沿った列車を選んで決済手前の画面に到達するまでに15分かかりました。一般的なニーズを汲み取ったのか窓側席を選んでくれたようですが、名古屋9時39分着の便が選択されており、こちらの指示した「12時まで」という条件に合ってはいるものの、早すぎる到着です。ここは「12時直前に到着するように」と指示した方が良かったかもしれません。
経費処理を手伝ってもらう
大事な業務であることは理解しつつも、あまりにも面倒で後回しにしてしまいがちなのが経費処理。筆者は「マネーフォワード クラウド経費」を利用していますが、処理すべき件数が多いと丸1日かかりきりになってしまうこともあります。作業を一部肩代わりしてくれるだけでもかなりの負担減になるのですが……。
というわけで、続いては経費処理の事前作業をChatGPT エージェントにお願いしてみました。電子マネーやクレジットカードなど他サービスとの連携で取り込んだ支払い内容を経費申請できるように情報登録する、というものです。いつも筆者が行なっている作業の一部を列挙したプロンプトが下記となります。
経費処理してもらうプロンプトの例
「マネーフォワード クラウド経費」で、経費処理のための事前作業をお願いします。
・ログインする
・メニューの「個人設定」→「連携サービス」にアクセスし、登録されている各連携サービスの「…」ボタンから「再取得」を実行する
・連携サービスの再取得が完了したものについては、その金額表示付近をクリックし、「連携サービスから登録」画面へ
・2025年7月の1カ月間の経費について、下記の条件のもと作業する
連携サービスが「モバイルSuica」の場合
・「支払先内容」が「物販」かつ金額が「120円以上」のものは「対象外」とする
・それ以外は「登録」する
・経費科目が空欄になっているものは「登録」できないので、「編集登録」ボタンをクリックし、経費科目を「旅費交通費」として「作成する」ボタンを押す
連携サービスが「三井住友カード」の場合
・「支払い先内容」が「Suica(GooglePay)」のものは「対象外」とする
・「支払い先内容」が「AMAZON.CO.JP」のものは「対象外」とする
・「支払い先内容」がレストラン、スーパーマーケット、酒店、米穀店と思われるものは「対象外」とする
・「支払い先内容」が「NHK 放送受信料」のものは「対象外」とする
・それ以外は「登録」する
連携サービスが「Amazonビジネス」の場合
・「支払い先内容」が飲料と思われるものは「対象外」とする
・それ以外は「編集登録」で経費科目を「備品・消耗品費」とし、
支払先・内容については、メーカーや商品名が分かる最小限の内容だけ残した短いものにし、先頭に「Amazon 」を付加して「作成」する
連携サービスが「Amazon.co.jp」の場合
・何もしない
※最初に、明らかに対象外のものはチェックボックスにチェックを入れ、「選択した支出を対象外」ボタンで一括で対象外にすると効率的です。
これまで同じことを何度もやってきた筆者としてはもはや単純作業ではあるのですが、それと同じことをAI(他人)にやってもらうとなると、意外に細かい指示が必要になることが分かります。仕事の引き継ぎなんかと全く同じです。本当はもっと他にも指示したいことがあるのですが、AI本人の自主性にも期待して簡略化しました。
で、結論を言うと、1時間かかっても全件を処理するには至らず、期待していた3分の1程度の処理で終了してしまいました。登録の対象外とするべきものが一部残っていますし、登録すべきものはほとんど手つかずです。追加の指示を与えることで作業を進めてくれそうですが、こうした面倒な作業を勝手に進めて終わらせてほしい、というのがこちらの期待するところなので、秘書として合格点を出すことはできません。
ただ、作業内容を眺めていたところでは、「支払い先内容がレストラン、スーパーマーケット、酒店、米穀店と思われるものは対象外とする」という指示を元に、それらしい項目を見つけて正しく処理していましたし、誤った操作をしてもAI自らすぐに気付いて修正していました。AIが作業した内容自体に致命的なミスはないので、こちらの指示内容に誤りがない限りはわりと安心して任せられそうです。
秘書にするにはまだ少し早いけれど、テスターとしては有用かも
ChatGPT エージェントが秘書としてバリバリ活躍してくれるかというと、今のところはそうではなく、まだまだ厳しいと感じます。自分でやった方が断然早いですし、クリックをミスしたり、見当違いなページに移動したり、操作を間違えてやり直したり……というのが頻繁に発生していて、AIの作業を眺めているともどかしく感じるほどです。
しかし、こうしたAIのミスはAIの精度だけの問題ではないようにも思います。今回試したWebサイトにおいては、クリックできる箇所がどこなのか分かりにくかったり、ボタンやチェックボックスなどのクリック範囲が狭すぎたりして、それがAIの判断を迷わせているような場面がしばしば見受けられました。
また、ページ上のボタンをクリックしてから画面にしばらく変化がないままだと、ページの読み込み中なのか、クリックとして判定されていないのか、そもそもクリックできるボタンではなかったのか、といったことがChatGPT エージェントにはすぐには見分けられません。おそらくスクリーンショットからしか判断していないので、どうしても1操作ごとに一定の待機時間が必要(変化が発生するまで待機すること)になり、効率的な作業はまず不可能です。
ほとんどのWebが人間相手を想定した作りになっているので仕方のないところですが、そうしたことを考えると、いずれはAIとWebサイトが専用のプロトコルを通じて無駄なく処理するような未来も想像できます。昨今話題になっているMCPのようなものがその役割を担うことになるのかもしれません。
それはさておき、ChatGPT エージェントの判断の仕方と、人間の判断の仕方に大差がないことも確か。そこから考えると、AIが操作に手こずるWebサイトは、人間にとっても使いにくいWebサイトである、と言えます。なので、あえて自社のWebサイトをChatGPT エージェントに操作させてみて、スムーズに操作できない箇所を見つけてユーザビリティ改善に役立てる、なんていう活用の仕方もありそうです。
ChatGPT エージェントの日本語Webサイトへの最適化がまだ十分に進んでいない、という可能性もゼロではないものの、今のところ秘書としては力不足。でも、ある意味賢すぎないおかげでWebサイトのUI改善などテスター的な役割であれば有用ではないか、というのが筆者の感想です。ECサイトやWebアプリを運営している方は、ユーザー視点を知るために一度試してみてはいかがでしょうか。





















