小寺信良のくらしDX

第34回

AIでテレビもDX? 広がる顔認識と自動化の世界

Inter BEE 2025(撮影:AV Watch)

今やカメラのオートフォーカスは、人間の顔を認識してそこに合わせるという方法が主流となった。中には右目か左目かを選べたり、人間だけではなくペットの顔も認識するといった機能を持つものも出てきている。

これらの処理は、以前のように一番手前のものを距離センサーで探してフォーカスを合わせるのではなく、画面の中から学習済みのAIが人間の顔を探して認識するという動作になっている。ただ、「AI」というワードを前面に押し出しているメーカーは少ない。

「機械学習」という堅苦しい言葉が使われてきていたが、昨今のAIブームよりも前にこの技術は完成したので、今あからさまにAIを名乗ると期待値のハードルが上がりすぎる、というところなのかなと思う。

フォーカス以外の部分で使われている顔認識では、ドローンへの応用がある。先日「DJI Neo 2」という超小型ドローンをテストしたが、顔認識はもちろん、人間の骨格も含め全身を認識することで、後ろ向きでも人間をフォローして追尾できるといった機能を有している。また斜め後ろといった微妙な方向まで認識できるので、人の正面はどっちかを、顔の向きや進行方向からAIが判断しているということである。

DJI Neo 2

コンシューマでもそうなのだから、我々が毎日の生活の中で身近な存在でもあるテレビ番組の中でも、当然活用されているはずだ。その成果を11月下旬に開催された放送機器展、「Inter BEE 2025」で見ることができた。

人間の顔を捉えてワイプ抜きする技術

パナソニックコネクトのブースで展示されていたのが、AIによって顔を認識し、それを自動的にワイプで抜く「AI Face Crop」という機能だ。

最近テレビではお昼の情報番組として、かなり長時間生放送を行なう傾向にあるが、VTRの紹介中にキャスターやコメンテーターのリアクションを四角く囲って上に合成する、いわゆる「ワイプ抜き」と呼ばれる手法が多く用いられるようになった。

AIによる「自動ワイプ抜き」を実現する「AI Face Crop」

昔はこうした合成は編集時にゆっくり行なうものだったが、昨今は生放送でやる機会の方が増えている。これをライブでやるのは、なかなか大変だ。多くの場合、スイッチャーで四角く切った枠の中に、カメラマンがうまく収まるように位置を調整して収めているのが現状だ。

ワイプの人数が増えればそれに従事するカメラマンの人数も増えるし、ましてや立っているキャスターが微妙に動き回っているような状況では、難易度が爆上がりする。

こうしたワイプ抜きを、AIによる顔認識でやらせようというわけである。これはパン・チルト・ズームがリモート制御できる、いわゆるPTZカメラの制御システムで導入された機能だが、カメラが追尾するわけではない。全体が映っている固定映像から、顔の部分だけをAIが自動で追いかけながら切り抜くので、カメラの方を動かす必要がないわけだ。

同様にこの顔認識機能を使って、人物の顔だけに自動的にモザイクをかけたりぼかしを入れたり、顔の部分に別の画像を貼り付けたりといった「AI Effect Filter」機能も実現できる。

またユーザーが指定した構図に自動的にカメラを動かしてくれる「Advanced Auto Framing」という機能も紹介された。例えば人物1人のバストショットを指定すると、人物が動き回っても常にカメラを動かしてバストショットを撮ってくれる。さらに複数人のグループショットも指定できるので、3人のゲストを常に撮り続けるといった指定も可能だ。

人物を自動的に追いかけて最適な画角で撮影する「Advanced Auto Framing」

こうした機能は、すでにコンシューマでも会議用やリモート授業用として、Insta360 Link2といった商品があるが、それの放送機器版というわけである。

人間のカメラマンと協働するAI

キヤノンブースでは、人間のカメラマンとAIによるカメラ制御が連動してスタジオ撮影を行なう「マルチカメラ オーケストレーション」ソリューションを展示した。

スタジオ撮影をAIのカメラで撮影?

これは1人のメインカメラマンに対して、複数台のサブカメラをAIが自動的に動かすというスタジオ撮影向けのシステムだ。メインカメラマンが出演者の誰かにズームインすると、他のカメラは全員を撮影するために引き絵を撮ったり、メインカメラが捉えている人物以外の人にズームインしたりと、多彩な動きを見せる。

1台はカメラマンが撮影し、残り2台はAIが自動撮影する

現在こうしたマルチカメラによる生放送は、3台ほどのスタジオカメラに、それぞれにカメラマンが付いて、手動で行なっている。ディレクターの指示によってあるカメラが1人にズームインすると、他のカメラマンは同じ映像にならないように、サイズを変えたり他の人を映したりという、阿吽の呼吸で成り立っている。こうしたことを、カメラマンは1人でサブカメラはAIに任せようというわけだ。

各AIカメラは、自分が撮っている人物の動きしか把握していない。今年の進化点として、現在どのカメラでも捉えていない人物が新しく入ってきたときにどうするか、を解決してみせた。スタジオを広く撮影しているカメラを用意して、それが各カメラが捉えている以外の全体の状況を撮影する。この情報を他のカメラに渡すことで、新しく入ってきた人にも対応しようというわけだ。

人手不足が深刻化するテレビ局

テレビ番組制作とは、大人数がいっぺんに集まって、せーので作ってしまうという作業である。特に毎日の生放送ともなれば、毎回綿密な下準備ができるわけではなく、かといって一度始まってしまうと途中では止められないので、現場で多くの人がそれぞれの立場で細かい判断をしていかないと成り立たないという性質を持っている。

テレビ局の編成を見ても、以前は生放送といえば朝夕と夜のニュース番組ぐらいしかなかったが、昨今は午前と午後の2〜3時間を生放送の情報番組で埋めるという傾向が強くなっている。

これらはキー局の都合ではあるものの、それをネット放送する地方局も、途中から地方枠へ移ったり、事件事故現場やイベント中継での対応を求められることで、生放送に従事する時間が増えている。

一方で地方局で深刻化するのが、若い世代のテレビマンの不足だ。そもそも若い人自体が人口流出により地方から減ってしまっている中、テレビ局勤務は仕事が激務で不規則ということで、敬遠される傾向が高まっている。また昨今は大学生ぐらいになるとテレビを見ない・持っていないという層も一定数おり、就職先を地方のテレビ局に据えるという人は激減している。

2010年代からはテレビ放送技術のIP化により、コストダウンや合理化が進むと言われてきたが、日本においては画質や遅延の問題、あるいはテレビ技術者はIPネットワークのことがほとんどわからないといった事情があり、導入が進まなかった。ところがコロナ禍になると、遠隔操作の必要性や、人手不足をカバーする方法として、IP化が検討されるようになってきた。

今回ご紹介したAIソリューションは制御が必要なので、IPソリューションとも言える。そのほとんどが、生放送時の人手不足を解消したい地方局へ向けたものであるのも特徴的だ。キー局ではまだ技術者不足という話は聞こえてこないが、地方にお住まいの方は、いつも見ている地元ローカル番組の半分ぐらいは、AIが撮っている映像になっていくのではないかと思われる。

AIが人間の仕事を奪うと言われて久しいが、就職を控えた大学生もAIに奪われない職は何かを意識し始めており、採用する企業側もAIの導入により新卒の採用を減らし始めている。

一方テレビ局の場合は仕事を奪うも何も、人が足りなくて仕事にならない部分をAIで何とかできないか、と四苦八苦している状態が顕著になってきた。

テレビ放送は毎日定期的に決まった時間分のコンテンツを量産しなければならないという産業であるが、工場による生産のような自動化・ロボット化が難しい。どこまで人の手を残していくか、あるいは人の手を残す必要があるのかといったことも踏まえて、こちらもある意味、「AIに流されゆく仕事」になるのかもしれない。

小寺 信良

テレビ番組、CM、プロモーションビデオのテクニカルディレクターとして10数年のキャリアを持ち、「難しい話を簡単に、簡単な話を難しく」をモットーに、ビデオ・オーディオとコンテンツのフィールドで幅広く執筆を行なう。メールマガジン「小寺・西田のマンデーランチビュッフェ」( http://yakan-hiko.com/kodera.html )も好評配信中。